Thế giới AI đang xôn xao với những đồn đoán sau khi DeepSeek phát hành phiên bản nâng cao của mô hình suy luận R1. Phòng thí nghiệm AI Trung Quốc này đã hé lộ một mô hình thể hiện khả năng ấn tượng trong các tiêu chuẩn toán học và mã hóa. Tuy nhiên, nguồn gốc của dữ liệu được sử dụng để đào tạo mô hình này đã trở thành tâm điểm của cuộc thảo luận, với một số nhà nghiên cứu AI cho rằng có một mối liên hệ có thể có với họ Gemini AI của Google.
Mô hình R1 của DeepSeek: Cái nhìn cận cảnh
Mô hình suy luận R1 của DeepSeek đã thu hút sự chú ý vì hiệu suất của nó trong các lĩnh vực như giải quyết vấn đề toán học và các tác vụ mã hóa. Sự miễn cưỡng của công ty trong việc tiết lộ các nguồn dữ liệu cụ thể được sử dụng trong quá trình đào tạo mô hình đã làm dấy lên những đồn đoán trong cộng đồng nghiên cứu AI.
Các cáo buộc về ảnh hưởng của Gemini
Trọng tâm của cuộc tranh luận xoay quanh khả năng DeepSeek tận dụng các đầu ra từ Gemini của Google để nâng cao mô hình của riêng mình. Sam Paech, một nhà phát triển AI chuyên đánh giá “trí tuệ cảm xúc”, đã đưa ra bằng chứng cho thấy mô hình R1-0528 của DeepSeek thể hiện các ưu tiên về ngôn ngữ và cách diễn đạt tương tự như những ưu tiên được Gemini 2.5 Pro của Google ưa chuộng. Mặc dù chỉ riêng quan sát này không cấu thành bằng chứng xác đáng, nhưng nó đã góp phần vào cuộc thảo luận đang diễn ra.
Thêm một lớp khác vào cuộc thảo luận, người tạo ra “SpeechMap” ẩn danh, một công cụ đánh giá AI tập trung vào tự do ngôn luận, lưu ý rằng “những suy nghĩ” do mô hình DeepSeek tạo ra – các quy trình suy luận nội bộ mà nó sử dụng để đi đến kết luận – có sự tương đồng với các mẫu dấu vết của Gemini. Điều này càng làm tăng thêm câu hỏi liệu DeepSeek có sử dụng dữ liệu từ họ Gemini của Google hay không.
Các cáo buộc trước đây và những lo ngại của OpenAI
Đây không phải là lần đầu tiên DeepSeek phải đối mặt với các cáo buộc sử dụng dữ liệu từ các mô hình AI cạnh tranh. Vào tháng 12, người ta đã quan sát thấy rằng mô hình V3 của DeepSeek thường xác định mình là ChatGPT, chatbot AI được sử dụng rộng rãi của OpenAI. Điều này dẫn đến những nghi ngờ rằng mô hình có thể đã được đào tạo trên nhật ký trò chuyện ChatGPT.
Thêm vào sự hấp dẫn, OpenAI được cho là đã phát hiện ra bằng chứng vào đầu năm nay liên kết DeepSeek với việc sử dụng chưng cất, một kỹ thuật liên quan đến việc trích xuất dữ liệu từ các mô hình AI lớn hơn, mạnh hơn để đào tạo các mô hình nhỏ hơn. Theo các báo cáo, Microsoft, một cộng tác viên và nhà đầu tư quan trọng của OpenAI, đã phát hiện ra sự rò rỉ dữ liệu đáng kể thông qua các tài khoản nhà phát triển OpenAI vào cuối năm 2024. OpenAI tin rằng các tài khoản này có liên quan đến DeepSeek.
Mặc dù chưng cất là một thông lệ phổ biến trong thế giới AI, nhưng các điều khoản dịch vụ của OpenAI cấm người dùng sử dụng các đầu ra mô hình của công ty để tạo ra các hệ thống AI cạnh tranh. Điều này làm dấy lên những lo ngại về khả năng vi phạm các chính sách của OpenAI.
Thách thức về “ô nhiễm” AI
Điều quan trọng cần xem xét là các mô hình AI, trong quá trình đào tạo, có thể hội tụ vào từ vựng và cách diễn đạt tương tự. Điều này chủ yếu là do web mở, nguồn dữ liệu đào tạo chính cho các công ty AI, ngày càng bão hòa với nội dung do AI tạo ra. Các trang trại nội dung sử dụng AI để tạo ra các bài viết mồi nhử nhấp chuột và bot tràn ngập các nền tảng như Reddit và X với các bài đăng do AI tạo ra.
Sự “ô nhiễm” của bối cảnh dữ liệu này gây khó khăn cho việc lọc hiệu quả nội dung do AI tạo ra khỏi các tập dữ liệu đào tạo. Do đó, việc phân biệt xem đầu ra của một mô hình có thực sự bắt nguồn từ dữ liệu của một mô hình khác hay chỉ phản ánh sự hiện diện phổ biến của nội dung do AI tạo ra trên web có thể khó khăn.
Quan điểm của chuyên gia về vấn đề này
Bất chấp những thách thức trong việc chứng minh một cách chắc chắn mối liên hệ, các chuyên gia AI như Nathan Lambert, một nhà nghiên cứu tại viện nghiên cứu AI AI2, tin rằng khả năng DeepSeek đào tạo trên dữ liệu từ Gemini của Google là hợp lý. Lambert gợi ý rằng DeepSeek, phải đối mặt với những hạn chế về tính khả dụng của GPU nhưng sở hữu nguồn tài chính dồi dào, có thể thấy hiệu quả hơn khi sử dụng dữ liệu tổng hợp do mô hình API tốt nhất hiện có tạo ra.
Các công ty AI tăng cường các biện pháp bảo mật
Những lo ngại về chưng cất và sử dụng dữ liệu trái phép đang thúc đẩy các công ty AI tăng cường các biện pháp bảo mật của họ. OpenAI, chẳng hạn, hiện yêu cầu các tổ chức hoàn thành quy trình xác minh ID để truy cập một số mô hình nâng cao nhất định. Quy trình này đòi hỏi ID do chính phủ cấp từ một quốc gia được API của OpenAI hỗ trợ, ngoại trừ Trung Quốc.
Google cũng đã thực hiện các bước để giảm thiểu khả năng chưng cất. Gần đây, họ đã bắt đầu “tóm tắt” các dấu vết được tạo bởi các mô hình có sẵn thông qua nền tảng nhà phát triển AI Studio của mình. Điều này gây khó khăn hơn cho việc đào tạo các mô hình cạnh tranh bằng cách trích xuất thông tin chi tiết từ các dấu vết Gemini. Tương tự, Anthropic đã công bố kế hoạch tóm tắt các dấu vết mô hình của riêng mình, với lý do cần bảo vệ “lợi thế cạnh tranh” của mình.
Ý nghĩa đối với bối cảnh AI
Cuộc tranh cãi xung quanh DeepSeek và việc sử dụng dữ liệu Gemini của Google tiềm năng làm nổi bật một số vấn đề quan trọng trong bối cảnh AI:
- Đạo đức dữ liệu và phát triển AI có trách nhiệm: Khi các mô hình AI ngày càng trở nên tinh vi, các cân nhắc về đạo đức xung quanh việc tìm nguồn cung ứng và sử dụng dữ liệu trở nên tối quan trọng. Các công ty AI cần đảm bảo rằng họ tuân thủ các nguyên tắc đạo đức và tôn trọng quyền sở hữu trí tuệ của người khác.
- Tác động của nội dung do AI tạo ra: Sự gia tăng của nội dung do AI tạo ra trên web đặt ra một thách thức cho quá trình đào tạo AI. Khi dữ liệu ngày càng trở nên “ô nhiễm”, việc đảm bảo chất lượng và tính toàn vẹn của các mô hình AI trở nên khó khăn hơn.
- Sự cần thiết của tính minh bạch và trách nhiệm giải trình: Các công ty AI nên minh bạch về các nguồn dữ liệu và phương pháp đào tạo của họ. Điều này sẽ giúp xây dựng lòng tin và đảm bảo rằng AI được phát triển và sử dụng có trách nhiệm.
- Tầm quan trọng của các biện pháp bảo mật mạnh mẽ: Khi ngành công nghiệp AI ngày càng trở nên cạnh tranh hơn, các công ty AI cần thực hiện các biện pháp bảo mật mạnh mẽ để ngăn chặn truy cập trái phép vào dữ liệu và mô hình của họ.
Tương lai của phát triển AI
Cuộc tranh cãi về DeepSeek đóng vai trò như một lời nhắc nhở về những thách thức kỹ thuật và đạo đức phức tạp mà ngành công nghiệp AI đang phải đối mặt. Khi AI tiếp tục phát triển, điều quan trọng là các công ty AI, các nhà nghiên cứu và các nhà hoạch định chính sách phải làm việc cùng nhau để đảm bảo rằng AI được phát triển và sử dụng theo cách có lợi cho xã hội. Điều này bao gồm việc thúc đẩy tính minh bạch, trách nhiệm giải trình và các hoạt động dữ liệu có đạo đức.
Cuộc tranh luận đang diễn ra: Các cáo buộc chống lại DeepSeek nhấn mạnh những lo ngại ngày càng tăng xung quanh quyền riêng tư dữ liệu, bảo mật và phát triển AI có đạo đức. Việc thiếu minh bạch trong việc tìm nguồn cung ứng dữ liệu và ranh giới ngày càng mờ nhạt giữa việc thu thập dữ liệu hợp pháp và thu thập dữ liệu trái phép đòi hỏi các quy định rõ ràng và các hoạt động có trách nhiệm trong cộng đồng AI. Khi công nghệ này tiến bộ, ngành công nghiệp phải vật lộn với các vấn đề như quyền sở hữu trí tuệ, rủi ro “ô nhiễm AI” và khả năng gây ra những hậu quả không mong muốn.
Đạo đức của dữ liệu đào tạo AI: Cuộc tranh cãi xung quanh DeepSeek cũng làm nổi bật những cân nhắc về đạo đức nảy sinh khi thu thập dữ liệu đào tạo cho các mô hình AI. Với việc ngày càng phụ thuộc vào các tập dữ liệu lớn được thu thập từ internet, các câu hỏi như ai sở hữu dữ liệu, cách thức có được sự đồng ý (hoặc bị bỏ qua) và liệu dữ liệu có được sử dụng một cách công bằng và có trách nhiệm hay không đang trở nên cấp bách hơn. Cộng đồng AI phải thiết lập các nguyên tắc rõ ràng để tìm nguồn cung ứng dữ liệu, tôn trọng luật bản quyền, bảo vệ thông tin cá nhân và giảm thiểu sự thiên vị.
Cuộc chạy đua thống trị AI: Các cáo buộc chống lại DeepSeek cũng có thể được hiểu là sự phản ánh của cuộc chạy đua quyết liệt để thống trị AI giữa Hoa Kỳ và Trung Quốc. Cả hai quốc gia đều đang đổ hàng tỷ đô la vào nghiên cứu và phát triển AI, và áp lực đạt được những đột phá đang thúc đẩy sự cạnh tranh và có khả năng cắt giảm các góc. Nếu DeepSeek thực sự đang sử dụng dữ liệu của OpenAI hoặc Google mà không được phép, điều đó có thể được hiểu là một ví dụ về các chiến thuật hung hăng và hành vi trộm cắp tài sản trí tuệ đã từ lâu ám ảnh mối quan hệ công nghệ Mỹ-Trung.
Hàm ý rộng hơn đối với hệ sinh thái AI: Mặc dù trọng tâm hiện tại là vào DeepSeek, nhưng trường hợp này có thể có những tác động rộng lớn hơn đối với toàn bộ hệ sinh thái AI. Nếu chứng minh được rằng DeepSeek đã sử dụng dữ liệu từ ChatGPT hoặc Gemini một cách bất hợp pháp, điều đó có thể thúc đẩy các công ty khác kiểm tra nghiêm ngặt các hoạt động tìm nguồn cung ứng dữ liệu của chính họ, có khả năng làm chậm tốc độ phát triển và tăng chi phí. Nó cũng có thể dẫn đến các quy định chặt chẽ hơn xung quanh việc thu thập và sử dụng dữ liệu, không chỉ ở Mỹ và Trung Quốc mà còn trên toàn cầu.
Tác động của dữ liệu được tạo tổng hợp: Sự xuất hiện của dữ liệu tổng hợp, được Lambert đề xuất, như một giải pháp thay thế khả thi cho các mô hình đào tạo làm dấy lên các câu hỏi cơ bản về tương lai của phát triển AI. Mặc dù các tập dữ liệu tổng hợp bỏ qua một số lo ngại về đạo đức và bản quyền liên quan đến dữ liệu thế giới thực, nhưng hiệu suất và tính mạnh mẽ của các mô hình được đào tạo trên dữ liệu tổng hợp thường không phù hợp với các mô hình được đào tạo trên dữ liệu gốc. Cộng đồng AI cần tìm ra các phương pháp sáng tạo để tạo ra các tập dữ liệu tổng hợp phức tạp đáp ứng nhu cầu của ngành mà không ảnh hưởng đến độ chính xác và độ tin cậy.
Tóm tắt mô hình như một hình thức quản trị dữ liệu: Quyết định gần đây của Google và Anthropic để bắt đầu “tóm tắt” các dấu vết do mô hình của họ tạo ra cho thấy tầm quan trọng ngày càng tăng của quản trị dữ liệu trong ngành công nghiệp AI. Bằng cách làm rối thông tin chi tiết trong quy trình ra quyết định của mô hình, các công ty đang gây khó khăn hơn cho người khác trong việc thiết kế ngược công nghệ của họ. Cách tiếp cận này có thể giúp bảo vệ bí mật thương mại và duy trì các hoạt động tìm nguồn cung ứng dữ liệu có đạo đức, nhưng nó cũng đặt ra câu hỏi về tính minh bạch và khả năng giải thích của các hệ thống AI.
Cân bằng sự đổi mới với các cân nhắc về đạo đức và pháp lý: Cuộc tranh cãi về DeepSeek nhấn mạnh sự cần thiết phải tìm ra sự cân bằng cẩn thận giữa việc khuyến khích sự đổi mới AI và bảo vệ quyền sở hữu trí tuệ, đồng thời đảm bảo tuân thủ các nguyên tắc đạo đức. Khi các mô hình AI tiếp tục phát triển về độ tinh vi và phức tạp, các thách thức về đạo đức và pháp lý mà ngành công nghiệp phải đối mặt sẽ chỉ trở nên rõ rệt hơn. Tìm ra sự cân bằng phù hợp giữa những lo ngại này sẽ rất quan trọng để thúc đẩy sự phát triển có trách nhiệm và bền vững của AI.