DeepSeek: Sao chép Gemini? Nghi vấn lộ diện

Mô hình AI DeepSeek: Huấn luyện trên Gemini của Google? Một Cuộc Tranh Cãi Mở Ra

Thế giới trí tuệ nhân tạo không lạ gì những tranh cãi, và sự phát triển mới nhất liên quan đến phòng thí nghiệm AI Trung Quốc DeepSeek. Gần đây, DeepSeek đã công bố phiên bản cập nhật của mô hình lý luận R1, thể hiện khả năng ấn tượng trong việc giải quyết các chuẩn mực toán học và mã hóa. Tuy nhiên, nguồn dữ liệu được sử dụng để huấn luyện mô hình này đã gây ra cuộc tranh luận đáng kể giữa các nhà nghiên cứu AI, với một số người suy đoán rằng nó có thể bắt nguồn, ít nhất là một phần, từ gia đình mô hình AI Gemini của Google. Sự nghi ngờ này đặt ra những câu hỏi quan trọng về các hoạt động đạo đức, nguồn dữ liệu và bối cảnh cạnh tranh trong ngành AI.

Bằng Chứng Được Trình Bày

Cuộc tranh cãi bắt đầu khi Sam Paech, một nhà phát triển có trụ sở tại Melbourne, chuyên tạo ra các đánh giá “trí tuệ cảm xúc” cho các hệ thống AI, đã trình bày những gì anh ta tuyên bố là bằng chứng cho thấy mô hình mới nhất của DeepSeek đã được huấn luyện trên các đầu ra do Gemini tạo ra. Theo Paech, mô hình của DeepSeek, được xác định là R1-0528, thể hiện sự ưu ái đối với các từ và cách diễn đạt cụ thể, tương tự đáng kể với những từ và cách diễn đạt được Gemini 2.5 Pro của Google ưa chuộng. Mặc dù chỉ quan sát này thôi có thể không mang tính kết luận, nhưng nó gióng lên một hồi chuông cảnh báo và đảm bảo cần điều tra thêm.

Thêm vào sự hấp dẫn, một nhà phát triển khác, hoạt động dưới bút danh SpeechMap và nổi tiếng với việc tạo ra một “đánh giá tự do ngôn luận” cho AI, đã chỉ ra rằng các dấu vết của mô hình DeepSeek - những “suy nghĩ” mà nó tạo ra khi nó hướng tới một kết luận - “đọc như dấu vết Gemini.” Sự hội tụ của các mẫu ngôn ngữ và quá trình suy nghĩ này càng làm tăng thêm sự nghi ngờ rằng DeepSeek có thể đã sử dụng các đầu ra của Gemini trong quá trình huấn luyện.

Các Cáo Buộc Trước Đây Đối Với DeepSeek

Đây không phải là lần đầu tiên DeepSeek phải đối mặt với những cáo buộc về việc huấn luyện các mô hình AI của mình trên dữ liệu từ các hệ thống AI đối thủ. Vào tháng 12 năm ngoái, các nhà phát triển đã nhận thấy rằng mô hình V3 của DeepSeek thường tự nhận mình là ChatGPT, nền tảng chatbot hỗ trợ AI của OpenAI. Hành vi kỳ lạ này cho thấy rằng mô hình có thể đã được huấn luyện trên nhật ký trò chuyện ChatGPT, làm dấy lên lo ngại về những tác động đạo đức của một hành vi như vậy.

Đầu năm nay, OpenAI đã thông báo với Financial Times rằng họ đã phát hiện ra bằng chứng liên kết DeepSeek với việc sử dụng chưng cất, một kỹ thuật liên quan đến việc huấn luyện các mô hình AI bằng cách trích xuất dữ liệu từ các mô hình lớn hơn, có khả năng hơn. Hơn nữa, Microsoft, một cộng tác viên và nhà đầu tư chính của OpenAI, đã phát hiện ra một lượng lớn dữ liệu bị rò rỉ thông qua các tài khoản nhà phát triển OpenAI vào cuối năm 2024. OpenAI tin rằng những tài khoản này có liên kết với DeepSeek, củng cố thêm sự nghi ngờ về việc trích xuất dữ liệu trái phép.

Mặc dù chưng cất không phải là phi đạo đức về bản chất, nhưng các điều khoản dịch vụ của OpenAI cấm rõ ràng khách hàng sử dụng các đầu ra mô hình của công ty để xây dựng các hệ thống AI cạnh tranh. Hạn chế này nhằm bảo vệ quyền sở hữu trí tuệ của OpenAI và duy trì một môi trường cạnh tranh công bằng trong ngành AI. Nếu DeepSeek thực sự sử dụng chưng cất để huấn luyện mô hình R1 của mình trên các đầu ra của Gemini, thì đó sẽ là một hành vi vi phạm các điều khoản dịch vụ của OpenAI và làm dấy lên những lo ngại nghiêm trọng về đạo đức.

Những Thách Thức Của Ô Nhiễm Dữ Liệu

Điều quan trọng là phải thừa nhận rằng nhiều mô hình AI thể hiện xu hướng xác định sai bản thân và hội tụ trên các từ và cụm từ tương tự. Hiện tượng này có thể là do sự hiện diện ngày càng tăng của nội dung do AI tạo ra trên web mở, đóng vai trò là nguồn dữ liệu huấn luyện chính cho các công ty AI. Các trang trại nội dung đang sử dụng AI để tạo các bài viết nhấp chuột, và các bot đang tràn ngập các nền tảng như Reddit và X với các bài đăng do AI tạo ra.

Sự “ô nhiễm” của web với nội dung do AI tạo ra này đặt ra một thách thức đáng kể cho các công ty AI, khiến cho việc lọc kỹ lưỡng các đầu ra AI khỏi các tập dữ liệu huấn luyện trở nên vô cùng khó khăn. Kết quả là, các mô hình AI có thể vô tình học hỏi lẫn nhau, dẫn đến những điểm tương đồng được quan sát thấy trong ngôn ngữ và quá trình suy nghĩ.

Ý Kiến và Quan Điểm Của Chuyên Gia

Bất chấp những thách thức của ô nhiễm dữ liệu, các chuyên gia AI như Nathan Lambert, một nhà nghiên cứu tại viện nghiên cứu AI phi lợi nhuận AI2, tin rằng không phải là không thể DeepSeek đã huấn luyện trên dữ liệu từ Gemini của Google. Lambert gợi ý rằng DeepSeek, khi đối mặt với tình trạng thiếu GPU nhưng sở hữu nguồn tài chính dồi dào, có thể đã chọn tạo dữ liệu tổng hợp từ mô hình API tốt nhất hiện có. Theo quan điểm của ông, cách tiếp cận này có thể hiệu quả hơn về mặt tính toán đối với DeepSeek.

Quan điểm của Lambert nêu bật những cân nhắc thực tế có thể thúc đẩy các công ty AI khám phá các chiến lược tìm nguồn dữ liệu thay thế. Mặc dù việc sử dụng dữ liệu tổng hợp có thể là một kỹ thuật hợp pháp và hiệu quả, nhưng điều quan trọng là phải đảm bảo rằng dữ liệu được tạo ra một cách đạo đức và không vi phạm bất kỳ điều khoản dịch vụ hoặc hướng dẫn đạo đức nào.

Các Biện Pháp An Ninh và Nỗ Lực Phòng Ngừa

Để ứng phó với những lo ngại xung quanh việc chưng cất và ô nhiễm dữ liệu, các công ty AI đã tăng cường các biện pháp an ninh của họ. OpenAI, chẳng hạn, đã thực hiện một yêu cầu đối với các tổ chức phải hoàn thành quy trình xác minh ID để truy cập một số mô hình nâng cao nhất định. Quy trình này đòi hỏi một ID do chính phủ cấp từ một trong các quốc gia được API của OpenAI hỗ trợ, loại trừ Trung Quốc khỏi danh sách.

Google cũng đã thực hiện các bước để giảm thiểu rủi ro chưng cất bằng cách “tóm tắt” các dấu vết được tạo bởi các mô hình có sẵn thông qua nền tảng nhà phát triển AI Studio của mình. Quy trình tóm tắt này gây khó khăn hơn cho việc huấn luyện các mô hình đối thủ hoạt động hiệu quả trên các dấu vết Gemini. Tương tự, Anthropic đã thông báo vào tháng 5 rằng họ sẽ bắt đầu tóm tắt các dấu vết mô hình của riêng mình, viện dẫn sự cần thiết phải bảo vệ “lợi thế cạnh tranh” của mình.

Các biện pháp an ninh này thể hiện một nỗ lực phối hợp của các công ty AI để bảo vệ quyền sở hữu trí tuệ của họ và ngăn chặn việc trích xuất dữ liệu trái phép. Bằng cách thực hiện các biện pháp kiểm soát truy cập chặt chẽ hơn và làm xáo trộn các dấu vết mô hình, họ nhằm mục đích ngăn chặn các hành vi phi đạo đức và duy trì một sân chơi bình đẳng trong ngành AI.

Phản Hồi Của Google

Khi được liên hệ để bình luận, Google vẫn chưa phản hồi các cáo buộc. Sự im lặng này để lại chỗ cho suy đoán và càng làm gia tăng thêm cuộc tranh cãi. Khi cộng đồng AI chờ đợi một tuyên bố chính thức từ Google, những câu hỏi xung quanh các hoạt động tìm nguồn dữ liệu của DeepSeek tiếp tục kéo dài.

Những Tác Động Đối Với Ngành AI

Cuộc tranh cãi DeepSeek đặt ra những câu hỏi cơ bản về ranh giới đạo đức của sự phát triển AI và tầm quan trọng của việc tìm nguồn dữ liệu có trách nhiệm. Khi các mô hình AI ngày càng trở nên tinh vi và có khả năng hơn, sự cám dỗ cắt xén và sử dụng dữ liệu trái phép có thể trở nên mạnh mẽ hơn. Tuy nhiên, những hành vi như vậy có thể gây ra những hậu quả bất lợi, làm suy yếu tính toàn vẹn của ngành AI và làm xói mòn niềm tin của công chúng.

Để đảm bảo tính bền vững lâu dài và sự phát triển đạo đức của AI, điều bắt buộc là các công ty AI phải tuân thủ các hướng dẫn đạo đức nghiêm ngặt và ưu tiên các hoạt động tìm nguồn dữ liệu có trách nhiệm. Điều này bao gồm việc có được sự đồng ý rõ ràng từ các nhà cung cấp dữ liệu, tôn trọng quyền sở hữu trí tuệ và tránh sử dụng dữ liệu trái phép hoặc thiên vị.

Hơn nữa, cần có sự minh bạch và trách nhiệm giải trình lớn hơn trong ngành AI. Các công ty AI nên cởi mở hơn về các hoạt động tìm nguồn dữ liệu của họ và các phương pháp được sử dụng để huấn luyện các mô hình của họ. Sự minh bạch ngày càng tăng này sẽ giúp thúc đẩy sự tin tưởng và tự tin vào các hệ thống AI và thúc đẩy một hệ sinh thái AI có đạo đức và trách nhiệm hơn.

Cuộc tranh cãi DeepSeek đóng vai trò như một lời nhắc nhở kịp thời về những thách thức và cân nhắc đạo đức cần được giải quyết khi công nghệ AI tiếp tục tiến bộ. Bằng cách duy trì các nguyên tắc đạo đức, thúc đẩy sự minh bạch và thúc đẩy sự hợp tác, cộng đồng AI có thể đảm bảo rằng AI được sử dụng vì lợi ích của xã hội và không gây tổn hại đến các giá trị đạo đức.

Đi Sâu Vào Các Khía Cạnh Kỹ Thuật

Để hiểu rõ hơn về các sắc thái của vấn đề này, điều quan trọng là phải đi sâu vào các khía cạnh kỹ thuật về cách các mô hình AI được huấn luyện và các kỹ thuật cụ thể đang được đề cập, cụ thể là chưng cất và tạo dữ liệu tổng hợp.

Chưng Cất: Sao Chép Trí Thông Minh?

Chưng cất, trong bối cảnh AI, đề cập đến một kỹ thuật nén mô hình, trong đó một mô hình “học sinh” nhỏ hơn, hiệu quả hơn được huấn luyện để bắt chước hành vi của một mô hình “giáo viên” lớn hơn, phức tạp hơn. Mô hình học sinh học bằng cách quan sát các đầu ra của mô hình giáo viên, trích xuất kiến thức một cách hiệu quả và chuyển nó sang một kiến trúc nhỏ hơn. Mặc dù chưng cất có thể có lợi cho việc triển khai các mô hình AI trên các thiết bị bị hạn chế về tài nguyên, nhưng nó làm dấy lên những lo ngại về đạo đức khi dữ liệu hoặc kiến trúc của mô hình giáo viên là độc quyền.

Nếu DeepSeek sử dụng các đầu ra của Gemini để huấn luyện mô hình R1 của mình thông qua chưng cất mà không được phép, thì điều đó tương đương với việc sao chép trí thông minh của Gemini và có khả năng vi phạm quyền sở hữu trí tuệ của Google. Điểm mấu chốt ở đây là việc sử dụng trái phép các đầu ra của Gemini, vốn được bảo vệ bởi bản quyền và các cơ chế pháp lý khác.

Tạo Dữ Liệu Tổng Hợp: Con Dao Hai Lưỡi

Tạo dữ liệu tổng hợp liên quan đến việc tạo ra các điểm dữ liệu nhân tạo giống với dữ liệu thế giới thực. Kỹ thuật này thường được sử dụng để tăng cường các tập dữ liệu huấn luyện, đặc biệt khi dữ liệu thực tế khan hiếm hoặc tốn kém để có được. Tuy nhiên, chất lượng và tác động đạo đức của dữ liệu tổng hợp phụ thuộc rất nhiều vào cách nó được tạo ra.

Nếu DeepSeek sử dụng API của Gemini để tạo dữ liệu tổng hợp, câu hỏi đặt ra là: dữ liệu này giống với các đầu ra thực tế của Gemini đến mức nào và nó có vi phạm quyền sở hữu trí tuệ của Google hay không? Nếu dữ liệu tổng hợp chỉ được lấy cảm hứng từ Gemini nhưng không sao chép trực tiếp các đầu ra của nó, thì nó có thể được coi là sử dụng hợp lý. Tuy nhiên, nếu dữ liệu tổng hợp hầu như không thể phân biệt được với các đầu ra của Gemini, thì nó có thể làm dấy lên những lo ngại tương tự như chưng cất.

Tác Động Của Việc Quá Khớp Mô Hình

Một mối lo ngại liên quan khác là quá khớp mô hình. Quá khớp xảy ra khi một mô hình học dữ liệu huấn luyện quá tốt, đến mức nó hoạt động kém trên dữ liệu mới, chưa từng thấy. Nếu DeepSeek huấn luyện mô hình R1 của mình quá nhiều trên các đầu ra của Gemini, nó có thể dẫn đến quá khớp, trong đó mô hình về cơ bản ghi nhớ các phản hồi của Gemini thay vì tổng quát hóa cho các tình huống mới.

Loại quá khớp này không chỉ hạn chế khả năng áp dụng của mô hình R1 mà còn giúp dễ dàng phát hiện sự phụ thuộc của nó vào dữ liệu của Gemini. Các “dấu vết” mà SpeechMap lưu ý có thể là bằng chứng cho thấy sự quá khớp này, trong đó mô hình R1 về cơ bản đang nhai lại các mẫu được học từ các đầu ra của Gemini.

Cân Nhắc Đạo Đức và Các Thông Lệ Tốt Nhất Trong Ngành

Ngoài các khía cạnh kỹ thuật, cuộc tranh cãi này còn nêu bật sự cần thiết của các hướng dẫn đạo đức rõ ràng và các thông lệ tốt nhất trong ngành cho sự phát triển AI. Một số nguyên tắc chính bao gồm:

  • Tính minh bạch: Các công ty AI nên minh bạch về nguồn dữ liệu và phương pháp luận huấn luyện của họ. Điều này cho phép kiểm toán và xác minh độc lập.
  • Sự đồng ý: Các công ty AI nên có được sự đồng ý rõ ràng từ các nhà cung cấp dữ liệu trước khi sử dụng dữ liệu của họ để huấn luyện. Điều này bao gồm việc tôn trọng quyền sở hữu trí tuệ và tránh thu thập dữ liệu trái phép.
  • Tính công bằng: Các mô hình AI phải công bằng và không thiên vị. Điều này đòi hỏi sự chú ý cẩn thận đến sự đa dạng của dữ liệu và giảm thiểu sự thiên vị thuật toán.
  • Trách nhiệm giải trình: Các công ty AI phải chịu trách nhiệm về hành động của các mô hình AI của họ. Điều này bao gồm việc thiết lập các khuôn khổ trách nhiệm rõ ràng và giải quyết những tác hại do các hệ thống AI gây ra.
  • An ninh: Các công ty AI nên ưu tiên an ninh của các mô hình và dữ liệu AI của họ. Điều này bao gồm việc bảo vệ chống lại truy cập trái phép và ngăn chặn vi phạm dữ liệu.

Vai Trò Của Quy Định

Ngoài các hướng dẫn đạo đức và các thông lệ tốt nhất trong ngành, quy định có thể cần thiết để giải quyết những thách thức do sự phát triển AI đặt ra. Một số biện pháp quy định tiềm năng bao gồm:

  • Luật riêng tư dữ liệu: Các luật bảo vệ dữ liệu của cá nhân và hạn chế việc sử dụng thông tin cá nhân cho việc huấn luyện AI.
  • Luật sở hữu trí tuệ: Các luật bảo vệ các mô hình và dữ liệu AI khỏi sao chép và phân phối trái phép.
  • Luật cạnh tranh: Các luật ngăn chặn hành vi phản cạnh tranh trong ngành AI, chẳng hạn như tích trữ dữ liệu và tiếp cận tài nguyên không công bằng.
  • Quy định an toàn: Các quy định đảm bảo an toàn và độ tin cậy của các hệ thống AI được sử dụng trong các ứng dụng quan trọng.

Bằng cách kết hợp các hướng dẫn đạo đức, các thông lệ tốt nhất trong ngành và quy định phù hợp, chúng ta có thể tạo ra một hệ sinh thái AI có trách nhiệm và bền vững hơn, mang lại lợi ích cho xã hội nói chung. Cuộc tranh cãi DeepSeek đóng vai trò như một lời cảnh tỉnh, thúc giục chúng ta giải quyết những thách thức này một cách chủ động và đảm bảo rằng AI được phát triển theo cách phù hợp với các giá trị và nguyên tắc của chúng ta.