Gần đây, có nhiều suy đoán cho rằng DeepSeek, một phòng thí nghiệm AI của Trung Quốc, có thể đã sử dụng dữ liệu từ mô hình AI Gemini của Google để đào tạo phiên bản mới nhất của mình, mô hình AI lý luận R1. Mô hình này đã chứng minh hiệu năng mạnh mẽ trong các tiêu chuẩn về toán học và mã hóa. Mặc dù DeepSeek vẫn im lặng về các nguồn dữ liệu được sử dụng để đào tạo R1, một số nhà nghiên cứu AI đã đề xuất rằng Gemini, hoặc ít nhất là một phần của Gemini, đã đóng một vai trò quan trọng.
Bằng Chứng và Cáo Buộc
Sam Paech, một nhà phát triển ở Melbourne, chuyên tạo ra các đánh giá về “trí tuệ cảm xúc” cho AI, đã trình bày những gì ông tin là bằng chứng cho thấy mô hình DeepSeek đã được đào tạo bằng cách sử dụng đầu ra do Gemini tạo ra. Paech lưu ý trong một bài đăng trên X (trước đây là Twitter) rằng mô hình DeepSeek, đặc biệt là phiên bản R1-0528, thể hiện sự ưu tiên cho ngôn ngữ và cách diễn đạt tương tự như những ngôn ngữ được Gemini 2.5 Pro của Google ưa chuộng.
Hơn nữa, một nhà phát triển khác, hoạt động dưới bút danh của người tạo ra SpeechMap, một công cụ “đánh giá tự do ngôn luận” cho AI, đã quan sát thấy rằng “suy nghĩ” do mô hình DeepSeek tạo ra khi nó tiến tới các kết luận rất giống với dấu vết của Gemini. Quan sát này thêm một lớp hấp dẫn khác vào các tuyên bố.
Đây không phải là lần đầu tiên DeepSeek phải đối mặt với các cáo buộc về việc tận dụng dữ liệu từ các mô hình AI cạnh tranh. Trở lại tháng 12, các nhà phát triển nhận thấy rằng mô hình V3 của DeepSeek thường xuyên tự nhận mình là ChatGPT, nền tảng chatbot phổ biến của OpenAI. Điều này cho thấy rằng mô hình đã được đào tạo trên nhật ký trò chuyện ChatGPT, làm dấy lên lo ngại về các hoạt động sử dụng dữ liệu.
Các Cáo Buộc Sâu Hơn: Chưng Cất và Rò Rỉ Dữ Liệu
Đầu năm nay, OpenAI đã chia sẻ với Financial Times rằng họ đã phát hiện bằng chứng liên kết DeepSeek với việc sử dụng một kỹ thuật gọi là chưng cất. Chưng cất bao gồm đào tạo các mô hình AI bằng cách trích xuất dữ liệu từ các mô hình lớn hơn, tinh vi hơn. Bloomberg đưa tin rằng Microsoft, một cộng tác viên và nhà đầu tư quan trọng của OpenAI, đã phát hiện rò rỉ dữ liệu đáng kể thông qua các tài khoản nhà phát triển OpenAI vào cuối năm 2024. OpenAI tin rằng các tài khoản này có liên quan đến DeepSeek.
Chưng cất, mặc dù không vốn có là phi đạo đức, trở nên có vấn đề khi nó vi phạm các điều khoản dịch vụ. Các điều khoản của OpenAI cấm khách hàng sử dụng đầu ra mô hình của công ty để phát triển các hệ thống AI cạnh tranh. Điều này đặt ra những câu hỏi nghiêm trọng về việc DeepSeek tuân thủ các điều khoản này.
Vùng Nước Đục Ngầu của Dữ Liệu Đào Tạo AI
Điều quan trọng là phải thừa nhận rằng các mô hình AI thường tự xác định sai và hội tụ vào các từ và cụm từ tương tự. Điều này là do bản chất của web mở, đóng vai trò là nguồn dữ liệu đào tạo chính cho nhiều công ty AI. Web ngày càng bão hòa với nội dung do AI tạo ra. Các trang trại nội dung đang sử dụng AI để tạo ra những mồi nhử nhấp chuột và bot đang tràn ngập các nền tảng như Reddit và X bằng các bài đăng do AI tạo ra.
Sự “ô nhiễm” này khiến việc lọc hiệu quả các đầu ra AI khỏi các tập dữ liệu đào tạo trở nên vô cùng khó khăn, càng làm phức tạp thêm câu hỏi liệu DeepSeek có cố ý sử dụng dữ liệu Gemini hay không.
Ý Kiến và Quan Điểm của Chuyên Gia
Mặc dù có những thách thức trong việc chứng minh chắc chắn các tuyên bố, một số chuyên gia AI tin rằng có khả năng DeepSeek đã đào tạo trên dữ liệu từ Gemini của Google. Nathan Lambert, một nhà nghiên cứu tại viện nghiên cứu AI phi lợi nhuận AI2, tuyên bố trên X, “Nếu tôi là DeepSeek, tôi chắc chắn sẽ tạo ra rất nhiều dữ liệu tổng hợp từ mô hình API tốt nhất hiện có. [DeepSeek] thiếu GPU và thừa tiền mặt. Nó thực sự hiệu quả hơn về mặt tính toán đối với họ.”
Quan điểm của Lambert nhấn mạnh các động cơ kinh tế tiềm năng để DeepSeek tận dụng các mô hình AI hiện có để nâng cao khả năng của riêng mình, đặc biệt là do những hạn chế về nguồn lực của nó.
Các Biện Pháp An Ninh và Đối Phó
Các công ty AI đã tăng cường các biện pháp an ninh, một phần để ngăn chặn các hoạt động như chưng cất. Vào tháng Tư, OpenAI bắt đầu yêu cầu các tổ chức hoàn thành quy trình xác minh ID để truy cập một số mô hình nâng cao nhất định. Quy trình này bao gồm việc gửi ID do chính phủ cấp từ một quốc gia được API của OpenAI hỗ trợ. Đáng chú ý, Trung Quốc không có trong danh sách này.
Trong một động thái khác, Google gần đây đã bắt đầu “tóm tắt” các dấu vết do các mô hình có sẵn thông qua nền tảng nhà phát triển AI Studio của mình tạo ra. Hành động này gây khó khăn hơn cho việc đào tạo các mô hình đối thủ trên các dấu vết Gemini một cách hiệu quả. Tương tự, Anthropic đã thông báo vào tháng Năm rằng họ sẽ bắt đầu tóm tắt các dấu vết mô hình của riêng mình, viện dẫn sự cần thiết phải bảo vệ “lợi thế cạnh tranh”. Các biện pháp này cho thấy sự nhận thức ngày càng tăng về khả năng lạm dụng đầu ra mô hình AI và nỗ lực chủ động để giảm thiểu những rủi ro như vậy.
Ý Nghĩa và Hậu Quả
Các cáo buộc chống lại DeepSeek đặt ra những câu hỏi quan trọng về đạo đức và tính hợp pháp của các hoạt động đào tạo AI. Nếu DeepSeek thực sự sử dụng dữ liệu Gemini để đào tạo mô hình R1 của mình, nó có thể phải đối mặt với các hậu quả pháp lý và thiệt hại về uy tín. Tình huống này cũng nhấn mạnh sự cần thiết phải có sự minh bạch và quy định lớn hơn trong ngành công nghiệp AI, đặc biệt là về nguồn dữ liệu và việc sử dụng.
Các cáo buộc chống lại DeepSeek nhấn mạnh một tình thế tiến thoái lưỡng nan quan trọng: làm thế nào để cân bằng mong muốn đổi mới và tiến bộ trong AI với nhu cầu bảo vệ quyền sở hữu trí tuệ và đảm bảo cạnh tranh công bằng. Ngành công nghiệp AI đang phát triển nhanh chóng và các hướng dẫn rõ ràng và khung đạo đức là rất cần thiết để điều hướng bối cảnh pháp lý và đạo đức phức tạp. Các công ty phải minh bạch về các nguồn dữ liệu của họ và tuân thủ các thỏa thuận điều khoản dịch vụ để duy trì lòng tin và tránh các trách nhiệm pháp lý tiềm ẩn.
Hơn nữa, vấn đề nội dung do AI tạo ra làm ô nhiễm các tập dữ liệu đào tạo đặt ra một thách thức lớn cho toàn bộ cộng đồng AI. Khi các mô hình AI ngày càng thành thạo trong việc tạo ra văn bản, hình ảnh và các hình thức nội dung thuyết phục khác, ngày càng khó phân biệt giữa dữ liệu do con người tạo ra và dữ liệu do AI tạo ra. Sự “ô nhiễm” này có thể dẫn đến sự đồng nhất của các mô hình AI, nơi tất cả chúng bắt đầu thể hiện những thành kiến và hạn chế tương tự.
Để giải quyết thách thức này, các công ty AI cần đầu tư vào các kỹ thuật lọc dữ liệu tinh vi hơn và khám phá các nguồn dữ liệu đào tạo thay thế. Họ cũng cần minh bạch hơn về thành phần của các tập dữ liệu đào tạo của họ và các phương pháp được sử dụng để lọc nội dung do AI tạo ra.
Điều Hướng Tương Lai của Đào Tạo AI
Vụ tranh cãi DeepSeek nhấn mạnh sự cần thiết cấp bách cho một cuộc thảo luận sắc thái hơn về tương lai của đào tạo AI. Khi các mô hình AI trở nên mạnh mẽ hơn và dữ liệu trở nên khan hiếm hơn, các công ty có thể bị cám dỗ cắt xén và tham gia vào các hoạt động phi đạo đức hoặc bất hợp pháp. Tuy nhiên, những hoạt động như vậy cuối cùng làm suy yếu tính bền vững và đáng tin cậy lâu dài của ngành công nghiệp AI.
Cần có một nỗ lực hợp tác liên quan đến các nhà nghiên cứu, nhà hoạch định chính sách và các nhà lãnh đạo ngành để phát triển các hướng dẫn đạo đức và khung pháp lý nhằm thúc đẩy sự phát triển AI có trách nhiệm. Các hướng dẫn này nên giải quyết các vấn đề như nguồn dữ liệu, tính minh bạch và trách nhiệm giải trình. Chúng cũng nên khuyến khích các công ty đầu tư vào các hoạt động đào tạo AI đạo đức và bền vững.
Các cân nhắc chính cho tương lai của đào tạo AI:
- Tính minh bạch: Các công ty nên minh bạch về các nguồn dữ liệu được sử dụng để đào tạo các mô hình AI của họ và các phương pháp được sử dụng để lọc nội dung do AI tạo ra.
- Đạo đức: Sự phát triển AI nên tuân thủ các nguyên tắc đạo đức nhằm thúc đẩy sự công bằng, trách nhiệm giải trình và tôn trọng quyền sở hữu trí tuệ.
- Quy định: Các nhà hoạch định chính sách nên tạo ra các khung pháp lý rõ ràng giải quyết những thách thức độc đáo do đào tạo AI đặt ra.
- Hợp tác: Các nhà nghiên cứu, nhà hoạch định chính sách và các nhà lãnh đạo ngành nên hợp tác để phát triển các hướng dẫn đạo đức và các thông lệ tốt nhất cho sự phát triển AI.
- Tính đa dạng của dữ liệu: Đào tạo AI nên ưu tiên tính đa dạng của dữ liệu để giảm thiểu sự thiên vị và cải thiện hiệu suất tổng thể của các mô hình AI.
- Tính bền vững: Đào tạo AI nên được thực hiện một cách bền vững, giảm thiểu tác động đến môi trường.
- Bảo mật: Các biện pháp bảo mật nên bảo vệ các mô hình AI và dữ liệu đào tạo khỏi truy cập và sử dụng trái phép.
Bằng cách giải quyết những cân nhắc chính này, ngành công nghiệp AI có thể đảm bảo rằng sự phát triển AI được thực hiện một cách có trách nhiệm và đạo đức, thúc đẩy sự đổi mới đồng thời giảm thiểu rủi ro tiềm ẩn.
Con Đường Phía Trước
Các cáo buộc chống lại DeepSeek đóng vai trò như một lời cảnh tỉnh cho cộng đồng AI. Chúng nhấn mạnh nhu cầu cấp thiết về tính minh bạch, hành vi đạo đức và các biện pháp bảo vệ mạnh mẽ hơn trong sự phát triển AI. Khi AI tiếp tục xâm nhập vào các khía cạnh khác nhau của cuộc sống của chúng ta, điều bắt buộc là chúng ta phải thiết lập các ranh giới rõ ràng và các hướng dẫn đạo đức để đảm bảo việc sử dụng có trách nhiệm và có lợi của nó.
Trường hợp DeepSeek, bất kể kết quả cuối cùng của nó là gì, chắc chắn sẽ định hình diễn ngôn đang diễn ra xung quanh đạo đức AI và ảnh hưởng đến quỹ đạo tương lai của sự phát triển AI. Nó đóng vai trò như một lời nhắc nhở rằng việc theo đuổi sự đổi mới phải được điều chỉnh bằng cam kết đối với các nguyên tắc đạo đức và sự công nhận về những hậu quả tiềm ẩn của hành động của chúng ta. Tương lai của AI phụ thuộc vào khả năng của chúng ta để điều hướng những thách thức phức tạp này bằng sự khôn ngoan và tầm nhìn xa.