Sự phát triển không ngừng của trí tuệ nhân tạo, dẫn đầu bởi những gã khổng lồ như OpenAI, thường xuyên va chạm với các nguyên tắc lâu đời về sở hữu trí tuệ và quyền sở hữu dữ liệu. Sự va chạm này một lần nữa làm dấy lên tranh cãi, với những cáo buộc mới nổi lên rằng mô hình hàng đầu mới nhất của OpenAI, GPT-4o, có thể đã được huấn luyện bằng cách sử dụng các tài liệu có bản quyền được bảo vệ sau tường phí, có khả năng mà không có sự cho phép cần thiết. Những tuyên bố này bắt nguồn từ một nhóm giám sát mới thành lập, AI Disclosures Project, thêm một lớp phức tạp nữa vào cuộc tranh luận vốn đã phức tạp xung quanh việc tìm nguồn cung ứng dữ liệu có đạo đức để huấn luyện các hệ thống AI tinh vi.
Tiếng nói của Nhóm Giám sát: Cáo buộc từ AI Disclosures Project
Ra mắt vào năm 2024, AI Disclosures Project tự định vị mình là một tổ chức phi lợi nhuận chuyên xem xét kỹ lưỡng các hoạt động thường thiếu minh bạch trong ngành công nghiệp AI. Những người sáng lập bao gồm các nhân vật đáng chú ý như doanh nhân truyền thông Tim O’Reilly, người sáng lập O’Reilly Media, một nhà xuất bản nổi tiếng về sách kỹ thuật, và nhà kinh tế học Ilan Strauss. Mối liên hệ với O’Reilly Media này đặc biệt phù hợp, vì báo cáo bom tấn ban đầu của dự án tập trung đặc biệt vào sự hiện diện bị cáo buộc của nội dung sách có tường phí của O’Reilly trong bộ dữ liệu huấn luyện của GPT-4o.
Khẳng định trung tâm của nghiên cứu của họ rất khiêu khích: mặc dù không có bất kỳ thỏa thuậncấp phép nào được biết đến giữa OpenAI và O’Reilly Media, mô hình GPT-4o thể hiện mức độ quen thuộc cao đáng kể với nội dung có nguồn gốc trực tiếp từ các cuốn sách có bản quyền của O’Reilly. Báo cáo cho rằng, sự quen thuộc này gợi ý mạnh mẽ rằng những tài liệu có tường phí này đã được đưa vào kho dữ liệu khổng lồ được sử dụng để xây dựng khả năng của mô hình. Nghiên cứu nhấn mạnh sự khác biệt đáng kể so với các mô hình OpenAI cũ hơn, đặc biệt là GPT-3.5 Turbo, ngụ ý một sự thay đổi hoặc mở rộng tiềm năng trong các hoạt động thu thập dữ liệu dẫn đến sự phát triển của GPT-4o.
Hàm ý là rất đáng kể. Nếu nội dung độc quyền, trả phí đang bị các mô hình AI tiếp nhận mà không có sự cho phép hoặc bồi thường, điều đó đặt ra những câu hỏi cơ bản về luật bản quyền trong thời đại AI tạo sinh. Các nhà xuất bản và tác giả dựa vào các mô hình đăng ký hoặc mua hàng, dựa trên tính độc quyền của nội dung của họ. Việc bị cáo buộc sử dụng tài liệu này để huấn luyện có thể được coi là làm suy yếu các mô hình kinh doanh này, có khả năng làm giảm giá trị chính nội dung đòi hỏi đầu tư đáng kể để tạo ra. Cáo buộc cụ thể này vượt ra ngoài việc thu thập dữ liệu từ các trang web công cộng, mạo hiểm xâm nhập vào lãnh thổ truy cập nội dung dành riêng cho khách hàng trả tiền.
Nhìn vào Bên trong Hộp đen: Kỹ thuật ‘Membership Inference Attack’
Để chứng minh cho tuyên bố của mình, các nhà nghiên cứu tại AI Disclosures Project đã sử dụng một kỹ thuật tinh vi được gọi là ‘membership inference attack’ (tấn công suy luận thành viên), đặc biệt sử dụng một phương pháp mà họ gọi là DE-COP. Ý tưởng cốt lõi đằng sau phương pháp này là kiểm tra xem một mô hình AI có ‘ghi nhớ’ hay ít nhất là phát triển sự quen thuộc mạnh mẽ với các đoạn văn bản cụ thể hay không. Về bản chất, cuộc tấn công thăm dò mô hình để xem liệu nó có thể phân biệt một cách đáng tin cậy giữa các đoạn văn bản gốc (trong trường hợp này là từ sách của O’Reilly) và các phiên bản diễn giải cẩn thận của chính những đoạn văn đó, được tạo ra bởi một AI khác.
Logic cơ bản là nếu một mô hình liên tục cho thấy khả năng xác định văn bản gốc do con người viết cao hơn ngẫu nhiên so với một bản diễn giải gần giống, điều đó ngụ ý mô hình đã gặp văn bản gốc đó trước đây – có khả năng là trong giai đoạn huấn luyện của nó. Điều này tương tự như việc kiểm tra xem ai đó có nhận ra một bức ảnh cụ thể, ít được biết đến mà họ tuyên bố chưa bao giờ nhìn thấy hay không; sự nhận dạng nhất quán cho thấy sự tiếp xúc trước đó.
Quy mô thử nghiệm của AI Disclosures Project là đáng kể. Họ đã sử dụng 13.962 đoạn trích riêng biệt được lấy từ 34 cuốn sách khác nhau của O’Reilly Media. Những đoạn trích này đại diện cho loại nội dung chuyên biệt, giá trị cao thường thấy sau tường phí của nhà xuất bản. Nghiên cứu sau đó đã đo lường hiệu suất của cả GPT-4o và phiên bản tiền nhiệm của nó, GPT-3.5 Turbo, trong nhiệm vụ phân biệt này.
Kết quả, như được trình bày trong báo cáo, rất ấn tượng. GPT-4o đã chứng tỏ khả năng nhận dạng nội dung O’Reilly có tường phí tăng lên đáng kể. Hiệu suất của nó được định lượng bằng điểm AUROC (Area Under the Receiver Operating Characteristic curve - Diện tích dưới đường cong đặc trưng hoạt động của máy thu), một thước đo phổ biến để đánh giá hiệu suất của các bộ phân loại nhị phân. GPT-4o đạt điểm AUROC là 82%. Ngược lại, GPT-3.5 Turbo chỉ đạt điểm trên 50%, về cơ bản tương đương với việc đoán ngẫu nhiên – cho thấy rất ít hoặc không có sự nhận dạng cụ thể nào đối với tài liệu được thử nghiệm. Báo cáo lập luận rằng sự khác biệt rõ rệt này cung cấp bằng chứng thuyết phục, mặc dù gián tiếp, rằng nội dung có tường phí thực sự là một phần trong chế độ huấn luyện của GPT-4o. Điểm 82% cho thấy một tín hiệu mạnh mẽ, vượt xa những gì mong đợi do ngẫu nhiên hoặc kiến thức tổng quát.
Những Lưu ý Cần thiết và Câu hỏi Chưa được Trả lời
Mặc dù các phát hiện đưa ra một câu chuyện hấp dẫn, các đồng tác giả của nghiên cứu, bao gồm nhà nghiên cứu AI Sruly Rosenblat, đã đáng khen ngợi khi thừa nhận những hạn chế tiềm ẩn vốn có trong phương pháp luận của họ và bản chất phức tạp của việc huấn luyện AI. Một lưu ý quan trọng mà họ đưa ra là khả năng tiếp nhận dữ liệu gián tiếp. Họ lưu ý rằng, có thể người dùng ChatGPT (giao diện phổ biến của OpenAI) đã sao chép và dán các đoạn trích từ sách O’Reilly có tường phí trực tiếp vào giao diện trò chuyện cho các mục đích khác nhau, chẳng hạn như đặt câu hỏi về văn bản hoặc yêu cầu tóm tắt. Nếu điều này xảy ra đủ thường xuyên, mô hình có thể đã học nội dung một cách gián tiếp thông qua tương tác của người dùng, thay vì thông qua việc đưa trực tiếp vào bộ dữ liệu huấn luyện ban đầu. Việc phân biệt giữa tiếp xúc huấn luyện trực tiếp và học gián tiếp qua lời nhắc của người dùng vẫn là một thách thức đáng kể trong lĩnh vực pháp y AI.
Hơn nữa, phạm vi của nghiên cứu không mở rộng đến các phiên bản mô hình mới nhất hoặc chuyên biệt tuyệt đối của OpenAI có thể đã được phát triển hoặc phát hành đồng thời hoặc sau chu kỳ huấn luyện chính của GPT-4o. Các mô hình có khả năng bao gồm GPT-4.5 (nếu nó tồn tại dưới danh pháp hoặc cấp độ khả năng cụ thể đó) và các mô hình tập trung vào suy luận như o3-mini và o1 đã không bị áp dụng các cuộc tấn công suy luận thành viên tương tự. Điều này để ngỏ câu hỏi liệu các phương pháp tìm nguồn cung ứng dữ liệu có thể đã phát triển hơn nữa hay không, hoặc liệu các mô hình mới hơn này có thể hiện các mô hình quen thuộc tương tự với nội dung có tường phí hay không. Chu kỳ lặp lại nhanh chóng trong phát triển AI có nghĩa là bất kỳ phân tích tức thời nào cũng có nguy cơ trở nên hơi lỗi thời gần như ngay lập tức.
Những hạn chế này không nhất thiết làm mất hiệu lực các phát hiện cốt lõi của nghiên cứu, nhưng chúng bổ sung các lớp sắc thái quan trọng. Việc chứng minh một cách chắc chắn những gì nằm trong hàng terabyte dữ liệu được sử dụng để huấn luyện một mô hình nền tảng là cực kỳ khó khăn. Các cuộc tấn công suy luận thành viên cung cấp bằng chứng xác suất, gợi ý khả năng xảy ra thay vì đưa ra sự chắc chắn tuyệt đối. OpenAI, giống như các phòng thí nghiệm AI khác, bảo vệ chặt chẽ thành phần dữ liệu huấn luyện của mình, với lý do lo ngại về độc quyền và sự nhạy cảm cạnh tranh.
Một Cuộc Xung đột Rộng lớn hơn: Các Trận chiến Bản quyền trong Đấu trường AI
Các cáo buộc do AI Disclosures Project đưa ra không tồn tại trong chân không. Chúng đại diện cho cuộc giao tranh mới nhất trong một cuộc xung đột rộng lớn hơn, đang diễn ra giữa các nhà phát triển AI và những người sáng tạo về việc sử dụng tài liệu có bản quyền cho mục đích huấn luyện. OpenAI, cùng với những người chơi nổi bật khác như Google, Meta và Microsoft, thấy mình bị lôi kéo vào nhiều vụ kiện tụng cấp cao. Những thách thức pháp lý này, do các tác giả, nghệ sĩ, tổ chức tin tức và những người nắm giữ bản quyền khác đưa ra, thường cáo buộc hành vi vi phạm bản quyền trên diện rộng xuất phát từ việc thu thập và tiếp nhận trái phép một lượng lớn văn bản và hình ảnh từ internet để huấn luyện các mô hình AI tạo sinh.
Biện pháp bào chữa cốt lõi thường được các công ty AI đưa ra dựa trên học thuyết sử dụng hợp lý (‘fair use’ ở Hoa Kỳ) hoặc các ngoại lệ tương tự ở các khu vực pháp lý khác. Họ lập luận rằng việc sử dụng các tác phẩm có bản quyền để huấn luyện cấu thành một việc sử dụng ‘biến đổi’ (‘transformative’ use) – các mô hình AI không chỉ đơn thuần sao chép các tác phẩm gốc mà còn sử dụng dữ liệu để học các mẫu, phong cách và thông tin nhằm tạo ra các kết quả hoàn toàn mới. Theo cách giải thích này, bản thân quá trình huấn luyện, nhằm tạo ra một công cụ mới mạnh mẽ, nên được cho phép mà không yêu cầu giấy phép cho mọi phần dữ liệu được tiếp nhận.
Tuy nhiên, những người nắm giữ bản quyền phản đối kịch liệt quan điểm này. Họ lập luận rằng quy mô sao chép tuyệt đối liên quan, bản chất thương mại của các sản phẩm AI đang được xây dựng và khả năng các kết quả đầu ra của AI cạnh tranh trực tiếp và thay thế các tác phẩm gốc đều chống lại mạnh mẽ việc xác định là sử dụng hợp lý. Lập luận là các công ty AI đang xây dựng các doanh nghiệp trị giá hàng tỷ đô la dựa trên công sức sáng tạo mà không bồi thường cho những người sáng tạo.
Trong bối cảnh kiện tụng này, OpenAI đã chủ động tìm cách giảm thiểu một số rủi ro bằng cách ký kết các thỏa thuận cấp phép với nhiều nhà cung cấp nội dung khác nhau. Các thỏa thuận đã được công bố với các nhà xuất bản tin tức lớn (như Associated Press và Axel Springer), các nền tảng truyền thông xã hội (như Reddit) và các thư viện phương tiện stock (như Shutterstock). Những thỏa thuận này cung cấp cho OpenAI quyền truy cập hợp pháp vào các bộ dữ liệu cụ thể để đổi lấy thanh toán, có khả năng giảm sự phụ thuộc vào dữ liệu thu thập từ web có khả năng vi phạm. Công ty cũng được cho là đã thuê các nhà báo, giao nhiệm vụ cho họ giúp tinh chỉnh và cải thiện chất lượng cũng như độ tin cậy của kết quả đầu ra của mô hình, cho thấy nhận thức về sự cần thiết của đầu vào chất lượng cao, có khả năng được tuyển chọn.
Hiệu ứng Gợn sóng: Mối quan tâm về Hệ sinh thái Nội dung
Báo cáo của AI Disclosures Project mở rộng mối quan tâm của mình ra ngoài những hàm ý pháp lý tức thời đối với OpenAI. Nó đóng khung vấn đề như một mối đe dọa hệ thống có thể tác động tiêu cực đến sức khỏe và sự đa dạng của toàn bộ hệ sinh thái nội dung số. Nghiên cứu đưa ra một vòng phản hồi tiêu cực tiềm ẩn: nếu các công ty AI có thể tự do sử dụng nội dung chất lượng cao, được tạo chuyên nghiệp (bao gồm cả tài liệu có tường phí) mà không bồi thường cho người sáng tạo, điều đó sẽ làm xói mòn khả năng tài chính để sản xuất nội dung đó ngay từ đầu.
Việc tạo nội dung chuyên nghiệp – cho dù đó là báo chí điều tra, sách hướng dẫn kỹ thuật chuyên sâu, viết tiểu thuyết hay nghiên cứu học thuật – thường đòi hỏi thời gian, chuyên môn và đầu tư tài chính đáng kể. Tường phí và các mô hình đăng ký thường là những cơ chế thiết yếu để tài trợ cho công việc này. Nếu các nguồn doanh thu hỗ trợ những nỗ lực này bị suy giảm do nội dung đang được sử dụng hiệu quả để huấn luyện các hệ thống AI cạnh tranh mà không được trả công, động lực tạo ra nội dung chất lượng cao, đa dạng có thể giảm sút. Điều này có thể dẫn đến một công chúng ít thông tin hơn, giảm các nguồn tài nguyên kiến thức chuyên ngành và có khả năng là một internet bị chi phối bởi nội dung chất lượng thấp hơn hoặc do AI tạo ra thiếu chuyên môn và xác minh của con người.
Do đó, AI Disclosures Project ủng hộ mạnh mẽ sự minh bạch và trách nhiệm giải trình cao hơn từ các công ty AI về các hoạt động dữ liệu huấn luyện của họ. Họ kêu gọi thực hiện các chính sách mạnh mẽ và các khuôn khổ quy định tiềm năng đảm bảo người sáng tạo nội dung được bồi thường công bằng khi tác phẩm của họ đóng góp vào sự phát triển của các mô hình AI thương mại. Điều này lặp lại những lời kêu gọi rộng rãi hơn từ các nhóm sáng tạo trên toàn thế giới đang tìm kiếm các cơ chế – cho dù thông qua các thỏa thuận cấp phép, hệ thống tiền bản quyền hay thương lượng tập thể – để đảm bảo họ nhận được một phần giá trị do các hệ thống AI được huấn luyện trên tài sản trí tuệ của họ tạo ra. Cuộc tranh luận tập trung vào việc tìm kiếm một trạng thái cân bằng bền vững, nơi đổi mới AI có thể phát triển mạnh mẽ cùng với một hệ sinh thái thịnh vượng cho sự sáng tạo và tạo ra tri thức của con người. Việc giải quyết các cuộc chiến pháp lý đang diễn ra và tiềm năng cho luật pháp mới hoặc các tiêu chuẩn ngành sẽ rất quan trọng trong việc định hình sự cân bằng trong tương lai này. Câu hỏi về cách theo dõi nguồn gốc dữ liệu và phân bổ giá trị trong các mô hình AI phức tạp, khổng lồ vẫn là một rào cản kỹ thuật và đạo đức đáng kể.