Cơn bão đang hình thành: Bản quyền trong Thời đại AI
Thế giới trí tuệ nhân tạo, đặc biệt là các mô hình ngôn ngữ lớn (LLMs) tinh vi được phát triển bởi những gã khổng lồ trong ngành như OpenAI, đang đối mặt với một cơn bão pháp lý và đạo đức ngày càng lớn. Tâm điểm của cơn bão này là một câu hỏi cơ bản: dữ liệu nào cung cấp năng lượng cho những cỗ máy mạnh mẽ này, và quyền của người sáng tạo có được tôn trọng trong quá trình đó không? Các cáo buộc đang gia tăng, cho rằng một lượng lớn tài liệu có bản quyền – tiểu thuyết, bài báo, mã nguồn, và nhiều hơn nữa – có thể đã bị các mô hình này ‘tiêu thụ’ trong giai đoạn đào tạo mà không có sự cho phép hoặc bồi thường cần thiết. Đây không chỉ đơn thuần là một cuộc tranh luận học thuật; nó đang nhanh chóng leo thang thành các vụ kiện tụng có tính chất quyết định.
OpenAI ngày càng bị cuốn vào các cuộc chiến pháp lý do các tác giả, lập trình viên và nhiều chủ sở hữu quyền khác khởi xướng. Những nguyên đơn này cho rằng tài sản trí tuệ của họ đã bị sử dụng không đúng cách để xây dựng chính những mô hình AI đang tạo ra tiêu đề và biến đổi các ngành công nghiệp. Lập luận của họ dựa trên khẳng định rằng luật bản quyền hiện hành không cho phép rõ ràng việc sử dụng toàn bộ các tác phẩm được bảo vệ làm ‘nguyên liệu’ đào tạo cho các hệ thống AI thương mại. Đáp lại, OpenAI đã liên tục viện dẫn học thuyết ‘sử dụng hợp lý’ (fair use), một nguyên tắc pháp lý phức tạp cho phép sử dụng hạn chế tài liệu có bản quyền mà không cần xin phép trong những trường hợp cụ thể. Tuy nhiên, khả năng áp dụng ‘fair use’ đối với quy mô và bản chất chưa từng có của việc đào tạo AI vẫn là một vùng xám gây tranh cãi gay gắt, tạo tiền đề cho các tiền lệ pháp lý mang tính bước ngoặt. Căng thẳng cốt lõi xoay quanh việc liệu việc biến đổi các tác phẩm có bản quyền thành các mẫu thống kê trong một mô hình có cấu thành ‘sử dụng biến đổi’ (transformative use) – một yếu tố quan trọng của ‘fair use’ – hay chỉ đơn giản là sao chép trái phép trên quy mô lớn. Kết quả của những vụ kiện này có thể định hình sâu sắc quỹ đạo phát triển AI trong tương lai, có khả năng áp đặt những hạn chế hoặc chi phí đáng kể lên các nhà tạo mô hình.
Nhìn vào Bên trong Hộp đen: Một Phương pháp Mới để Phát hiện Sự Ghi nhớ
Thêm dầu vào lửa cho cuộc tranh luận nảy lửa này là một nghiên cứu gần đây được thực hiện bởi một nhóm các nhà nghiên cứu hợp tác từ các tổ chức nổi tiếng bao gồm University of Washington, University of Copenhagen, và Stanford University. Công trình của họ giới thiệu một kỹ thuật đổi mới được thiết kế đặc biệt để phát hiện các trường hợp mà các mô hình AI, ngay cả những mô hình chỉ có thể truy cập thông qua các giao diện lập trình ứng dụng (APIs) hạn chế như của OpenAI, dường như đã ‘ghi nhớ’ các phần cụ thể trong dữ liệu đào tạo của chúng. Đây là một bước đột phá quan trọng vì việc truy cập vào hoạt động bên trong hoặc các bộ dữ liệu đào tạo chính xác của các mô hình thương mại như GPT-4 thường là không thể đối với các nhà điều tra bên ngoài.
Hiểu cách các mô hình này hoạt động là chìa khóa để nắm bắt ý nghĩa của nghiên cứu. Về cốt lõi, LLMs là những công cụ dự đoán cực kỳ tinh vi. Chúng được đào tạo trên khối lượng văn bản và mã nguồn thực sự khổng lồ, học các mối quan hệ thống kê phức tạp giữa các từ, cụm từ và khái niệm. Quá trình học này cho phép chúng tạo ra văn bản mạch lạc, dịch ngôn ngữ, viết các loại nội dung sáng tạo khác nhau và trả lời câu hỏi một cách đầy đủ thông tin. Mặc dù mục tiêu là để mô hình khái quát hóa các mẫu thay vì chỉ lưu trữ thông tin nguyên văn, quy mô tuyệt đối của dữ liệu đào tạo khiến một mức độ ghi nhớ nào đó gần như không thể tránh khỏi. Hãy nghĩ về nó giống như một sinh viên nghiên cứu vô số sách giáo khoa; trong khi họ nhằm mục đích hiểu các khái niệm, họ có thể vô tình ghi nhớ các câu hoặc định nghĩa cụ thể, đặc biệt là những câu đặc biệt. Các quan sát trước đây đã cho thấy các mô hình tạo ảnh tái tạo các yếu tố dễ nhận biết từ các bộ phim mà chúng được đào tạo, và các mô hình ngôn ngữ tạo ra văn bản giống một cách đáng kinh ngạc hoặc sao chép trực tiếp từ các nguồn như bài báo tin tức. Hiện tượng này làm dấy lên những lo ngại nghiêm trọng về đạo văn và tính độc đáo thực sự của nội dung do AI tạo ra.
Phương pháp luận do các nhà nghiên cứu đề xuất vừa thông minh vừa mang tính khám phá. Nó tập trung vào việc xác định và sử dụng cái mà họ gọi là ‘từ có độ bất ngờ cao’ (high-surprisal words). Đây là những từ có vẻ bất thường hoặc không mong đợi về mặt thống kê trong ngữ cảnh cụ thể của một câu hoặc đoạn văn. Hãy xem xét cụm từ: ‘Người thủy thủ già định hướng bằng ánh sáng yếu ớt của kính lục phân.’ Từ ‘kính lục phân’ (sextant) có thể được coi là có độ bất ngờ cao bởi vì, trong một kho ngữ liệu văn bản chung, các từ như ‘sao’, ‘mặt trăng’ hoặc ‘la bàn’ có thể có xác suất thống kê cao hơn trong ngữ cảnh đó. Các nhà nghiên cứu đưa ra giả thuyết rằng nếu một mô hình thực sự đã ghi nhớ một đoạn văn bản cụ thể trong quá trình đào tạo, nó sẽ đặc biệt giỏi trong việc dự đoán những từ độc đáo, có độ bất ngờ cao này nếu chúng bị loại bỏ khỏi đoạn văn.
Để kiểm tra giả thuyết này, nhóm nghiên cứu đã thăm dò một cách có hệ thống một số mô hình hàng đầu của OpenAI, bao gồm GPT-4 mạnh mẽ và tiền thân của nó, GPT-3.5. Họ lấy các đoạn trích văn bản từ các nguồn đã biết, chẳng hạn như tiểu thuyết hư cấu nổi tiếng và các bài báo từ The New York Times. Quan trọng là, họ đã che hoặc loại bỏ các từ có độ bất ngờ cao đã được xác định khỏi các đoạn trích này. Sau đó, các mô hình được yêu cầu điền vào chỗ trống – về cơ bản là ‘đoán’ các từ bị thiếu, không có khả năng xảy ra về mặt thống kê. Logic cốt lõi của nghiên cứu rất thuyết phục: nếu một mô hình liên tục và chính xác dự đoán những từ có độ bất ngờ cao này, điều đó gợi ý mạnh mẽ rằng mô hình không chỉ học các mẫu ngôn ngữ chung mà còn thực sự lưu giữ một ký ức cụ thể về chuỗi văn bản chính xác đó từ dữ liệu đào tạo của nó. Sự ngẫu nhiên hoặc hiểu biết ngôn ngữ chung đơn thuần khó có thể tạo ra những dự đoán chính xác như vậy cho các từ không phổ biến trong các ngữ cảnh cụ thể.
Các Phát hiện: Tiếng vọng của Văn bản Có Bản quyền trong Đầu ra AI
Kết quả thu được từ các thử nghiệm tỉ mỉ này cung cấp bằng chứng thuyết phục, mặc dù sơ bộ, ủng hộ các tuyên bố về vi phạm bản quyền. Theo các phát hiện được công bố của nghiên cứu, GPT-4, mô hình tiên tiến nhất có sẵn công khai của OpenAI tại thời điểm nghiên cứu, đã cho thấy những dấu hiệu đáng kể về việc ghi nhớ nguyên văn các phần của sách hư cấu nổi tiếng. Điều này bao gồm các văn bản được tìm thấy trong một bộ dữ liệu cụ thể được gọi là BookMIA, bao gồm các mẫu được trích xuất từ sách điện tử có bản quyền – một bộ dữ liệu thường liên quan đến các cuộc thảo luận về các nguồn đào tạo có khả năng vi phạm. Mô hình không chỉ nhớ lại các chủ đề hoặc phong cách chung; nó đã tái tạo chính xác các chuỗi văn bản chứa những từ độc đáo, có độ bất ngờ cao đó, cho thấy mức độ lưu giữ sâu hơn so với việc khái quát hóa mẫu đơn giản.
Hơn nữa, cuộc điều tra tiết lộ rằng GPT-4 cũng cho thấy bằng chứng về việc ghi nhớ các đoạn từ các bài báo của New York Times. Tuy nhiên, các nhà nghiên cứu lưu ý rằng tỷ lệ ghi nhớ rõ ràng đối với các bài báo tin tức tương đối thấp hơn so với tỷ lệ quan sát được đối với sách hư cấu. Sự khác biệt này có thể là do nhiều yếu tố khác nhau, chẳng hạn như tần suất hoặc cách trình bày các loại văn bản khác nhau này trong bộ dữ liệu đào tạo ban đầu, hoặc có lẽ là sự khác biệt trong cách mô hình xử lý văn xuôi báo chí so với văn xuôi tường thuật. Bất kể tỷ lệ chính xác là bao nhiêu, thực tế là việc ghi nhớ xảy ra trên các loại nội dung có bản quyền khác nhau – cả tác phẩm văn học và bài báo – củng cố lập luận rằng hiện tượng này không chỉ giới hạn ở một thể loại hoặc nguồn duy nhất.
Những phát hiện này có trọng lượng đáng kể trong các cuộc thảo luận pháp lý và đạo đức đang diễn ra. Nếu các mô hình như GPT-4 thực sự có khả năng ‘nhả’ lại các đoạn văn cụ thể, có bản quyền mà chúng được đào tạo, điều đó làm phức tạp thêm lập luận bào chữa về ‘fair use’ của OpenAI. ‘Fair use’ thường ủng hộ các mục đích sử dụng biến đổi tác phẩm gốc; việc sao chép nguyên văn, ngay cả khi không cố ý hoặc dựa trên xác suất, nghiêng về phía sao chép đơn giản hơn là biến đổi. Bằng chứng này có khả năng được các nguyên đơn trong các vụ kiện bản quyền tận dụng để lập luận rằng các hoạt động đào tạo của OpenAI đã dẫn đến việc tạo ra các tác phẩm phái sinh vi phạm hoặc tạo điều kiện cho sự vi phạm trực tiếp bởi các kết quả đầu ra của mô hình. Nó nhấn mạnh mối liên hệ hữu hình giữa dữ liệu được sử dụng để đào tạo và các kết quả đầu ra cụ thể do AI tạo ra, làm cho khái niệm trừu tượng về ‘học các mẫu’ trở nên gần gũi hơn nhiều với sự sao chép cụ thể.
Sự Cấp thiết của Niềm tin và Tính Minh bạch trong Phát triển AI
Abhilasha Ravichander, một nghiên cứu sinh tiến sĩ tại University of Washington và là một trong những đồng tác giả của nghiên cứu, đã nhấn mạnh những hàm ý rộng lớn hơn của nghiên cứu của họ. Cô nhấn mạnh rằng những phát hiện này làm sáng tỏ một cách quan trọng về ‘dữ liệu gây tranh cãi’ tiềm ẩn có thể tạo thành nền tảng của nhiều mô hình AI đương đại. Khả năng xác định nội dung được ghi nhớ cung cấp một cửa sổ, dù nhỏ, vào các bộ dữ liệu đào tạo mờ đục được sử dụng bởi các công ty như OpenAI.
Ravichander đã trình bày một tình cảm ngày càng tăng trong cộng đồng nghiên cứu AI và công chúng: ‘Để có các mô hình ngôn ngữ lớn đáng tin cậy, chúng ta cần có các mô hình mà chúng ta có thể thăm dò, kiểm toán và kiểm tra một cách khoa học.’ Tuyên bố này nhấn mạnh một thách thức quan trọng mà ngành công nghiệp AI đang phải đối mặt. Khi các mô hình này ngày càng được tích hợp vào các khía cạnh khác nhau của xã hội – từ việc tạo ra các bài báo tin tức và viết mã đến hỗ trợ chẩn đoán y tế và phân tích tài chính – nhu cầu về niềm tin và trách nhiệm giải trình trở nên tối quan trọng. Người dùng, cơ quan quản lý và công chúng cần đảm bảo rằng các hệ thống này hoạt động công bằng, đáng tin cậy và có đạo đức. Bản chất ‘hộp đen’ của nhiều LLMs hiện tại, nơi ngay cả những người tạo ra chúng cũng có thể không hoàn toàn hiểu mọi sắc thái trong hoạt động bên trong của chúng hoặc nguồn gốc chính xác của các kết quả đầu ra cụ thể, cản trở việc thiết lập niềm tin này.
Phương pháp luận được đề xuất của nghiên cứu đại diện cho nhiều hơn là chỉ một kỹ thuật để phát hiện việc ghi nhớ bản quyền; nó phục vụ như một công cụ tiềm năng cho kiểm toán AI (AI auditing) rộng hơn. Khả năng thăm dò các mô hình, ngay cả những mô hình chỉ được truy cập qua APIs, cho phép xác minh và phân tích độc lập. Ravichander nhấn mạnh thêm ‘nhu cầu cấp thiết về tính minh bạch dữ liệu lớn hơn trong toàn bộ hệ sinh thái.’ Nếu không biết các mô hình này được đào tạo trên dữ liệu nào, sẽ cực kỳ khó khăn để đánh giá các thành kiến tiềm ẩn, xác định các lỗ hổng bảo mật, hiểu nguồn gốc của các kết quả đầu ra có hại hoặc không chính xác, hoặc, như nghiên cứu này nhấn mạnh, xác định mức độ vi phạm bản quyền tiềm ẩn. Lời kêu gọi minh bạch không chỉ mang tính học thuật; đó là một yêu cầu cơ bản để xây dựng một tương lai AI có trách nhiệm và bền vững. Điều này liên quan đến sự đánh đổiphức tạp giữa việc bảo vệ thông tin độc quyền và tài sản trí tuệ (bao gồm cả chính các mô hình) và đảm bảo trách nhiệm giải trình và an toàn công cộng. Việc phát triển các công cụ và khuôn khổ kiểm toán mạnh mẽ, cùng với các tiêu chuẩn rõ ràng hơn về công bố dữ liệu, đang trở nên ngày càng quan trọng khi AI tiếp tục phát triển nhanh chóng.
Lập trường của OpenAI và Con đường Phía trước Chưa được Khai phá
Đối mặt với áp lực ngày càng tăng từ những người sáng tạo và các nhà lập pháp, OpenAI đã liên tục ủng hộ một môi trường pháp lý và quy định cho phép sử dụng rộng rãi các tài liệu có bản quyền để đào tạo các mô hình AI. Công ty lập luận rằng sự linh hoạt như vậy là cần thiết cho sự đổi mới và để US duy trì lợi thế cạnh tranh trong cuộc đua AI toàn cầu. Các nỗ lực vận động hành lang của họ đã tập trung vào việc thuyết phục các chính phủ trên toàn thế giới giải thích hoặc hệ thống hóa luật bản quyền hiện hành, đặc biệt là khái niệm ‘fair use’ ở Hoa Kỳ, theo cách có lợi cho các nhà phát triển AI. Họ cho rằng việc đào tạo các mô hình trên các bộ dữ liệu đa dạng, bao gồm cả các tác phẩm có bản quyền, là một hình thức sử dụng biến đổi cần thiết để tạo ra các hệ thống AI mạnh mẽ và có lợi.
Tuy nhiên, nhận thức được những lo ngại ngày càng tăng, OpenAI cũng đã thực hiện một số bước để giải quyết vấn đề, mặc dù các biện pháp này thường bị các nhà phê bình coi là không đủ. Công ty đã tham gia vào các thỏa thuận cấp phép nội dung (content licensing agreements) với một số nhà xuất bản và người tạo nội dung nhất định, đảm bảo quyền sử dụng rõ ràng tài liệu của họ. Những thỏa thuận này, mặc dù quan trọng, chỉ đại diện cho một phần nhỏ dữ liệu có khả năng được sử dụng để đào tạo các mô hình như GPT-4. Hơn nữa, OpenAI đã triển khai các cơ chế từ chối (opt-out mechanisms). Những cơ chế này cho phép chủ sở hữu bản quyền yêu cầu chính thức rằng nội dung của họ không được sử dụng cho các mục đích đào tạo AI trong tương lai. Mặc dù có vẻ là một bước tiến tới việc tôn trọng quyền của người sáng tạo, hiệu quả và tính thực tiễn của các hệ thống từ chối này vẫn còn gây tranh cãi. Chúng đặt gánh nặng lên các nhà sáng tạo cá nhân phải tự khám phá ra rằng tác phẩm của họ có thể bị sử dụng và sau đó điều hướng các thủ tục cụ thể của OpenAI để từ chối. Hơn nữa, các cơ chế này thường không giải quyết việc sử dụng nội dung trong các mô hình đã được đào tạo.
Tình hình hiện tại phản ánh một căng thẳng cơ bản: mong muốn của các công ty AI tận dụng vũ trụ thông tin kỹ thuật số khổng lồ để đổi mới so với quyền của người sáng tạo trong việc kiểm soát và hưởng lợi từ các tác phẩm gốc của họ. Nghiên cứu chứng minh sự ghi nhớ thêm một lớp phức tạp khác, cho thấy rằng ranh giới giữa ‘học hỏi từ’ và ‘sao chép’ dữ liệu mờ nhạt hơn và có lẽ thường xuyên bị vượt qua hơn so với những gì các nhà phát triển mô hình thừa nhận trước đây. Con đường phía trước vẫn chưa chắc chắn. Nó có thể liên quan đến luật pháp mới giải quyết cụ thể dữ liệu đào tạo AI, các phán quyết mang tính bước ngoặt của tòa án giải thích luật bản quyền hiện hành trong bối cảnh mới này, việc phát triển các thông lệ tốt nhất và khuôn khổ cấp phép trong toàn ngành, hoặc các giải pháp công nghệ như theo dõi nguồn gốc dữ liệu được cải thiện hoặc các kỹ thuật để giảm thiểu sự ghi nhớ của mô hình. Điều có vẻ rõ ràng là cuộc tranh luận về AI và bản quyền còn lâu mới kết thúc; thực tế, nó có thể chỉ mới bắt đầu, với những tác động sâu sắc đến cả tương lai của trí tuệ nhân tạo và nền kinh tế sáng tạo. Các phát hiện liên quan đến sự ghi nhớ đóng vai trò như một lời nhắc nhở rõ ràng rằng dữ liệu kỹ thuật số cung cấp năng lượng cho các công cụ mạnh mẽ này có nguồn gốc, chủ sở hữu và các quyền không thể bị bỏ qua.