Reddit, một nền tảng truyền thông xã hội nổi tiếng, đã khởi xướng hành động pháp lý chống lại Anthropic, một công ty trí tuệ nhân tạo, cáo buộc việc sử dụng trái phép nội dung do người dùng tạo ra để huấn luyện chatbot AI của mình, Claude. Vụ kiện, được đệ trình lên Tòa án Thượng thẩm California ở San Francisco, cáo buộc Anthropic đã “cào” hàng triệu bình luận từ nền tảng Reddit mà không được phép, vi phạm các điều khoản dịch vụ của công ty và tham gia vào cạnh tranh không lành mạnh.
Cáo buộc về Cào Dữ Liệu
Trọng tâm của vụ kiện là tuyên bố của Reddit rằng Anthropic đã sử dụng các bot tự động để truy cập và trích xuất nội dung từ nền tảng của mình, mặc dù đã có những yêu cầu rõ ràng để ngừng các hoạt động như vậy. Hoạt động này, được gọi là “cào,” bao gồm việc thu thập dữ liệu một cách có hệ thống từ các trang web, thường là không có sự đồng ý của trang web. Reddit cho rằng Anthropic đã sử dụng dữ liệu đã cào này để huấn luyện chatbot Claude của mình, tận dụng hiệu quả thông tin cá nhân của người dùng Reddit mà không có kiến thức hoặc ủy quyền của họ.
Giám đốc Pháp lý của Reddit, Ben Lee, nhấn mạnh lập trường của công ty về việc sử dụng dữ liệu, nói rằng "Các công ty AI không nên được phép cào thông tin và nội dung từ mọi người mà không có những hạn chế rõ ràng về cách họ có thể sử dụng dữ liệu đó." Tuyên bố này подчеркивает mối quan tâm của Reddit rằng các công ty AI đang khai thác nội dung do người dùng tạo ra mà không cung cấp đủ các biện pháp bảo vệ quyền riêng tư và bảo vệ dữ liệu của người dùng.
Anthropic, để đáp lại những cáo buộc của Reddit, đã đưa ra một tuyên bố bày tỏ sự không đồng ý với những tuyên bố đó và khẳng định ý định "tự bảo vệ mình một cách mạnh mẽ." Việc bảo vệ của công ty có thể sẽ xoay quanh các lập luận liên quan đến sử dụng hợp lý, bản chất của dữ liệu có sẵn công khai và mức độ mà các hoạt động đào tạo AI của nó tuân thủ các tiêu chuẩn pháp lý và đạo đức.
Thỏa thuận Cấp phép của Reddit
Hành động pháp lý chống lại Anthropic diễn ra trong bối cảnh các thỏa thuận cấp phép hiện tại của Reddit với các công ty AI khác, bao gồm Google và OpenAI. Các thỏa thuận này cho phép các công ty đó đào tạo các hệ thống AI của họ trên kho lưu trữ rộng lớn các bình luận công khai của Reddit, được tạo ra bởi hơn 100 triệu người dùng hàng ngày của nó. Để đổi lấy quyền truy cập vào dữ liệu này, Reddit nhận được bồi thường và quan trọng hơn là khả năng thực thi các biện pháp bảo vệ người dùng.
Theo Ben Lee, các thỏa thuận cấp phép này "cho phép chúng tôi thực thi các biện pháp bảo vệ có ý nghĩa cho người dùng của chúng tôi, bao gồm quyền xóa nội dung của bạn, các biện pháp bảo vệ quyền riêng tư của người dùng và ngăn người dùng bị spam bằng nội dung này." Điều này làm nổi bật cách tiếp cận chủ động của Reddit đối với việc quản lý việc sử dụng dữ liệu của mình bởi các công ty AI, đảm bảo rằng quyền và quyền riêng tư của người dùng được tôn trọng.
Vụ kiện chống lại Anthropic có thể được xem như một nỗ lực của Reddit để thực thi các chính sách sử dụng dữ liệu của mình và bảo vệ lợi ích của người dùng. Bằng cách theo đuổi hành động pháp lý, Reddit đang gửi một thông điệp rõ ràng đến các công ty AI rằng họ sẽ không dung thứ cho việc cào dữ liệu trái phép và sẽ tích cực bảo vệ quyền của mình và quyền của người dùng.
Phát triển AI của Anthropic
Anthropic, được thành lập bởi các cựu giám đốc điều hành của OpenAI vào năm 2021, đã nổi lên như một người chơi quan trọng trên thị trường chatbot AI. Sản phẩm chủ lực của nó, Claude, là một đối thủ cạnh tranh trực tiếp với ChatGPT của OpenAI. Trong khi OpenAI có một mối quan hệ đối tác chặt chẽ với Microsoft, thì đối tác thương mại chính của Anthropic là Amazon, công ty đang sử dụng Claude để nâng cao trợ lý giọng nói Alexa của mình.
Giống như nhiều công ty AI, Anthropic dựa vào các bộ dữ liệu lớn gồm văn bản và mã để đào tạo các mô hình AI của mình. Các bộ dữ liệu này thường bao gồm nội dung từ các trang web như Wikipedia và Reddit, cung cấp một lượng lớn thông tin về nhiều chủ đề và phản ánh các sắc thái của ngôn ngữ loài người. Vụ kiện làm nổi bật sự phụ thuộc của các công ty AI vào nội dung trực tuyến có sẵn, đặt ra câu hỏi về các tác động đạo đức và pháp lý của việc sử dụng dữ liệu đó để đào tạo AI.
Cuộc tranh luận về "Cào"
Việc "cào" dữ liệu từ các trang web đã trở thành một vấn đề gây tranh cãi trong ngành công nghiệp AI. Các công ty AI cho rằng việc cào là cần thiết để thu thập lượng dữ liệu khổng lồ cần thiết để đào tạo các mô hình AI của họ. Họ thường trích dẫn khái niệm "sử dụng hợp lý," cho phép sử dụng tài liệu có bản quyền cho một số mục đích nhất định, chẳng hạn như giáo dục, nghiên cứu và bình luận.
Tuy nhiên, các chủ sở hữu trang web và người sáng tạo nội dung cho rằng việc cào có thể vi phạm các điều khoản dịch vụ của họ, xâm phạm bản quyền của họ và làm suy yếu các mô hình kinh doanh của họ. Họ cho rằng các công ty AI nên xin phép trước khi cào dữ liệu của họ và nên bồi thường cho họ về việc sử dụng nội dung của họ.
Vụ kiện của Reddit chống lại Anthropic chỉ là một ví dụ về căng thẳng ngày càng tăng giữa các công ty AI và các nhà cung cấp nội dung về việc cào dữ liệu. Khi công nghệ AI tiếp tục phát triển, có khả năng các cuộc tranh luận pháp lý và đạo đức này sẽ gia tăng, dẫn đến sự phát triển của luật và quy định mới điều chỉnh việc sử dụng dữ liệu để đào tạo AI.
Bài báo năm 2021
Một bài báo nghiên cứu năm 2021 do Giám đốc điều hành Anthropic Dario Amodei đồng tác giả đã được trích dẫn trong vụ kiện của Reddit. Bài báo này làm sáng tỏ các subreddit cụ thể, hoặc các diễn đàn theo chủ đề, mà các nhà nghiên cứu của Anthropic đã xác định là chứa dữ liệu chất lượng cao để đào tạo AI. Các subreddit này trải rộng trên một loạt các chủ đề, từ làm vườn và lịch sử đến lời khuyên về mối quan hệ và những suy nghĩ trong khi tắm.
Việc trích dẫn bài báo này trong vụ kiện nhấn mạnh tuyên bố của Reddit rằng Anthropic đã cố tình nhắm mục tiêu vào nền tảng của mình để cào dữ liệu. Bằng cách xác định các subreddit cụ thể là các nguồn dữ liệu huấn luyện AI có giá trị, Anthropic bị cáo buộc đã chứng minh ý định trích xuất nội dung từ Reddit mà không được phép.
Lợi thế Bản quyền của Anthropic
Trong một lá thư năm 2023 gửi Văn phòng Bản quyền Hoa Kỳ, Anthropic lập luận rằng các hoạt động đào tạo AI của mình cấu thành "việc sử dụng tài liệu hợp pháp một cách tinh túy." Công ty khẳng định rằng các mô hình AI của họ tạo bản sao thông tin chỉ nhằm mục đích thực hiện phân tích thống kê trên các bộ dữ liệu lớn, điều mà họ tin là thuộc học thuyết sử dụng hợp lý.
Tuy nhiên, lập luận này chưa được chấp nhận rộng rãi. Anthropic hiện đang phải đối mặt với một vụ kiện riêng biệt từ các nhà xuất bản âm nhạc lớn, những người cáo buộc rằng Claude sao chép lời bài hát có bản quyền. Vụ kiện này làm dấy lên lo ngại về khả năng các mô hình AI xâm phạm bản quyền bằng cách sao chép hoặc phân phối tài liệu có bản quyền.
Vi phạm Điều khoản Sử dụng
Vụ kiện Reddit chống lại Anthropic khác với các thách thức pháp lý khác chống lại các công ty AI ở chỗ nó không cáo buộc vi phạm bản quyền. Thay vào đó, nó tập trung vào cáo buộc vi phạm các điều khoản sử dụng của Reddit và sự cạnh tranh không lành mạnh do vi phạm đó gây ra.
Reddit cho rằng Anthropic đã vi phạm các điều khoản sử dụng của mình bằng cách cào nội dung từ nền tảng mà không được phép. Nó cũng cho rằng các hành động của Anthropic đã tạo ra sự cạnh tranh không lành mạnh bằng cách cho phép nó phát triển chatbot AI của riêng mình mà không phải chịu chi phí liên quan đến việc cấp phép dữ liệu từ Reddit.
Bằng cách tập trung vào các vấn đề này, Reddit đang cố gắng thiết lập một tiền lệ pháp lý có thể có những ý nghĩa quan trọng đối với ngành công nghiệp AI. Nếu Reddit thắng kiện, có thể sẽ khó hơn cho các công ty AI để cào dữ liệu từ các trang web mà không được phép, có khả năng dẫn đến một sự thay đổi trong cách các mô hình AI được đào tạo.
Thỏa thuận AP và OpenAI
Associated Press (AP) và OpenAI có một thỏa thuận cấp phép và công nghệ cho phép OpenAI truy cập vào một phần kho lưu trữ văn bản của AP. Thỏa thuận này phản ánh xu hướng ngày càng tăng của các nhà cung cấp nội dung hợp tác với các công ty AI để cấp phép dữ liệu của họ cho mục đích đào tạo AI.
Các thỏa thuận như vậy cung cấp cho các nhà cung cấp nội dung một cách để tạo doanh thu từ dữ liệu của họ đồng thời duy trì quyền kiểm soát cách dữ liệu đó được sử dụng. Chúng cũng cung cấp cho các công ty AI quyền truy cập vào dữ liệu chất lượng cao có thể cải thiện hiệu suất của các mô hình AI của họ.
Những Hàm ý Rộng lớn hơn
Vụ kiện của Reddit chống lại Anthropic không chỉ là một tranh chấp giữa hai công ty; nó là một tín hiệu cho các cuộc tranh luận pháp lý và đạo đức rộng lớn hơn xung quanh sự phát triển của AI. Kết quả của vụ việc này có thể có những ý nghĩa quan trọng đối với ngành công nghiệp AI, có khả năng định hình cách các mô hình AI được đào tạo và quyền của các nhà cung cấp nội dung.
Khi công nghệ AI tiếp tục phát triển, điều quan trọng là những vấn đề này phải được giải quyết một cách chu đáo và toàn diện. Điều này sẽ đòi hỏi sự hợp tác giữa các công ty AI, các nhà cung cấp nội dung, các nhà hoạch định chính sách và công chúng để phát triển một khuôn khổ cân bằng những lợi ích của sự đổi mới AI với nhu cầu bảo vệ quyền riêng tư của người dùng, quyền sở hữu trí tuệ và cạnh tranh công bằng.
Định nghĩa về Cào
Cào, trong bối cảnh này, đề cập đến việc trích xuất dữ liệu tự động từ các trang web. Các công cụ được sử dụng để phân tích mã HTML và kéo ra các yếu tố cụ thể như văn bản, hình ảnh или liên kết. Trong trường hợp của Reddit, Anthropic bị cáo buộc đã sử dụng các bot để cào các bình luận của người dùng, điều này có giá trị để đào tạo các mô hình ngôn ngữ.
Tính hợp pháp của việc cào là một khu vực màu xám. Các trang web thường có các điều khoản dịch vụ cấm hoạt động như vậy, nhưng việc thực thi có thể khó khăn. Một số người cho rằng dữ liệu có sẵn công khai nên có thể truy cập được, trong khi những người khác nhấn mạnh quyền của chủ sở hữu trang web để kiểm soát nội dung của họ.
Học thuyết Sử dụng Hợp lý
Học thuyết sử dụng hợp lý là một nguyên tắc pháp lý cho phép sử dụng giới hạn tài liệu có bản quyền mà không được phép từ chủ sở hữu bản quyền. Học thuyết này nhằm mục đích thúc đẩy tự do biểu đạt bằng cách cho phép bình luận, chỉ trích, đưa tin, giảng dạy, học bổng và nghiên cứu.
Tuy nhiên, việc áp dụng học thuyết sử dụng hợp lý cho đào tạo AI là phức tạp và gây tranh cãi. Các công ty AI cho rằng việc họ sử dụng tài liệu có bản quyền cho mục đích đào tạo là mang tính chuyển đổi và không xâm phạm quyền của chủ sở hữu bản quyền. Mặt khác, các nhà cung cấp nội dung cho rằng đào tạo AI là một hoạt động thương mại đòi hỏi sự cho phép và bồi thường.
Tương lai của Đào tạo AI
Vụ kiện của Reddit chống lại Anthropic làm nổi bật những thách thức và sự không chắc chắn xung quanh tương lai của đào tạo AI. Khi các mô hình AI trở nên tinh vi hơn và yêu cầu các bộ dữ liệu lớn hơn, nhu cầu về dữ liệu sẽ chỉ tăng lên. Điều này có thể sẽ dẫn đến các cuộc chiến pháp lý và các nỗ lực điều chỉnh hơn nữa để giải quyết các tác động đạo đức và pháp lý của việc cào dữ liệu và đào tạo AI.
Điều cần thiết là các bên liên quan phải làm việc cùng nhau để phát triển một khuôn khổ thúc đẩy sự đổi mới đồng thời bảo vệ quyền của các nhà cung cấp nội dung và đảm bảo các hoạt động dữ liệu có trách nhiệm. Khuôn khổ này nên giải quyết các vấn đề như quyền riêng tư dữ liệu, bản quyền, tính minh bạch và trách nhiệm giải trình.
Các Nguồn Dữ liệu Thay thế
Khi sự giám sát pháp lý đối với việc cào web tăng lên, các công ty AI đang khám phá các nguồn dữ liệu thay thế để đào tạo các mô hình của họ. Chúng bao gồm:
- Dữ liệu được cấp phép: Thu thập dữ liệu thông qua các thỏa thuận cấp phép với các nhà cung cấp nội dung như Reddit, AP và những người khác.
- Dữ liệu tổng hợp: Tạo dữ liệu nhân tạo mô phỏng dữ liệu trong thế giới thực nhưng không chứa bất kỳ thông tin nhận dạng cá nhân hoặc tài liệu có bản quyền nào.
- Dữ liệu nguồn mở: Sử dụng các bộ dữ liệu có sẵn công khai được cấp phép cho mục đích thương mại.
- Dữ liệu nội bộ: Tận dụng dữ liệu được tạo ra bởi các sản phẩm và dịch vụ của chính công ty.
Bằng cách đa dạng hóa các nguồn dữ liệu của mình, các công ty AI có thể giảm sự phụ thuộc vào việc cào web và giảm thiểu rủi ro liên quan đến các thách thức pháp lý và các mối lo ngại về đạo đức.
Quan điểm của Người dùng
Cuối cùng, cuộc tranh luận về các hoạt động đào tạo AI đặt ra những câu hỏi cơ bản về quyền của người dùng internet. Người dùng tạo ra một lượng lớn nội dung trên các nền tảng như Reddit, thường là không hiểu đầy