Cuộc Chiến Bản Quyền AI Nóng Lên: Nhà Xuất Bản Nhắm Vào Cohere | vi

Trong bối cảnh phát triển AI, một cuộc đối đầu pháp lý lại nổi lên khi một nhóm các tổ chức tin tức và truyền thông hàng đầu đã khởi kiện công ty khởi nghiệp AI tạo sinh Cohere về vi phạm bản quyền và thương hiệu. Đơn kiện được đệ trình lên Tòa án Quận Hoa Kỳ cho Khu vực phía Nam của New York vào tháng 2 năm 2025, liệt kê hơn một chục nguyên đơn, bao gồm các ấn phẩm được kính trọng như Forbes, The Guardian và Los Angeles Times. Trọng tâm của vấn đề nằm ở việc Cohere sử dụng công nghệ Retrieval-Augmented Generation (RAG), mà các nguyên đơn cáo buộc liên quan đến việc sử dụng trái phép tài liệu có bản quyền của họ để xây dựng cơ sở dữ liệu và tạo ra đầu ra.

Công nghệ RAG dưới sự xem xét kỹ lưỡng

Retrieval-Augmented Generation (RAG) nổi lên như một giải pháp tiềm năng cho một số thách thức vốn có liên quan đến các mô hình ngôn ngữ lớn (LLMs). Được đề xuất bởi Patrick Lewis và các đồng nghiệp của ông vào năm 2020, RAG nhằm mục đích giảm thiểu các vấn đề như ảo giác (tạo ra thông tin không chính xác hoặc vô nghĩa), kiến thức lỗi thời và thiếu minh bạch trong lý luận của mô hình. Điều thú vị là, Patrick Lewis hiện đang là nhà nghiên cứu tại Cohere, tiếp tục công việc của mình về công nghệ RAG. Việc áp dụng RAG đã lan rộng, với các công ty lớn như Microsoft, Google, Amazon và NVIDIA tích hợp nó vào hệ thống AI của họ.

Vụ kiện do các nhà xuất bản tin tức đưa ra tập trung vào một số cáo buộc chính về vi phạm bản quyền chống lại Cohere. Những tuyên bố này làm nổi bật các câu hỏi pháp lý phức tạp xung quanh việc sử dụng tài liệu có bản quyền trong việc đào tạo và vận hành các mô hình AI tạo sinh.

Các khiếu nại vi phạm bản quyền chống lại Cohere

Các cáo buộc của nguyên đơn chống lại Cohere có thể được chia thành bốn loại chính:

1. Đào tạo mô hình AI

Cốt lõi trong lập luận của các nguyên đơn xoay quanh cách Cohere đào tạo mô hình ngôn ngữ lớn của mình, được gọi là “Command Family”. Họ tuyên bố Cohere đã tham gia vào việc “cào” rộng rãi văn bản từ internet, bao gồm nội dung có bản quyền từ các ấn phẩm của nguyên đơn. Dữ liệu được cào này sau đó được sử dụng để tạo các bộ dữ liệu cần thiết cho việc đào tạo mô hình Command Family. Hơn nữa, các nguyên đơn cáo buộc rằng Cohere đã sử dụng các bộ dữ liệu của bên thứ ba như C4 của Common Crawl, chứa một lượng đáng kể tài liệu có bản quyền của họ, mà không có được các quyền cần thiết.

Việc sử dụng tài liệu có bản quyền trong đào tạo mô hình AI đã trở thành một vấn đề gây tranh cãi. Các nhà phát triển AI thường cho rằng việc sử dụng như vậy thuộc phạm vi của học thuyết “sử dụng hợp lý”, cho phép sử dụng hạn chế tài liệu có bản quyền cho các mục đích như phê bình, bình luận, đưa tin, giảng dạy, học bổng hoặc nghiên cứu. Tuy nhiên, những người nắm giữ bản quyền cho rằng việc cào và sử dụng nội dung của họ trên quy mô lớn cho các mục đích thương mại, chẳng hạn như đào tạo mô hình AI, vượt ra ngoài phạm vi sử dụng hợp lý. Trận chiến pháp lý này có khả năng xoay quanh việc liệu tòa án có đồng ý với đánh giá của nguyên đơn hay không.

2. Sử dụng thời gian thực / RAG

Một khía cạnh quan trọng khác của vụ kiện tập trung vào cách các dịch vụ của Cohere, đặc biệt là giao diện Chat của nó, sử dụng công nghệ RAG trong thời gian thực. Các nguyên đơn cáo buộc rằng các mô hình của Cohere cào nội dung từ các nguồn bên ngoài, bao gồm trang web của họ, để tạo ra phản hồi cho các truy vấn của người dùng. Việc cào thời gian thực này, theo các nguyên đơn, cấu thành vi phạm bản quyền, đặc biệt khi các mô hình của Cohere bỏ qua tường phí hoặc bỏ qua các chỉ thị “robots.txt”, là các lệnh hướng dẫn trình thu thập thông tin web (bao gồm cả những trình được sử dụng bởi các mô hình AI) không cào nội dung cụ thể từ một trang web.

Việc bỏ qua tường phí và các chỉ thị robots.txt đặt ra các câu hỏi đạo đức và pháp lý nghiêm trọng. Tường phí được thiết kế để bảo vệ nội dung có bản quyền và đảm bảo rằng các nhà xuất bản được bồi thường cho công việc của họ. Các chỉ thị Robots.txt là một cơ chế tiêu chuẩn để chủ sở hữu trang web kiểm soát cách nội dung của họ được truy cập và sử dụng bởi trình thu thập thông tin web. Bằng cách bỏ qua các biện pháp bảo vệ này, Cohere bị cáo buộc thể hiện sự coi thường luật bản quyền và quyền của người sáng tạo nội dung.

3. Đầu ra vi phạm

Các nguyên đơn cho rằng các dịch vụ của Cohere cung cấp các đầu ra vi phạm dưới dạng bản sao, đoạn trích đáng kể hoặc tóm tắt thay thế các tác phẩm có bản quyền của họ để đáp ứng các truy vấn của người dùng. Họ trích dẫn các ví dụ về đầu ra Cohere Chat nơi bảng điều khiển “Under the Hood” hiển thị đầy đủ hoặc một phần các bài viết được sao chép trực tiếp từ trang web của nguyên đơn.

Các nguyên đơn lập luận rằng những đầu ra này, cho dù chúng là bản sao nguyên văn hay bản tóm tắt, trực tiếp thay thế cho nhu cầu người dùng truy cập các bài viết gốc. Điều này, đến lượt nó, gây tổn hại đến đăng ký kỹ thuật số và doanh thu quảng cáo mà các nguyên đơn dựa vào để duy trì hoạt động kinh doanh của họ. Cốt lõi của luận điểm này là các mô hình AI của Cohere về cơ bản đang hoạt động như những nhà phân phối trái phép nội dung có bản quyền, tước đi sự bồi thường hợp pháp của các nhà xuất bản gốc.

4. Thích ứng trái phép

Ngoài việc hiển thị các phần tác phẩm của nguyên đơn trong bảng điều khiển “Under the Hood”, các dịch vụ của Cohere cũng cung cấp các bản tóm tắt hoặc bản tóm tắt của các tác phẩm này. Các nguyên đơn lập luận rằng mức độ chi tiết trong các bản tóm tắt này rất rộng đến mức chúng về cơ bản thay thế các tác phẩm gốc, vượt quá ranh giới sử dụng hợp lý.

Luật bản quyền bảo vệ không chỉ việc sao chép nguyên văn các tác phẩm có bản quyền mà còn cả việc tạo ra các tác phẩm phái sinh, là các điều chỉnh hoặc chuyển đổi của bản gốc. Các nguyên đơn lập luận rằng các bản tóm tắt của Cohere toàn diện đến mức chúng cấu thành các tác phẩm phái sinh trái phép, vi phạm quyền độc quyền của họ để tạo và phân phối các điều chỉnh tài liệu có bản quyền của họ.

Trách nhiệm thứ cấp đối với hành động của người dùng

Ngoài khiếu nại về vi phạm bản quyền trực tiếp, các nguyên đơn cũng lập luận rằng Cohere chịu trách nhiệm thứ cấp đối với các hành vi vi phạm của người dùng. Họ lập luận rằng các dịch vụ của Cohere tạo điều kiện cho việc sao chép, hiển thị và phân phối các tác phẩm của nguyên đơn bởi người dùng và Cohere không thể trốn tránh trách nhiệm bằng cách chỉ quy trách nhiệm vi phạm cho hành động của người dùng. Cơ sở cho yêu cầu này là sản phẩm của Cohere chỉ tạo ra câu trả lời sau khi người dùng nhập một lời nhắc, khiến công ty trở thành một bên tham gia vào hoạt động vi phạm.

Lập luận về trách nhiệm thứ cấp này rất quan trọng vì nó tìm cách quy trách nhiệm cho các nhà phát triển AI đối với hành động của người dùng, ngay cả khi những người dùng đó là những người trực tiếp tham gia vào vi phạm bản quyền. Nếu thành công, lập luận này có thể có những tác động sâu rộng đối với việc phát triển và triển khai các công nghệ AI, vì nó sẽ yêu cầu các nhà phát triển thực hiện các biện pháp bảo vệ để ngăn người dùng của họ vi phạm bản quyền.

Yêu cầu vi phạm nhãn hiệu

Vụ kiện mở rộng ra ngoài vi phạm bản quyền để bao gồm các yêu cầu về vi phạm nhãn hiệu. Các nguyên đơn cáo buộc rằng việc Cohere thực hiện việc quy nguồn là vi phạm nhãn hiệu vì nó sử dụng các nhãn hiệu nổi tiếng của nguyên đơn mà không được phép hoặc liên kết chúng với nội dung sai sót do AI tạo ra. Họ lập luận rằng điều này dẫn đến tổn hại đến uy tín thương hiệu của nguyên đơn và làm suy yếu sự khác biệt của họ.

Nhãn hiệu là các biểu tượng, thiết kế hoặc cụm từ được đăng ký hợp pháp để đại diện cho một công ty hoặc sản phẩm. Việc sử dụng trái phép nhãn hiệu có thể gây nhầm lẫn cho người tiêu dùng và làm tổn hại đến uy tín của thương hiệu. Các nguyên đơn lập luận rằng việc Cohere sử dụng nhãn hiệu của họ kết hợp với nội dung do AI tạo ra có thể khiến người dùng tin rằng các nguyên đơn chứng thực hoặc liên kết với các dịch vụ của Cohere, điều này không đúng.

Bối cảnh rộng hơn: RAG và tương lai của luật bản quyền AI

Vụ kiện chống lại Cohere không phải là một sự cố riêng lẻ. Nó tuân theo một vụ kiện bản quyền trước đó ở Hoa Kỳ vào tháng 10 năm 2024 cũng tập trung vào ứng dụng RAG trong các dịch vụ AI. Số lượng các vụ việc ngày càng tăng này làm nổi bật sự gia tăng căng thẳng giữa các nhà phát triển AI và những người nắm giữ bản quyền khi kiến trúc RAG trở nên phổ biến hơn trong các dịch vụ AI.

Các trận chiến pháp lý xung quanh công nghệ RAG có khả năng trở thành một vấn đề quan trọng trong tương lai của luật bản quyền AI. RAG đặt ra những thách thức riêng vì nó liên quan đến việc truy xuất và sử dụng tài liệu có bản quyền trong thời gian thực để tạo ra đầu ra. Điều này đặt ra những câu hỏi phức tạp về phạm vi sử dụng hợp lý, trách nhiệm của các nhà phát triển AI đối với hành động của người dùng và bảo vệ quyền sở hữu trí tuệ trong kỷ nguyên trí tuệ nhân tạo.

Kết quả của các vụ kiện này có thể có tác động sâu sắc đến việc phát triển và triển khai các công nghệ AI. Nếu tòa án phán quyết có lợi cho những người nắm giữ bản quyền, các nhà phát triển AI có thể buộc phải thực hiện các biện pháp bảo vệ nghiêm ngặt hơn để ngăn chặn vi phạm bản quyền, điều này có thể làm tăng chi phí và độ phức tạp của việc phát triển mô hình AI. Mặt khác, nếu tòa án phán quyết có lợi cho các nhà phát triển AI, những người nắm giữ bản quyền có thể cần tìm những cách mới để bảo vệ quyền sở hữu trí tuệ của họ trước các công nghệ AI ngày càng tinh vi.

Cuộc đụng độ giữa các nhà xuất bản tin tức và Cohere đóng vai trò là một thời điểm quan trọng trong cuộc tranh luận đang diễn ra về AI, bản quyền và tương lai của việc tạo nội dung. Kết quả của vụ việc này, cùng với những vụ khác tương tự, chắc chắn sẽ định hình bối cảnh pháp lý cho AI tạo ra và sự tương tác của nó với tài liệu có bản quyền trong nhiều năm tới. Khi AI tiếp tục phát triển và ngày càng được tích hợp vào các khía cạnh khác nhau của cuộc sống của chúng ta, điều cần thiết là phải đạt được sự cân bằng giữa thúc đẩy sự đổi mới và bảo vệ quyền của người sáng tạo nội dung. Các tòa án, nhà lập pháp và cộng đồng AI phải làm việc cùng nhau để thiết lập các hướng dẫn và quy định rõ ràng nhằm thúc đẩy sự sáng tạo đồng thời đảm bảo rằng quyền sở hữu trí tuệ được tôn trọng.

Đặc biệt, ngành công nghiệp tin tức phải đối mặt với một loạt các thách thức riêng biệt trong kỷ nguyên AI. Khi các mô hình AI ngày càng có khả năng tạo ra nội dung tin tức, điều quan trọng là các nhà xuất bản phải được bồi thường cho việc sử dụng tài liệu có bản quyền của họ và tính toàn vẹn của thương hiệu của họ được bảo vệ. Vụ kiện chống lại Cohere thể hiện một nỗ lực của các nhà xuất bản tin tức để khẳng định quyền của họ và đảm bảo rằng công việc của họ không bị các công ty AI khai thác mà không có sự cho phép thích hợp.

cập nhật lúc 2025-05-31

# RAG # Cohere # Command