AI từ dữ liệu đạo đức: Ước mơ thành hiện thực | vi

Một sự phản bác đáng kinh ngạc đối với những tuyên bố không thể của ngành công nghệ, một nhóm các nhà nghiên cứu tận tâm đã đạt được điều mà nhiều người cho là không thể đạt được: sự sáng tạo ra một mô hình AI được đào tạo hoàn toàn trên dữ liệu có nguồn gốc đạo đức. Thành tựu đột phá này, do các chuyên gia từ các tổ chức uy tín như MIT, Cornell University và University of Toronto dẫn đầu, trình bày một bản thiết kế khả thi và có trách nhiệm cho tương lai của phát triển AI. Bí quyết? Một tập dữ liệu được tuyển chọn tỉ mỉ chỉ bao gồm nội dung được cấp phép công khai hoặc thuộc phạm vi công cộng.

Nhiệm vụ Herculean về Nguồn Dữ Liệu Đạo Đức

Hành trình đến ốc đảo AI đạo đức này không hề dễ dàng. Như các nhà nghiên cứu thừa nhận, nút thắt cổ chai thực sự không phải là sức mạnh tính toán, mà là nỗ lực của con người. Quá trình lắp ráp Common Pile v0.1, một tập dữ liệu mở rộng vượt quá tám terabyte, đòi hỏi phải làm sạch và định dạng lại thủ công một cách tỉ mỉ để làm cho nó phù hợp với đào tạo AI. Hãy tưởng tượng việc sàng lọc qua vô số đống thông tin kỹ thuật số, tìm kiếm bất kỳ loại lỗi nào có thể làm hỏng bộ dữ liệu.

Nhưng thách thức thực sự nằm ở việc kiểm tra kỹ lưỡng tình trạng bản quyền. Trong lĩnh vực hỗn loạn của internet, việc cấp phép sai tràn lan là điều bình thường, biến việc xác minh bản quyền thành một nhiệm vụ Sisyphean.

"Đây không phải là điều mà bạn có thể chỉ cần mở rộng quy mô các nguồn lực mà bạn có sẵn", đồng tác giả nghiên cứu Stella Biderman nói với WaPo. "Chúng tôi sử dụng các công cụ tự động, nhưng tất cả các thứ của chúng tôi đều được chú thích thủ công vào cuối ngày và được kiểm tra bởi mọi người. Và điều đó thực sự khó."

Quá trình sàng lọc qua terabyte dữ liệu để tìm kiếm các vấn đề bản quyền không hề dễ dàng. Các nhà nghiên cứu không thể chỉ cần thêm nhiều chip máy tính vào quy trình và hy vọng có một giải pháp. Thay vào đó, họ cần phải xác minh và chú thích thủ công tất cả dữ liệu.

Chiến Thắng Khó Khăn: Sự Ra Đời của Một AI Đạo Đức

Bất chấp những trở ngại khó khăn, Biderman và nhóm tận tâm của cô đã kiên trì. Khi nhiệm vụ khó khăn tạo ra Common Pile hoàn thành, họ đã giải phóng tiềm năng của nó để đào tạo một Large Language Model (LLM) bảy tỷ tham số. AI thu được không chỉ giữ vững vị thế của nó so với các tiêu chuẩn ngành như Meta’s Llama 1 và Llama 2 7B, mà còn làm như vậy với một lương tâm đạo đức trong sạch.

Nhưng bối cảnh nghiên cứu AI phát triển nhanh như một viên đạn đang lao tới. Điều quan trọng cần nhớ là Meta đã phát hành Llama 1 và Llama 2 một vài năm trước, một khoảng thời gian tương đối vĩnh cửu trong thế giới AI.

Việc một nhóm tinh gọn, quyết tâm có thể đạt được kết quả tương đương với nguồn lực hạn chế là một minh chứng cho sự khéo léo của họ. Một phát hiện đặc biệt đầy cảm hứng là một kho tàng hơn 130.000 cuốn sách tiếng Anh trong Library of Congress mà trước đây đã bị bỏ qua.

Vùng Nước Đục Ngầu của AI và Bản Quyền

Bản quyền vẫn là một vấn đề đạo đức và pháp lý gai góc trong thời đại AI. Những gã khổng lồ trong ngành như OpenAI và Google đã tích lũy các tập dữ liệu khổng lồ bằng cách ngấu nghiến mọi thứ trong tầm mắt, từ các bài báo tin tức đến các bài đăng trên mạng xã hội cá nhân. Thực tiễn này đã thu hút sự chỉ trích từ mọi phía. Các tác giả thậm chí đã đệ đơn kiện, cáo buộc việc sử dụng bất hợp pháp sách có bản quyền để đào tạo các mô hình AI.

Ngành công nghệ khẳng định rằng những thực tiễn như vậy cấu thành sử dụng hợp pháp, lập luận rằng sự phát triển của AI sẽ "không thể" nếu không có quyền truy cập dữ liệu không hạn chế. Nghiên cứu mới nhất này đưa ra một sự phản bác cay đắng đối với câu chuyện Silicon Valley đó.

Mặc dù thành tựu này đánh dấu một bước tiến quan trọng, nhưng nó không loại bỏ tất cả các cân nhắc về đạo đức. Các mô hình ngôn ngữ lớn, với tiềm năng thay thế người lao động, vẫn đặt ra những câu hỏi cơ bản về tương lai của lao động. Hơn nữa, việc sử dụng các tác phẩm thuộc phạm vi công cộng có thể không làm hài lòng tất cả mọi người, đặc biệt là những người có đóng góp sáng tạo hiện đang được AI nhai lại.

Ngay cả trong một tương lai giả định, nơi các công ty AI buộc phải tìm kiếm sự cho phép hoặc cung cấp bồi thường cho việc sử dụng dữ liệu, chủ sở hữu bản quyền vẫn có thể phải đối mặt với áp lực không đáng có để cho phép đào tạo AI. Các nguồn lực to lớn có thể được đưa ra khi đào tạo các mô hình AI có nghĩa là hầu hết các chủ sở hữu bản quyền sẽ không thể cưỡng lại áp lực từ các công ty AI lớn để cho phép họ sử dụng dữ liệu.

Hướng Tới Minh Bạch và Trách Nhiệm Giải Trình trong AI

Tuy nhiên, Biderman vẫn thực dụng. Cô không hề ảo tưởng rằng các công ty như OpenAI sẽ đột nhiên chấp nhận tìm nguồn cung ứng dữ liệu đạo đức. Thay vào đó, cô hy vọng rằng công việc của mình sẽ khuyến khích sự minh bạch hơn trong việc sử dụng dữ liệu. Những tập dữ liệu nào đã được sử dụng để đào tạo những sản phẩm AI nào? Biết câu trả lời cho câu hỏi đó có thể có ý nghĩa quan trọng đối với tương lai của AI.

"Ngay cả tính minh bạch một phần cũng có một lượng giá trị xã hội rất lớn và một lượng giá trị khoa học vừa phải", cô nói với WaPo.

Hiện tại, các tập dữ liệu chính xác được sử dụng để đào tạo một AI nhất định là những bí mật được bảo vệ chặt chẽ. Cách duy nhất để sao chép một mô hình AI là được biết chính xác cách mô hình AI hiện tại được tạo ra, hoặc sử dụng kỹ thuật đảo ngược mô hình AI, điều này có thể mất rất nhiều thời gian và công sức.

Một Sự Thay Đổi Mô Hình trong Phát Triển AI

Ý nghĩa của nghiên cứu này mở rộng vượt ra ngoài lĩnh vực đạo đức AI. Nó biểu thị một sự thay đổi cơ bản trong cách AI có thể được phát triển, chứng minh rằng các cân nhắc về đạo đức và tiến bộ công nghệ không cần phải loại trừ lẫn nhau. Bằng cách ưu tiên tính minh bạch, tìm nguồn cung ứng dữ liệu có trách nhiệm và giám sát của con người, chúng ta có thể tạo ra một tương lai nơi AI phục vụ nhân loại, thay vì ngược lại.

Giải Quyết Các Mối Quan Tâm Đạo Đức và Tác Động Xã Hội

Lập luận của ngành công nghệ rằng việc sử dụng dữ liệu đạo đức là một trở ngại không thể vượt qua hiện đã bị thách thức một cách dứt khoát. Sự thành công của dự án này nhấn mạnh tính khả thi của việc xây dựng các mô hình AI trên một nền tảng đạo đức vững chắc. Tuy nhiên, các khía cạnh đạo đức của phát triển AI mở rộng ra ngoài các vấn đề bản quyền. Các tác động kinh tế-xã hội của AI, bao gồm sự dịch chuyển công việc và sự thiên vị thuật toán, đòi hỏi phải xem xét cẩn thận.

Các cân nhắc về đạo đức ảnh hưởng đến các mô hình AI không chỉ là tìm nguồn cung ứng. Chúng ta cũng phải xác minh rằng dữ liệu không gây ra sự thiên vị của các mô hình AI đối với hoặc chống lại bất kỳ phân khúc dân số nào.

Thúc Đẩy Tính Minh Bạch và Trách Nhiệm Giải Trình

Để thúc đẩy sự tin tưởng và đảm bảo sự đổi mới có trách nhiệm, ngành công nghiệp AI phải nắm lấy tính minh bạch và trách nhiệm giải trình. Các công ty nên công khai về các nguồn dữ liệu được sử dụng để đào tạo các mô hình của họ và các phương pháp được sử dụng để giảm thiểu sự thiên vị. Kiểm toán độc lập và giám sát bên ngoài có thể nâng cao hơn nữa trách nhiệm giải trình và ngăn ngừa các sai sót về đạo đức.

Tính minh bạch của AI có thể được triển khai để xác minh rằng các tập dữ liệu chứa đủ phân phối rộng để tránh sự thiên vị trong mô hình AI. Trách nhiệm giải trình của AI có thể được thực hiện bằng cách kiểm toán bên ngoài để kiểm tra các sai sót đạo đức tiềm ẩn.

Hợp Tác và Các Giải Pháp Mã Nguồn Mở

Sự phát triển của AI có nguồn gốc đạo đức đòi hỏi sự hợp tác và các giải pháp mã nguồn mở. Bằng cách chia sẻ các tập dữ liệu, phương pháp luận và thực tiễn tốt nhất, các nhà nghiên cứu và nhà phát triển có thể đẩy nhanh tiến độ và cùng nhau giải quyết những thách thức của phát triển AI có đạo đức. Các sáng kiến mã nguồn mở cũng có thể trao quyền cho các tổ chức và cá nhân nhỏ hơn tham gia vào cuộc cách mạng AI, đảm bảo rằng lợi ích của công nghệ này được chia sẻ công bằng hơn.

Lời Hứa về Một Tương Lai Tươi Sáng Hơn

Việc tạo ra một mô hình AI được đào tạo hoàn toàn trên dữ liệu có nguồn gốc đạo đức đại diện cho một cột mốc quan trọng trong hành trình tìm kiếm AI có trách nhiệm và có lợi. Thành tích đột phá này không chỉ chứng minh rằng phát triển AI có đạo đức là có thể mà còn cung cấp một lộ trình để những người khác tuân theo. Bằng cách nắm lấy tính minh bạch, sự hợp tác và cam kết với các nguyên tắc đạo đức, chúng ta có thể khai thác toàn bộ tiềm năng của AI đồng thời bảo vệ các giá trị của con người và thúc đẩy một tương lai công bằng và bình đẳng hơn.

cập nhật lúc 2025-06-09

# AIGC # Llama # Meta