Màn Kịch 'Mã Nguồn Mở' AI: Kêu Gọi Liêm Chính Khoa Học

Phá giá một khái niệm nền tảng: Sự xói mòn của ‘Mã nguồn mở’

Thuật ngữ ‘mã nguồn mở’ từng là ngọn hải đăng trong lĩnh vực công nghệ và khoa học. Nó đại diện cho một hệ tư tưởng mạnh mẽ dựa trên tính minh bạch, quyền truy cập không giới hạn, cải tiến hợp tác và nguyên tắc cơ bản về khả năng tái lập. Đối với nhiều thế hệ nhà nghiên cứu và nhà phát triển, nó biểu thị một cam kết chia sẻ kiến thức và tiến bộ tập thể. Từ các công cụ thống kê nền tảng được tìm thấy trong các môi trường như R Studio, vốn hỗ trợ vô số phân tích trong các ngành khác nhau, đến các nền tảng mô phỏng phức tạp như OpenFOAM, được sử dụng để làm sáng tỏ sự phức tạp của động lực học chất lỏng, phần mềm mã nguồn mở đã là một chất xúc tác không thể thiếu cho sự đổi mới. Nó đã thúc đẩy khám phá bằng cách cho phép các nhà khoa học trên toàn cầu kiểm tra, xác minh, sửa đổi và xây dựng dựa trên công trình của nhau, đảm bảo rằng các phát hiện có thể được sao chép và xác nhận – nền tảng cốt lõi của phương pháp khoa học.

Tuy nhiên, một bóng đen đang bao trùm lên danh hiệu đáng tin cậy này, được tạo ra bởi lĩnh vực trí tuệ nhân tạo đang phát triển mạnh mẽ. Như đã được nhấn mạnh trong các cuộc thảo luận phê bình gần đây, bao gồm cả những ghi nhận bởi các ấn phẩm như Nature, một xu hướng đáng lo ngại đã xuất hiện khi các nhà phát triển AI nổi tiếng áp dụng nhãn ‘mã nguồn mở’ cho các mô hình của họ trong khi đồng thời giữ lại các thành phần quan trọng cần thiết cho sự cởi mở thực sự. Thực tiễn này có nguy cơ làm loãng ý nghĩa của thuật ngữ, biến nó từ một biểu tượng của sự minh bạch thành một khẩu hiệu tiếp thị có khả năng gây hiểu lầm. Vấn đề cốt lõi thường nằm ở bản chất độc đáo của các hệ thống AI hiện đại. Không giống như phần mềm truyền thống nơi mã nguồn là tối quan trọng, sức mạnh và hành vi của các mô hình AI lớn lại gắn bó chặt chẽ với các bộ dữ liệu khổng lồ được sử dụng để huấn luyện chúng và các kiến trúc phức tạp xác định chúng. Khi quyền truy cập vào dữ liệu huấn luyện này hoặc thông tin chi tiết về cấu trúc và trọng số của mô hình bị hạn chế, tuyên bố là ‘mã nguồn mở’ trở nên trống rỗng, bất kể một phần mã của mô hình có được cung cấp hay không. Sự khác biệt này tấn công vào trung tâm của triết lý mã nguồn mở, tạo ra ảo tưởng về khả năng tiếp cận trong khi che khuất các yếu tố quan trọng nhất cho việc xem xét và sao chép độc lập.

Sự cấp thiết của tính mở thực sự trong AI khoa học

Những rủi ro liên quan đến việc duy trì sự cởi mở thực sự trong AI, đặc biệt là trong lĩnh vực khoa học, không thể cao hơn. Khoa học phát triển mạnh mẽ nhờ khả năng xác minh độc lập kết quả, hiểu phương pháp luận và xây dựng dựa trên công trình trước đó. Khi chính các công cụ – các mô hình AI ngày càng tinh vi – trở thành những hộp đen, quy trình cơ bản này bị đe dọa. Việc dựa vào các hệ thống AI mà hoạt động bên trong, thành kiến trong dữ liệu huấn luyện hoặc các chế độ lỗi tiềm ẩn không rõ ràng sẽ tạo ra một mức độ không chắc chắn không thể chấp nhận được trong nghiên cứu. Làm thế nào một nhà khoa học có thể tự tin đưa ra kết luận dựa trên đầu ra của AI nếu các yếu tố định hình đầu ra đó không xác định hoặc không thể kiểm chứng? Làm thế nào cộng đồng có thể tin tưởng vào những phát hiện được tạo ra bởi các hệ thống độc quyền không thể kiểm toán hoặc sao chép độc lập?

Thành công lịch sử của phần mềm mã nguồn mở trong khoa học cung cấp một sự tương phản rõ rệt và một tiêu chuẩn rõ ràng. Tính minh bạch vốn có trong các dự án mã nguồn mở truyền thống đã nuôi dưỡng niềm tin và cho phép đánh giá ngang hàng mạnh mẽ. Các nhà nghiên cứu có thể kiểm tra các thuật toán, hiểu những hạn chế của chúng và điều chỉnh chúng cho các nhu cầu cụ thể. Hệ sinh thái hợp tác này đã thúc đẩy tiến bộ trong các lĩnh vực từ tin sinh học đến vật lý thiên văn. Tiềm năng của AI trong việc cách mạng hóa khám phá khoa học là rất lớn, hứa hẹn phân tích các bộ dữ liệu phức tạp, tạo ra các giả thuyết và mô phỏng các quy trình phức tạp ở quy mô chưa từng có. Tuy nhiên, việc hiện thực hóa tiềm năng này phụ thuộc vào việc duy trì các nguyên tắc minh bạch và khả năng tái lập tương tự đã luôn củng cố sự tiến bộ khoa học. Sự chuyển dịch sang các hệ thống AI độc quyền, khép kín, ngay cả những hệ thống giả mạo là ‘mở’, đe dọa phân mảnh cộng đồng nghiên cứu, cản trở sự hợp tác và cuối cùng làm chậm tốc độ khám phá bằng cách dựng lên các rào cản đối với sự hiểu biết và xác nhận. Nỗ lực khoa học đòi hỏi các công cụ không chỉ mạnh mẽ mà còn phải minh bạch và đáng tin cậy.

Bài toán dữ liệu: Thách thức minh bạch của AI

Trọng tâm của cuộc tranh luận về ‘mã nguồn mở’ trong AI là vấn đề quan trọng của dữ liệu huấn luyện. Không giống như phần mềm thông thường chủ yếu được xác định bởi mã của nó, các mô hình ngôn ngữ lớn (LLMs) và các hệ thống AI nền tảng khác về cơ bản được định hình bởi các bộ dữ liệu khổng lồ mà chúng tiếp nhận trong quá trình phát triển. Các đặc điểm, thành kiến và nguồn gốc của dữ liệu này ảnh hưởng sâu sắc đến hành vi, khả năng và những hạn chế tiềm ẩn của mô hình. Do đó, sự cởi mở thực sự trong AI đòi hỏi một mức độ minh bạch về dữ liệu này vượt xa việc chỉ phát hành trọng số mô hình hoặc mã suy luận.

Nhiều mô hình hiện đang được tiếp thị dưới nhãn hiệu ‘mã nguồn mở’ lại thiếu sót rõ rệt về mặt này. Hãy xem xét các ví dụ nổi bật như dòng Llama của Meta, Phi-2 của Microsoft, hoặc Mixtral của Mistral AI. Mặc dù các công ty này phát hành một số thành phần nhất định, cho phép các nhà phát triển chạy hoặc tinh chỉnh các mô hình, họ thường áp đặt các hạn chế đáng kể hoặc cung cấp thông tin sơ sài về dữ liệu huấn luyện cơ bản. Các bộ dữ liệu liên quan có thể rất lớn, độc quyền, được thu thập từ web với ít sự quản lý hoặc chịu các ràng buộc cấp phép, khiến việc phát hành công khai đầy đủ trở nên khó khăn hoặc không thể. Tuy nhiên, nếu không có thông tin toàn diện về:

  • Nguồn dữ liệu: Thông tin đến từ đâu? Chủ yếu là văn bản, hình ảnh, mã? Từ những trang web, sách hoặc cơ sở dữ liệu nào?
  • Quản lý dữ liệu: Dữ liệu được lọc, làm sạch và xử lý như thế nào? Tiêu chí nào được sử dụng để bao gồm hoặc loại trừ thông tin?
  • Đặc điểm dữ liệu: Những thành kiến đã biết trong dữ liệu là gì (ví dụ: nhân khẩu học, văn hóa, ngôn ngữ)? Nó bao gồm khoảng thời gian nào?
  • Các bước tiền xử lý: Những biến đổi nào đã được áp dụng cho dữ liệu trước khi huấn luyện?

…thì các nhà nghiên cứu độc lập sẽ cực kỳ khó khăn để hiểu đầy đủ hành vi của mô hình, sao chép quá trình phát triển của nó, hoặc đánh giá phê bình các thành kiến và điểm yếu tiềm ẩn của nó. Sự thiếu minh bạch về dữ liệu này là lý do chính khiến nhiều bản phát hành AI ‘mã nguồn mở’ hiện tại không đáp ứng được tinh thần, nếu không muốn nói là con chữ, của sự cởi mở thực sự được thiết lập trong thế giới phần mềm. Ngược lại, các sáng kiến như mô hình OLMo của Allen Institute for AI hoặc các nỗ lực do cộng đồng thúc đẩy như CrystalCoder của LLM360 đã có những nỗ lực phối hợp hơn để cung cấp sự minh bạch cao hơn về dữ liệu và phương pháp huấn luyện của họ, đặt ra một tiêu chuẩn cao hơn phù hợp hơn với các giá trị mã nguồn mở truyền thống.

‘Openwashing’: Gắn nhãn chiến lược hay Lách luật?

Việc chiếm dụng nhãn hiệu ‘mã nguồn mở’ bởi các thực thể không hoàn toàn tuân thủ các nguyên tắc của nó đã làm dấy lên lo ngại về ‘openwashing’. Thuật ngữ này mô tả hành vi tận dụng ý nghĩa tích cực của sự cởi mở để thu lợi ích về quan hệ công chúng hoặc lợi thế chiến lược, mà không cam kết mức độ minh bạch và khả năng tiếp cận tương ứng. Tại sao các công ty lại tham gia vào việc này? Một số yếu tố có thể đang diễn ra. Thương hiệu ‘mã nguồn mở’ mang lại thiện chí đáng kể, gợi ý về cam kết với cộng đồng và tiến bộ chung, điều này có thể hấp dẫn các nhà phát triển và khách hàng.

Hơn nữa, như Nature và các nhà quan sát khác đã lưu ý, bối cảnh pháp lý có thể vô tình khuyến khích hành vi như vậy. Đạo luật AI mang tính bước ngoặt của Liên minh Châu Âu (EU AI Act), được hoàn thiện vào năm 2024, bao gồm các điều khoản áp đặt các yêu cầu nghiêm ngặt hơn đối với các hệ thống AI rủi ro cao và mục đích chung. Tuy nhiên, nó cũng chứa các miễn trừ tiềm năng hoặc yêu cầu nhẹ hơn đối với các mô hình AI được phát hành theo giấy phép mã nguồn mở. Điều này tạo ra một lỗ hổng tiềm ẩn nơi các công ty có thể gắn nhãn chiến lược cho các mô hình của họ là ‘mã nguồn mở’ – ngay cả khi các thành phần chính như dữ liệu huấn luyện vẫn bị hạn chế – đặc biệt để vượt qua các rào cản pháp lý và tránh các nghĩa vụ tuân thủ nghiêm ngặt hơn.

Khả năng kinh doanh chênh lệch giá pháp lý này là rất đáng lo ngại. Nếu ‘openwashing’ cho phép các hệ thống AI mạnh mẽ bỏ qua sự giám sát nhằm đảm bảo an toàn, công bằng và trách nhiệm giải trình, nó sẽ làm suy yếu chính mục đích của quy định. Nó cũng đặt cộng đồng khoa học vào một vị thế bấp bênh. Các nhà nghiên cứu có thể bị thu hút bởi các hệ thống ‘mở’ danh nghĩa này do khả năng tiếp cận của chúng so với các sản phẩm thương mại hoàn toàn đóng, chỉ để thấy mình phụ thuộc vào các công cụ có phương pháp luận vẫn còn mờ đục và không thể kiểm chứng. Sự phụ thuộc này có nguy cơ làm tổn hại đến tính liêm chính khoa học, khiến việc đảm bảo nghiên cứu có thể tái lập, không thiên vị và được xây dựng trên một nền tảng vững chắc, dễ hiểu trở nên khó khăn hơn. Sức hấp dẫn của một nhãn hiệu quen thuộc có thể che giấu những hạn chế tiềm ẩn cản trở việc tìm hiểu khoa học thực sự.

Định nghĩa lại Tính mở cho Kỷ nguyên AI: Khung OSAID

Nhận thức được sự không đầy đủ của các định nghĩa mã nguồn mở truyền thống đối với những thách thức độc đáo do AI đặt ra, Open Source Initiative (OSI) – một tổ chức quản lý lâu đời các nguyên tắc mã nguồn mở – đã bắt tay vào một nỗ lực toàn cầu quan trọng. Mục tiêu của họ là thiết lập một định nghĩa rõ ràng, mạnh mẽ được thiết kế đặc biệt cho trí tuệ nhân tạo: Định nghĩa AI Mã nguồn mở (Open Source AI Definition - OSAID 1.0). Sáng kiến này đại diện cho một bước đi quan trọng hướng tới việc lấy lại ý nghĩa của ‘mở’ trong bối cảnh AI và thiết lập các tiêu chuẩn rõ ràng về tính minh bạch và trách nhiệm giải trình.

Một đổi mới quan trọng trong khung OSAID được đề xuất là khái niệm ‘thông tin dữ liệu’ (data information). Thừa nhận rằng việc phát hành đầy đủ các bộ dữ liệu huấn luyện khổng lồ thường có thể không thực tế hoặc bị cấm về mặt pháp lý do lo ngại về quyền riêng tư, hạn chế bản quyền hoặc quy mô tuyệt đối, OSAID tập trung vào việc bắt buộc công bố thông tin toàn diện về dữ liệu. Điều này bao gồm các yêu cầu đối với nhà phát triển để cung cấp thông tin chi tiết liên quan đến:

  1. Nguồn gốc và Thành phần: Xác định rõ ràng nguồn gốc của dữ liệu huấn luyện.
  2. Đặc điểm: Ghi lại các tính năng, hạn chế và thành kiến tiềm ẩn đã biết trong dữ liệu.
  3. Phương pháp Chuẩn bị: Giải thích các quy trình được sử dụng để làm sạch, lọc và chuẩn bị dữ liệu cho việc huấn luyện.

Ngay cả khi dữ liệu thô không thể được chia sẻ, việc cung cấp siêu dữ liệu này cho phép các nhà nghiên cứu và kiểm toán viên có được những hiểu biết quan trọng về các yếu tố đã định hình mô hình AI. Nó tạo điều kiện cho sự hiểu biết tốt hơn về các thành kiến tiềm ẩn, cho phép đánh giá rủi ro sáng suốt hơn và cung cấp cơ sở để cố gắng sao chép hoặc thực hiện các nghiên cứu so sánh.

Ngoài thông tin dữ liệu, nỗ lực của OSI, cùng với sự vận động từ cáctổ chức như Open Future, thúc đẩy một sự thay đổi rộng lớn hơn hướng tới mô hình ‘kho dữ liệu chung’ (data-commons). Điều này hình dung một tương lai nơi các bộ dữ liệu thiết yếu cho việc huấn luyện AI được quản lý và cung cấp một cách cởi mở và công bằng hơn, thúc đẩy một hệ sinh thái minh bạch và hợp tác hơn cho việc phát triển AI, đặc biệt là trong cộng đồng nghiên cứu. Định nghĩa OSAID nhằm mục đích cung cấp một tiêu chuẩn rõ ràng để đánh giá các hệ thống AI, vượt ra ngoài các nhãn hiệu bề ngoài để đánh giá cam kết thực sự đối với sự cởi mở.

Trách nhiệm tập thể: Thúc đẩy sự minh bạch thực sự của AI

Thách thức đảm bảo sự cởi mở thực sự trong AI không thể được giải quyết chỉ bằng các định nghĩa; nó đòi hỏi hành động phối hợp từ nhiều bên liên quan. Cộng đồng khoa học, với tư cách là cả nhà phát triển và người dùng chính của các công cụ AI tinh vi, giữ một trách nhiệm quan trọng. Các nhà nghiên cứu phải tích cực tham gia vào các sáng kiến như OSAID 1.0, hiểu các nguyên tắc của nó và ủng hộ việc áp dụng chúng. Họ cần đánh giá phê bình các tuyên bố về ‘tính mở’ của các mô hình AI mà họ cân nhắc sử dụng, ưu tiên những mô hình cung cấp sự minh bạch cao hơn về dữ liệu huấn luyện và phương pháp luận, ngay cả khi điều đó đòi hỏi phải chống lại sức hấp dẫn của các hệ thống có vẻ tiện lợi nhưng mờ đục. Việc lên tiếng về nhu cầu đối với các công cụ AI có thể kiểm chứng, tái lập được trong các ấn phẩm, hội nghị và các cuộc thảo luận thể chế là tối quan trọng.

Các cơ quan tài trợ công và các cơ quan chính phủ cũng có vai trò quan trọng. Họ có ảnh hưởng đáng kể thông qua các yêu cầu tài trợ và chính sách mua sắm. Các tổ chức như Viện Y tế Quốc gia Hoa Kỳ (US National Institutes of Health - NIH), vốn đã yêu cầu cấp phép mở cho dữ liệu nghiên cứu được tạo ra thông qua tài trợ của mình, cung cấp một tiền lệ có giá trị. Tương tự, các ví dụ như yêu cầu của Ý đối với các cơ quan hành chính công phải ưu tiên phần mềm mã nguồn mở cho thấy chính sách có thể thúc đẩy việc áp dụng như thế nào. Những nguyên tắc này có thể và nên được mở rộng sang lĩnh vực AI. Các chính phủ và cơ quan tài trợ nên xem xét:

  • Bắt buộc tuân thủ các tiêu chuẩn AI Mã nguồn mở mạnh mẽ (như OSAID) đối với nghiên cứu và phát triển AI được tài trợ công.
  • Đầu tư vào việc tạo ra các bộ dữ liệu thực sự mở, chất lượng cao – một ‘kho dữ liệu chung’ – phù hợp để huấn luyện các mô hình AI tập trung vào nghiên cứu.
  • Đảm bảo rằng các quy định, như EU AI Act, được thực thi theo cách ngăn chặn ‘openwashing’ và yêu cầu tất cả các hệ thống AI mạnh mẽ phải chịu trách nhiệm giải trình, bất kể tuyên bố cấp phép của chúng.

Cuối cùng, việc bảo vệ tương lai của AI trong nghiên cứu đòi hỏi một mặt trận thống nhất. Các nhà khoa học phải yêu cầu sự minh bạch, các tổ chức phải thực hiện các chính sách ưu tiên sự cởi mở thực sự, và các nhà quản lý phải đảm bảo rằng nhãn hiệu ‘mã nguồn mở’ biểu thị một cam kết có ý nghĩa đối với trách nhiệm giải trình, chứ không phải là một lối thoát tiện lợi. Nếu không có những nỗ lực tập thể này, tiềm năng to lớn của AI đối với khám phá khoa học có nguy cơ bị tổn hại bởi một bối cảnh bị chi phối bởi các hệ thống độc quyền, khép kín, làm suy yếu cơ bản bản chất hợp tác và có thể kiểm chứng của chính tiến bộ khoa học. Tính liêm chính của nghiên cứu trong tương lai đang bị đe dọa.