Thuật ngữ ‘mã nguồn mở’ từng vang vọng một sự rõ ràng nhất định, một lời hứa về kiến thức được chia sẻ và tiến bộ hợp tác đã thúc đẩy vô số bước nhảy vọt về khoa học và công nghệ. Nó gợi lên hình ảnh các cộng đồng cùng nhau xây dựng, xem xét kỹ lưỡng công việc của nhau và đứng trên vai những người khổng lồ vì các bản thiết kế được cung cấp miễn phí. Giờ đây, khi điều hướng trong bối cảnh Trí tuệ Nhân tạo (Artificial Intelligence), thuật ngữ đó ngày càng trở nên… trơn tuột. Như được nhấn mạnh trên các trang của Nature và được thì thầm trong các phòng thí nghiệm và phòng họp, một số lượng đáng lo ngại những người tham gia cơn sốt vàng AI đang khoác lên mình chiếc áo ‘mã nguồn mở’ cho các sáng tạo của họ trong khi giữ kín các thành phần thực sự quan trọng. Đây không chỉ là một cuộc tranh cãi về ngữ nghĩa; đó là một thực tiễn đang gặm nhấm chính nền tảng của tính toàn vẹn khoa học và đe dọa che khuất con đường đổi mới trong tương lai. Cộng đồng nghiên cứu, chính nhóm người được hưởng lợi hoặc mất mát nhiều nhất, cần nhận ra trò hề này và mạnh mẽ ủng hộ các hệ thống AI thực sự thể hiện các nguyên tắc minh bạch và khả năng tái lập mà chúng ta đã dựa vào từ lâu.
Thời Hoàng Kim Của Sự Cởi Mở: Một Di Sản Bị Đe Dọa
Trong nhiều thập kỷ, phong trào mã nguồn mở đã là một anh hùng thầm lặng của tiến bộ khoa học. Hãy nghĩ xa hơn các công cụ quen thuộc như R Studio cho phép thuật thống kê hay OpenFOAM để mô hình hóa động lực học chất lỏng. Hãy xem xét các hệ thống nền tảng như Linux, cung cấp năng lượng cho phần lớn internet và các cụm máy tính khoa học, hay máy chủ web Apache, một minh chứng cho sự phát triển phần mềm hợp tác. Triết lý rất đơn giản: cung cấp quyền truy cập vào mã nguồn, cho phép sửa đổi và phân phối lại theo các giấy phép dễ dãi, và nuôi dưỡng một hệ sinh thái toàn cầu nơi các cải tiến mang lại lợi ích cho tất cả mọi người.
Đây không chỉ đơn thuần là lòng vị tha; đó là thiên tài thực dụng. Sự cởi mở đã thúc đẩy khám phá. Các nhà nghiên cứu có thể sao chép các thí nghiệm, xác nhận kết quả và xây dựng dựa trên công việc hiện có mà không cần phải phát minh lại bánh xe hay điều hướng các hệ thống độc quyền mờ đục. Nó nuôi dưỡng niềm tin, vì các hoạt động bên trong có sẵn để kiểm tra, cho phép các lỗi được tìm thấy và sửa chữa một cách tập thể. Nó dân chủ hóa quyền truy cập, cho phép các nhà khoa học và nhà phát triển trên toàn thế giới, bất kể tổ chức hay ngân sách, tham gia vào công việc tiên tiến. Tinh thần hợp tác này, được xây dựng trên sự chia sẻ quyền truy cập và giám sát lẫn nhau, đã ăn sâu vào chính phương pháp khoa học, đảm bảo sự mạnh mẽ và thúc đẩy tiến bộ nhanh chóng trên các lĩnh vực đa dạng. Chính khả năng phân tích, hiểu và sửa đổi các công cụ đang được sử dụng là tối quan trọng. Nó không chỉ là về việc sử dụng phần mềm; đó là về việc hiểu cách nó hoạt động, đảm bảo sự phù hợp của nó cho một nhiệm vụ khoa học cụ thể và đóng góp trở lại vào kho kiến thức tập thể. Vòng tuần hoàn đạo đức này đã thúc đẩy sự đổi mới với tốc độ chưa từng có.
Sự Phụ Thuộc Dữ Liệu Của AI: Tại Sao ‘Mã Nguồn Là Vua’ Không Còn Đủ
Bước vào kỷ nguyên Trí tuệ Nhân tạo quy mô lớn, đặc biệt là các mô hình nền tảng thu hút rất nhiều sự chú ý và đầu tư. Ở đây, mô hình mã nguồn mở truyền thống, chủ yếu tập trung vào mã nguồn, gặp phải một sự không phù hợp cơ bản. Mặc dù các thuật toán và mã được sử dụng để xây dựng một mô hình AI chắc chắn là một phần của bức tranh, nhưng chúng còn lâu mới là toàn bộ câu chuyện. AI hiện đại, đặc biệt là các mô hình học sâu (deep learning), là những kẻ tiêu thụ dữ liệu phàm ăn. Dữ liệu huấn luyện không chỉ là đầu vào; nó được cho là yếu tố quyết định chính đến khả năng, thành kiến và hạn chế của mô hình.
Việc phát hành mã của mô hình, hoặc thậm chí các tham số đã được huấn luyện cuối cùng (‘trọng số’), mà không cung cấp quyền truy cập có ý nghĩa hoặc thôngtin chi tiết về các bộ dữ liệu khổng lồ được sử dụng để huấn luyện giống như đưa cho ai đó chìa khóa xe hơi nhưng từ chối cho họ biết loại nhiên liệu nào nó sử dụng, nó đã được lái ở đâu, hoặc động cơ thực sự được lắp ráp như thế nào. Bạn có thể lái nó, nhưng bạn có khả năng hạn chế để hiểu các đặc điểm hiệu suất của nó, chẩn đoán các vấn đề tiềm ẩn hoặc sửa đổi nó một cách đáng tin cậy cho các hành trình mới.
Hơn nữa, tài nguyên tính toán cần thiết để huấn luyện các mô hình này từ đầu là rất lớn, thường lên tới hàng triệu đô la cho một lần chạy huấn luyện. Điều này tạo ra một rào cản khác. Ngay cả khi mã và dữ liệu đã hoàn toàn có sẵn, chỉ một số ít tổ chức sở hữu cơ sở hạ tầng để sao chép quá trình huấn luyện. Thực tế này về cơ bản làm thay đổi động lực so với phần mềm truyền thống, nơi việc biên dịch mã thường nằm trong tầm tay của hầu hết các nhà phát triển hoặc nhà nghiên cứu. Đối với AI, khả năng tái lập thực sự và khả năng thử nghiệm bằng cách huấn luyện lại thường vẫn khó nắm bắt, ngay cả khi các thành phần được gắn nhãn ‘mở’. Do đó, việc chỉ áp dụng các định nghĩa mã nguồn mở cũ được hình thành cho mã không nắm bắt được những điều cần thiết của lĩnh vực mới, tập trung vào dữ liệu và đòi hỏi nhiều tính toán này.
‘Openwashing’: Sói Đội Lốt Cừu
Khoảng cách này giữa các khái niệm mã nguồn mở truyền thống và thực tế phát triển AI đã tạo ra mảnh đất màu mỡ cho một hiện tượng được gọi là ‘openwashing’. Các công ty háo hức dán nhãn ‘mã nguồn mở’ lên các mô hình AI của họ, gặt hái những lợi ích về quan hệ công chúng và thiện chí liên quan đến thuật ngữ này, trong khi sử dụng các giấy phép hoặc hạn chế truy cập phản bội lại tinh thần, nếu không muốn nói là chữ nghĩa nghiêm ngặt (và được cho là lỗi thời) của sự cởi mở thực sự.
Điều này trông như thế nào trong thực tế?
- Phát hành mã không có dữ liệu: Một công ty có thể phát hành mã kiến trúc của mô hình và có lẽ cả các trọng số đã được huấn luyện trước, cho phép người khác sử dụng mô hình “nguyên trạng” hoặc tinh chỉnh nó trên các bộ dữ liệu nhỏ hơn. Tuy nhiên, bộ dữ liệu huấn luyện nền tảng khổng lồ – nước sốt bí mật xác định khả năng cốt lõi của mô hình – vẫn là độc quyền và bị che giấu.
- Giấy phép hạn chế: Các mô hình có thể được phát hành theo các giấy phép có vẻ mở lúc đầu nhưng chứa các điều khoản hạn chế sử dụng thương mại, hạn chế triển khai trong các tình huống nhất định hoặc cấm các loại sửa đổi hoặc phân tích cụ thể. Những hạn chế này đi ngược lại các quyền tự do thường liên quan đến phần mềm mã nguồn mở.
- Tiết lộ dữ liệu mơ hồ: Thay vì thông tin chi tiết về nguồn dữ liệu, phương pháp thu thập, quy trình làm sạch và các thành kiến tiềm ẩn, các công ty có thể đưa ra các mô tả mơ hồ hoặc bỏ qua hoàn toàn các chi tiết quan trọng. Sự thiếu ‘minh bạch dữ liệu’ này khiến không thể đánh giá đầy đủ độ tin cậy hoặc ý nghĩa đạo đức của mô hình.
Tại sao lại tham gia vào các hoạt động như vậy? Động cơ có thể đa dạng. Ý nghĩa tích cực của ‘mã nguồn mở’ chắc chắn có giá trị để thu hút nhân tài, xây dựng cộng đồng nhà phát triển (ngay cả khi bị hạn chế) và tạo ra báo chí thuận lợi. Một cách hoài nghi hơn, như Nature gợi ý, có thể có các ưu đãi về quy định. Đạo luật AI toàn diện năm 2024 của Liên minh Châu Âu (European Union’s comprehensive 2024 AI Act), chẳng hạn, bao gồm các miễn trừ tiềm năng hoặc yêu cầu nhẹ hơn đối với các hệ thống được phân loại là mã nguồn mở. Bằng cách sử dụng nhãn hiệu một cách chiến lược, một số công ty có thể hy vọng điều hướng các bối cảnh pháp lý phức tạp với ít ma sát hơn, có khả năng né tránh sự giám sát dành cho các hệ thống AI mạnh mẽ, đa năng. Bài tập xây dựng thương hiệu chiến lược này khai thác thiện chí lịch sử của phong trào mã nguồn mở trong khi có khả năng làm suy yếu các nỗ lực đảm bảo triển khai AI có trách nhiệm.
Một Phổ Của Sự Cởi Mở: Kiểm Tra Các Ví Dụ
Điều quan trọng là phải nhận ra rằng sự cởi mở trong AI không nhất thiết là một trạng thái nhị phân; nó tồn tại trên một phổ. Tuy nhiên, các thực tiễn ghi nhãn hiện tại thường che khuất vị trí thực sự của một mô hình cụ thể trên phổ đó.
Hãy xem xét một số ví dụ nổi bật thường được thảo luận trong bối cảnh này:
- Dòng Llama của Meta: Mặc dù Meta đã phát hành trọng số và mã cho các mô hình Llama, quyền truy cập ban đầu yêu cầu đăng ký và giấy phép bao gồm các hạn chế, đặc biệt liên quan đến việc sử dụng bởi các công ty rất lớn và các ứng dụng cụ thể. Quan trọng là, dữ liệu huấn luyện cơ bản không được phát hành, hạn chế khả năng tái lập hoàn toàn và phân tích sâu về các đặc điểm của nó. Mặc dù các phiên bản tiếp theo đã điều chỉnh các điều khoản, vấn đề cốt lõi về tính mờ đục của dữ liệu thường vẫn còn.
- Phi-2 của Microsoft: Microsoft đã giới thiệu Phi-2 như một mô hình ngôn ngữ nhỏ ‘mã nguồn mở’. Mặc dù trọng số mô hình có sẵn, giấy phép có các giới hạn sử dụng cụ thể và thông tin chi tiết về bộ dữ liệu huấn luyện của nó, rất quan trọng để hiểu khả năng và thành kiến tiềm ẩn (đặc biệt là do nó được huấn luyện trên dữ liệu “tổng hợp”), không hoàn toàn minh bạch.
- Mixtral của Mistral AI: Mô hình này, được phát hành bởi một công ty khởi nghiệp AI nổi tiếng của Châu Âu, đã thu hút sự chú ý về hiệu suất của nó. Mặc dù các thành phần được phát hành theo giấy phép Apache 2.0 dễ dãi (một giấy phép thực sự mở cho mã/trọng số), sự minh bạch hoàn toàn về thành phần dữ liệu huấn luyện và quy trình quản lý vẫn còn hạn chế, cản trở sự giám sát khoa học sâu sắc.
Đối chiếu những điều này với các sáng kiến đang cố gắng đạt được sự phù hợp hơn với các nguyên tắc mã nguồn mở truyền thống:
- OLMo của Allen Institute for AI: Dự án này nhằm mục đích rõ ràng là xây dựng một mô hình ngôn ngữ thực sự mở, ưu tiên phát hành không chỉ trọng số và mã mô hình mà còn cả dữ liệu huấn luyện (bộ dữ liệu Dolma) và nhật ký huấn luyện chi tiết. Cam kết này cho phép mức độ tái lập và phân tích chưa từng có bởi cộng đồng nghiên cứu rộng lớn hơn.
- CrystalCoder của LLM360: Nỗ lực do cộng đồng thúc đẩy này tương tự nhấn mạnh việc phát hành tất cả các thành phần của vòng đời phát triển mô hình, bao gồm các điểm kiểm tra trung gian và tài liệu chi tiết về dữ liệu và quy trình huấn luyện, thúc đẩy mức độ minh bạch thường thiếu trong các bản phát hành của công ty.
Những ví dụ đối lập này nhấn mạnh rằng sự cởi mở thực sự trong AI là có thể, nhưng nó đòi hỏi một cam kết có chủ ý vượt ra ngoài việc chỉ phát hành mã hoặc trọng số. Nó đòi hỏi sự minh bạch về dữ liệu và quy trình, chấp nhận sự giám sát đi kèm với nó. Sự mơ hồ hiện tại được nuôi dưỡng bởi ‘openwashing’ khiến các nhà nghiên cứu khó phân biệt được công cụ nào thực sự hỗ trợ nghiên cứu khoa học mở.
Sự Xói Mòn Lòng Tin: Tính Toàn Vẹn Khoa Học Bị Đe Dọa
Hàm ý của việc ‘openwashing’ lan rộng này vượt xa việc xây dựng thương hiệu đơn thuần. Khi các nhà nghiên cứu dựa vào các mô hình AI mà hoạt động bên trong của chúng, đặc biệt là dữ liệu chúng được huấn luyện, là mờ đục, nó tấn công vào trung tâm của phương pháp luận khoa học.
- Khả năng tái lập bị suy yếu: Một nền tảng của tính hợp lệ khoa học là khả năng các nhà nghiên cứu độc lập tái tạo kết quả. Nếu dữ liệu huấn luyện và phương pháp huấn luyện chính xác không được biết, việc sao chép thực sự trở nên bất khả thi. Các nhà nghiên cứu có thể sử dụng một mô hình được huấn luyện trước, nhưng họ không thể xác minh cấu trúc của nó hoặc thăm dò các thuộc tính cơ bản của nó bắt nguồn từ dữ liệu ẩn.
- Xác minh bị cản trở: Làm thế nào các nhà khoa học có thể tin tưởng vào kết quả đầu ra của một mô hình nếu họ không thể kiểm tra dữ liệu mà nó đã học? Các thành kiến ẩn, sự không chính xác hoặc các mối quan tâm đạo đức được nhúng trong dữ liệu huấn luyện chắc chắn sẽ biểu hiện trong hành vi của mô hình, nhưng nếu không có sự minh bạch, những sai sót này rất khó phát hiện, chẩn đoán hoặc giảm thiểu. Sử dụng các hộp đen như vậy cho khám phá khoa học giới thiệu một mức độ không chắc chắn không thể chấp nhận được.
- Đổi mới bị kìm hãm: Khoa học tiến bộ bằng cách xây dựng dựa trên công việc trước đó. Nếu các mô hình nền tảng được phát hành với các hạn chế hoặc không có sự minh bạch cần thiết (đặc biệt là về dữ liệu), nó sẽ cản trở khả năng của những người khác đổi mới, thử nghiệm các chế độ huấn luyện thay thế hoặc điều chỉnh các mô hình cho các ứng dụng khoa học mới lạ theo những cách mà những người tạo ra ban đầu có thể không hình dung được. Tiến bộ bị kiểm soát bởi các nhà cung cấp các hệ thống bán mờ đục này.
Sự phụ thuộc vào các hệ thống doanh nghiệp đóng hoặc bán đóng buộc các nhà nghiên cứu vào vai trò người tiêu dùng thụ động thay vì những người tham gia và đổi mới tích cực. Nó có nguy cơ tạo ra một tương lai nơi cơ sở hạ tầng khoa học quan trọng bị kiểm soát bởi một vài thực thể lớn, có khả năng ưu tiên lợi ích thương mại hơn nhu cầu nghiên cứu khoa học mở. Sự xói mòn minh bạch này trực tiếp chuyển thành sự xói mòn lòng tin vào các công cụ làm nền tảng cho nghiên cứu hiện đại.
Tập Trung Thị Trường và Hiệu Ứng Lạnh Lẽo Đối Với Đổi Mới
Ngoài tác động trực tiếp đến thực hành khoa học, sự phổ biến của mã nguồn mở giả trong AI còn mang ý nghĩa kinh tế và thị trường đáng kể. Việc phát triển các mô hình nền tảng lớn đòi hỏi không chỉ chuyên môn đáng kể mà còn cả quyền truy cập vào các bộ dữ liệu khổng lồ và sức mạnh tính toán khổng lồ – những nguồn lực mà các tập đoàn công nghệ lớn nắm giữ một cách không cân xứng.
Khi các tập đoàn này phát hành các mô hình dưới biểu ngữ ‘mã nguồn mở’ nhưng vẫn giữ quyền kiểm soát đối với dữ liệu huấn luyện quan trọng hoặc áp đặt các giấy phép hạn chế, nó tạo ra một sân chơi không bình đẳng.
- Rào cản gia nhập: Các công ty khởi nghiệp và phòng thí nghiệm nghiên cứu nhỏ hơn thiếu nguồn lực để tạo ra các mô hình nền tảng tương đương từ đầu. Nếu các mô hình được cho là ‘mở’ do các công ty đương nhiệm phát hành đi kèm với các ràng buộc (như hạn chế sử dụng thương mại hoặc tính mờ đục của dữ liệu ngăn cản sửa đổi sâu), nó sẽ hạn chế khả năng cạnh tranh hiệu quả của những người chơi nhỏ hơn này hoặc xây dựng các ứng dụng thực sự đổi mới dựa trên đó.
- Củng cố vị thế của các công ty đương nhiệm: ‘Openwashing’ có thể đóng vai trò như một con hào chiến lược. Bằng cách phát hành các mô hình hữu ích nhưng không thực sự mở, các công ty lớn có thể nuôi dưỡng các hệ sinh thái phụ thuộc vào công nghệ của họ trong khi ngăn cản các đối thủ cạnh tranh sao chép hoàn toàn hoặc cải thiện đáng kể tài sản cốt lõi của họ (dữ liệu và quy trình huấn luyện tinh chế). Nó trông giống như sự cởi mở nhưng hoạt động gần giống với chiến lược nền tảng được kiểm soát hơn.
- Giảm sự đa dạng của các phương pháp tiếp cận: Nếu sự đổi mới trở nên quá phụ thuộc vào một vài mô hình nền tảng thống trị, bán mờ đục, nó có thể dẫn đến sự đồng nhất hóa trong phát triển AI, có khả năng bỏ qua các kiến trúc, mô hình huấn luyện hoặc chiến lược dữ liệu thay thế mà các nhóm độc lập, nhỏ hơn có thể khám phá nếu lĩnh vực này thực sự mở.
Mã nguồn mở thực sự trong lịch sử là một động lực mạnh mẽ cho cạnh tranh và đổi mới phân tán. Xu hướng hiện tại trong AI có nguy cơ tập trung quyền lực và kìm hãm chính sự năng động mà sự hợp tác mở nhằm mục đích thúc đẩy, có khả năng dẫn đến một bối cảnh AI kém sôi động và bị kiểm soát tập trung hơn.
Điểm Mù Quy Định và Con Đường Đạo Đức Mong Manh
Khả năng ‘openwashing’ khai thác các lỗ hổng quy định, đặc biệt liên quan đến các khuôn khổ như EU AI Act, đáng được xem xét kỹ hơn. Đạo luật này nhằm mục đích thiết lập các quy định dựa trên rủi ro cho các hệ thống AI, áp đặt các yêu cầu nghiêm ngặt hơn đối với các ứng dụng có rủi ro cao. Các miễn trừ hoặc nghĩa vụ nhẹ hơn đối với AI mã nguồn mở nhằm mục đích thúc đẩy đổi mới và tránh tạo gánh nặng quá mức cho cộng đồng mã nguồn mở.
Tuy nhiên, nếu các công ty có thể thành công tuyên bố danh hiệu ‘mã nguồn mở’ cho các mô hình thiếu minh bạch thực sự (đặc biệt là về dữ liệu và huấn luyện), họ có thể bỏ qua các biện pháp bảo vệ quan trọng. Điều này đặt ra những câu hỏi quan trọng:
- Giám sát có ý nghĩa: Các nhà quản lý có thể đánh giá đầy đủ rủi ro của một mô hình AI mạnh mẽ nếu dữ liệu huấn luyện của nó – yếu tố quyết định chính đến hành vi và thành kiến tiềm ẩn của nó – bị che giấu? Việc ghi nhãn sai có thể cho phép các hệ thống có khả năng rủi ro cao hoạt động với ít sự giám sát hơn dự định.
- Khoảng trống trách nhiệm giải trình: Khi có sự cố xảy ra – nếu một mô hình thể hiện sự thiên vị có hại hoặc tạo ra kết quả nguy hiểm – ai chịu trách nhiệm nếu dữ liệu cơ bản và quy trình huấn luyện không rõ ràng? Sự cởi mở thực sự tạo điều kiện cho việc điều tra và giải trình trách nhiệm; ‘openwashing’ che khuất nó.
- Quản trị đạo đức: Triển khai AI một cách có trách nhiệm đòi hỏi phải hiểu những hạn chế và tác động xã hội tiềm ẩn của nó. Sự hiểu biết này về cơ bản bị tổn hại khi các thành phần cốt lõi như dữ liệu huấn luyện bị giữ bí mật. Nó làm cho các cuộc kiểm toán độc lập, đánh giá thiên vị và đánh giá đạo đức trở nên khó khăn hơn đáng kể, nếu không muốn nói là không thể.
Việc sử dụng chiến lược nhãn ‘mã nguồn mở’ để điều hướng quy định không chỉ là một thủ đoạn pháp lý; nó có ý nghĩa đạo đức sâu sắc. Nó có nguy cơ làm suy yếu lòng tin của công chúng và cản trở các nỗ lực đảm bảo rằng sự phát triển AI diễn ra một cách an toàn, công bằng và có trách nhiệm. Do đó, việc đảm bảo rằng các định nghĩa quy định về ‘AI mã nguồn mở’ phù hợp với các nguyên tắc minh bạch thực sự là tối quan trọng.
Vạch Ra Lộ Trình Hướng Tới Sự Cởi Mở AI Thực Sự
May mắn thay, chuông báo động đang vang lên và các nỗ lực đang được tiến hành để lấy lại ý nghĩa của ‘mã nguồn mở’ trong thời đại AI. Open Source Initiative (OSI), một người quản lý lâu năm các định nghĩa mã nguồn mở, đã đi đầu trong một quy trình tham vấn toàn cầu để thiết lập các tiêu chuẩn rõ ràng cho Open Source AI (dẫn đến định nghĩa OSAID 1.0).
Một đổi mới quan trọng trong nỗ lực này là khái niệm ‘thông tin dữ liệu’ (data information). Nhận thấy rằng việc phát hành các bộ dữ liệu thô khổng lồ có thể không khả thi về mặt pháp lý hoặc hậu cần trong một số trường hợp (do quyền riêng tư, bản quyền hoặc quy mô tuyệt đối), khuôn khổ OSAID nhấn mạnh sự cần thiết phải tiết lộ toàn diện về dữ liệu. Điều này bao gồm các chi tiết về:
- Nguồn: Dữ liệu đến từ đâu?
- Đặc điểm: Đó là loại dữ liệu gì (văn bản, hình ảnh, mã)? Đặc tính thống kê của nó là gì?
- Chuẩn bị: Dữ liệu được thu thập, lọc, làm sạch và tiền xử lý như thế nào? Những bước nào đã được thực hiện để giảm thiểu thiên vị?
Mức độ minh bạch này, ngay cả khi không có dữ liệu thô, cung cấp bối cảnh quan trọng để các nhà nghiên cứu hiểu được khả năng, hạn chế và thành kiến tiềm ẩn của mô hình. Nó đại diện cho một sự thỏa hiệp thực dụng, thúc đẩy sự minh bạch tối đa trong các ràng buộc hiện có. Bên cạnh OSI, các tổ chức như Open Future đang ủng hộ một sự thay đổi rộng lớn hơn hướng tới mô hình ‘kho dữ liệu chung’ (data-commons), khám phá các cách tạo ra các bộ dữ liệu được chia sẻ, có nguồn gốc đạo đức và có thể truy cập mở cho việc huấn luyện AI, tiếp tục hạ thấp rào cản gia nhập và thúc đẩy phát triển hợp tác. Việc thiết lập và tuân thủ các tiêu chuẩn rõ ràng, được cộng đồng kiểm duyệt như vậy là bước đầu tiên thiết yếu để xua tan màn sương ‘openwashing’.
Mệnh Lệnh Đối Với Cộng Đồng Nghiên Cứu
Các nhà khoa học và nhà nghiên cứu không chỉ đơn thuần là người tiêu dùng các công cụ AI; họ là những bên liên quan quan trọng trong việc đảm bảo các công cụ này phù hợp với các giá trị khoa học. Tích cực tham gia vào các định nghĩa và tiêu chuẩn đang phát triển, chẳng hạn như OSAID 1.0, là rất quan trọng. Nhưng hành động phải vượt ra ngoài nhận thức đơn thuần:
- Yêu cầu minh bạch: Trong các ấn phẩm, đề xuất tài trợ và lựa chọn công cụ, các nhà nghiên cứu nên ưu tiên và yêu cầu sự minh bạch cao hơn về các mô hình AI mà họ sử dụng. Điều này bao gồm việc thúc đẩy các thẻ ‘thông tin dữ liệu’ chi tiết hoặc bảng dữ liệu đi kèm với các bản phát hành mô hình.
- Hỗ trợ sự cởi mở thực sự: Tích cực đóng góp, sử dụng và trích dẫn các dự án như OLMo hoặc các sáng kiến khác thể hiện cam kết thực sự trong việc phát hành mã, dữ liệu và phương pháp luận. Bỏ phiếu bằng lượt tải xuống và trích dẫn gửi đi một tín hiệu thị trường mạnh mẽ.
- Phát triển tiêu chuẩn đánh giá: Cộng đồng cần các phương pháp và danh sách kiểm tra mạnh mẽ để đánh giá mức độ cởi mở của một mô hình AI, vượt ra ngoài các nhãn hiệu đơn giản. Quy trình đánh giá ngang hàng nên kết hợp việc xem xét kỹ lưỡng các tuyên bố về tính minh bạch liên quan đến các công cụ AI được sử dụng trong nghiên cứu.
- Vận động trong các tổ chức: Khuyến khích các trường đại học, viện nghiên cứu và hiệp hội nghề nghiệp áp dụng các chính sách ủng hộ hoặc yêu cầu sử dụng các công cụ và nền tảng AI thực sự mở và minh bạch.
Cộng đồng khoa học có ảnh hưởng đáng kể. Bằng cách cùng nhau nhấn mạnh các tiêu chuẩn duy trì khả năng tái lập, minh bạch và truy cập hợp tác, các nhà nghiên cứu có thể chống lại các tuyên bố sai lệch và giúp định hình một hệ sinh thái AI có lợi cho khám phá khoa học nghiêm ngặt.
Chính Sách, Tài Trợ và Con Đường Phía Trước
Chính phủ và các cơ quan tài trợ công cũng nắm giữ quyền lực đáng kể trong việc định hình bối cảnh AI. Chính sách của họ có thể ngầm tán thành ‘openwashing’ hoặc tích cực thúc đẩy sự cởi mở thực sự.
- Ủy thác về sự cởi mở: Các tổ chức như Viện Y tế Quốc gia Hoa Kỳ (US National Institutes of Health - NIH) đã có các quy định yêu cầu cấp phép mở và chia sẻ dữ liệu cho nghiên cứu mà họ tài trợ. Mở rộng các nguyên tắc tương tự cho các mô hình và bộ dữ liệu AI được phát triển bằng tiền công là một bước hợp lý và cần thiết. Nếu công quỹ hỗ trợ phát triển AI, kết quả phải được công khai truy cập và xác minh ở mức độ lớn nhất có thể.
- Sức mạnh mua sắm: Các cơ quan chính phủ là những người tiêu dùng công nghệ lớn. Bằng cách chỉ định các yêu cầu đối với AI mã nguồn mở thực sự (tuân thủ các tiêu chuẩn như OSAID) trong các hợp đồng mua sắm công, chính phủ có thể tạo ra một động lực thị trường đáng kể để các công ty áp dụng các thực tiễn minh bạch hơn. Yêu cầu của Ý về phần mềm mã nguồn mở trong hành chính công cung cấp một khuôn mẫu tiềm năng.
- Đầu tư vào cơ sở hạ tầng mở: Ngoài quy định, đầu tư công vào các sáng kiến ‘kho dữ liệu chung’, tài nguyên tính toán mở cho các nhà nghiên cứu và các nền tảng dành riêng cho việc lưu trữ và đánh giá các mô hình AI thực sự mở có thể mang tính chuyển đổi. Điều này có thể giúp san bằng sân chơi và cung cấp các lựa chọn thay thế khả thi cho các hệ thống độc quyền hoặc bán mở.
- Hợp tác toàn cầu: Với bản chất toàn cầu của phát triển AI, hợp tác quốc tế về việc xác định và thúc đẩy các tiêu chuẩn AI mã nguồn mở là điều cần thiết để tránh sự phân mảnh quy định và đảm bảo một đường cơ sở nhất quán về tính minh bạch và trách nhiệm giải trình trên toàn thế giới.
Các đòn bẩy chính sách, khi được áp dụng một cách chu đáo, có thể chuyển dịch đáng kể các ưu đãi khỏi việc ghi nhãn lừa đảo sang các thực tiễn thực sự hỗ trợ tính toàn vẹn khoa học và đổi mới rộng rãi. Cuộc chiến chống lại ảo tưởng ‘mã nguồn mở’ trong AI đòi hỏi một nỗ lực phối hợp. Các nhà nghiên cứu phải là những nhà phê bình cảnh giác, yêu cầu sự minh bạch cần thiết cho sự nghiêm ngặt khoa học. Các cơ quan thiết lập tiêu chuẩn như OSI phải tiếp tục tinh chỉnh các định nghĩa phản ánh bản chất độc đáo của AI. Và các nhà hoạch định chính sách phải sử dụng ảnh hưởng của mình để khuyến khích và bắt buộc các thực tiễn phù hợp với lợi ích công cộng trong trí tuệ nhân tạo có thể kiểm chứng, đáng tin cậy và có thể truy cập. Quỹ đạo tương lai của AI trong khoa học—cho dù nó trở thành một biên giới thực sự mở cho khám phá hay một cảnh quan bị chi phối bởi các hệ thống doanh nghiệp mờ đục—đang ở thế cân bằng.