Sự xói mòn tính mở: AI 'mã nguồn mở' thường không mở

Thuật ngữ ‘mã nguồn mở’ mang một tiếng vang mạnh mẽ trong thế giới công nghệ. Nó gợi lên hình ảnh về sự đổi mới hợp tác, kiến thức được chia sẻ và niềm tin cơ bản vào tính minh bạch. Tinh thần này đã được thể hiện một cách sống động nửa thế kỷ trước với sự thành lập của Homebrew Computer Club ở Menlo Park, California. Tập thể những người đam mê và mày mò này không chỉ chế tạo máy móc; họ xây dựng một nền văn hóa dựa trên việc trao đổi tự do các ý tưởng và phần mềm, đặt những viên đá nền tảng cho phong trào mã nguồn mở sẽ cách mạng hóa ngành điện toán. Tuy nhiên, ngày nay, di sản khó giành được này và chính định nghĩa về tính mở đang đối mặt với một thách thức tinh vi nhưng đáng kể, đặc biệt là trong lĩnh vực trí tuệ nhân tạo đang mở rộng nhanh chóng. Ngày càng có nhiều công ty phát triển các mô hình AI phức tạp háo hức gắn nhãn ‘mã nguồn mở’ cho các sáng tạo của họ, nhưng nhìn kỹ hơn cho thấy nhãn hiệu này thường được áp dụng một cách bề ngoài, che giấu một thực tế không đáp ứng được các nguyên lý cốt lõi của phong trào. Sự pha loãng ý nghĩa này không chỉ đơn thuần là một cuộc tranh cãi về ngữ nghĩa; nó đặt ra một mối đe dọa thực sự đối với các nguyên tắc minh bạch và khả năng tái tạo, vốn là tối quan trọng, đặc biệt là trong cộng đồng khoa học.

Hiểu về Tinh thần Hợp tác Mở Đích thực

Để nắm bắt tình hình khó khăn hiện tại, trước tiên người ta phải đánh giá cao ý nghĩa thực sự của ‘mã nguồn mở’. Nó không chỉ là phần mềm miễn phí; đó là một triết lý bắt nguồn từ sự tiến bộ tập thể và niềm tin có thể kiểm chứng. Nền tảng của triết lý này dựa trên bốn quyền tự do thiết yếu:

  1. Quyền tự do chạy chương trình cho bất kỳ mục đích nào.
  2. Quyền tự do nghiên cứu cách chương trình hoạt động và thay đổi nó để nó thực hiện công việc tính toán theo ý muốn của bạn. Quyền truy cập vào mã nguồn là điều kiện tiên quyết cho việc này.
  3. Quyền tự do phân phối lại các bản sao để bạn có thể giúp đỡ người khác.
  4. Quyền tự do phân phối các bản sao của các phiên bản đã sửa đổi của bạn cho người khác. Bằng cách này, bạn có thể mang lại cho cả cộng đồng cơ hội hưởng lợi từ những thay đổi của bạn. Quyền truy cập vào mã nguồn là điều kiện tiên quyết cho việc này.

Những quyền tự do này, thường được ghi nhận trong các giấy phép như GNU General Public License (GPL), MIT License, hoặc Apache License, trong lịch sử đã tập trung vào mã nguồn. Mã nguồn – các chỉ dẫn mà con người có thể đọc được do các lập trình viên viết – là bản thiết kế của phần mềm truyền thống. Việc cung cấp mã này một cách công khai cho phép bất kỳ ai kiểm tra nó, hiểu logic của nó, xác định các sai sót tiềm ẩn, điều chỉnh nó cho các nhu cầu mới và chia sẻ những cải tiến đó.

Mô hình này đã là một chất xúc tác phi thường cho sự đổi mới và tiến bộ khoa học. Hãy xem xét tác động của các công cụ sẵn có cho các nhà nghiên cứu trên toàn thế giới:

  • Phân tích thống kê: Phần mềm như R Studio cung cấp một môi trường mạnh mẽ, minh bạch và có thể mở rộng cho tính toán thống kê và đồ họa, trở thành nền tảng của phân tích dữ liệu trong vô số lĩnh vực khoa học. Tính mở của nó cho phép đánh giá ngang hàng các phương pháp và phát triển các gói chuyên biệt.
  • Động lực học chất lưu tính toán: OpenFOAM cung cấp một thư viện phức tạp để mô phỏng dòng chảy chất lưu, rất quan trọng trong các lĩnh vực từ kỹ thuật hàng không vũ trụ đến khoa học môi trường. Bản chất mở của nó cho phép tùy chỉnh và xác minh các mô phỏng phức tạp.
  • Hệ điều hành: Linux và các hệ điều hành mã nguồn mở khác tạo thành xương sống của phần lớn cơ sở hạ tầng điện toán thế giới, bao gồm các cụm máy tính hiệu năng cao khoa học, được đánh giá cao về tính ổn định, linh hoạt và minh bạch.

Lợi ích vượt xa việc tiết kiệm chi phí đơn thuần. Mã nguồn mở thúc đẩy khả năng tái tạo, một nền tảng của phương pháp khoa học. Khi các công cụ và mã được sử dụng trong nghiên cứu là mở, các nhà khoa học khác có thể sao chép các thí nghiệm, xác minh các phát hiện và xây dựng dựa trên công trình đó một cách tự tin. Nó thúc đẩy hợp tác toàn cầu, phá bỏ các rào cản và cho phép các nhà nghiên cứu từ các nền tảng và tổ chức đa dạng đóng góp vào các thách thức chung. Nó đảm bảo tuổi thọ và tránh bị khóa nhà cung cấp, bảo vệ các khoản đầu tư nghiên cứu khỏi những thay đổi thất thường của các công ty phần mềm độc quyền. Nó tăng tốc khám phá bằng cách cho phép phổ biến và lặp lại nhanh chóng các ý tưởng và kỹ thuật mới. Đặc tính mã nguồn mở về cơ bản phù hợp với việc theo đuổi kiến thức khoa học thông qua tính minh bạch, sự xem xét kỹ lưỡng và tiến bộ chung.

Trí tuệ Nhân tạo: Một Loài Hoàn toàn Khác

Mô hình mã nguồn mở đã được thiết lập, được xây dựng một cách an toàn xung quanh khả năng truy cập mã nguồn, gặp phải sự hỗn loạn đáng kể khi áp dụng vào lĩnh vực trí tuệ nhân tạo, đặc biệt là các mô hình quy mô lớn như các mô hình ngôn ngữ lớn nền tảng (LLMs). Mặc dù các hệ thống AI này chắc chắn liên quan đến mã, chức năng và hành vi của chúng được định hình bởi các yếu tố phức tạp hơn nhiều và thường không rõ ràng. Việc chỉ phát hành mã kiến trúc cho một mạng nơ-ron không tương đương với tính mở thực sự theo cách mà nó làm đối với phần mềm truyền thống.

Một mô hình AI, đặc biệt là mô hình học sâu, thường bao gồm một số thành phần chính:

  1. Kiến trúc Mô hình (Model Architecture): Đây là thiết kế cấu trúc của mạng nơ-ron – sự sắp xếp các lớp, nơ-ron vàkết nối. Các công ty thường công bố thông tin này, trình bày nó như bằng chứng về tính mở. Nó giống như chia sẻ bản thiết kế của một động cơ.
  2. Trọng số Mô hình (Model Weights/Parameters): Đây là các giá trị số, thường là hàng tỷ giá trị, trong mạng đã được điều chỉnh trong quá trình huấn luyện. Chúng đại diện cho các mẫu và kiến thức đã học được trích xuất từ dữ liệu huấn luyện. Việc phát hành các trọng số cho phép người khác sử dụng mô hình đã được huấn luyện trước. Điều này giống như cung cấp động cơ đã lắp ráp hoàn chỉnh, sẵn sàng hoạt động.
  3. Dữ liệu Huấn luyện (Training Data): Đây có lẽ là thành phần quan trọng nhất và thường bị che giấu nhất. Các mô hình nền tảng được huấn luyện trên các bộ dữ liệu khổng lồ, thường được thu thập từ internet hoặc có nguồn gốc từ các bộ sưu tập độc quyền hoặc riêng tư (như hồ sơ y tế, gây ra những lo ngại đáng kể về quyền riêng tư). Thành phần, việc quản lý, lọc và các thành kiến tiềm ẩn trong dữ liệu này ảnh hưởng sâu sắc đến khả năng, hạn chế và hành vi đạo đức của mô hình. Nếu không có thông tin chi tiết về dữ liệu huấn luyện, việc hiểu tại sao một mô hình hoạt động theo cách của nó, hoặc đánh giá sự phù hợp và an toàn của nó cho các ứng dụng cụ thể, trở nên cực kỳ khó khăn. Đây là hỗn hợp nhiên liệu bí mật và các điều kiện chính xác mà động cơ đã được chạy rà.
  4. Mã và Quy trình Huấn luyện (Training Code and Process): Điều này bao gồm các thuật toán cụ thể được sử dụng để huấn luyện, các kỹ thuật tối ưu hóa, các siêu tham số đã chọn (cài đặt kiểm soát quá trình học), cơ sở hạ tầng tính toán được sử dụng và năng lượng đáng kể tiêu thụ. Những thay đổi nhỏ trong quy trình huấn luyện có thể dẫn đến các hành vi mô hình khác nhau, khiến khả năng tái tạo trở nên thách thức ngay cả khi kiến trúc và dữ liệu đã được biết. Điều này đại diện cho các thông số kỹ thuật chi tiết, công cụ và điều kiện nhà máy được sử dụng để xây dựng và tinh chỉnh động cơ.

Nhiều hệ thống hiện đang được tiếp thị là AI ‘mã nguồn mở’ chủ yếu cung cấp quyền truy cập vào kiến trúc mô hình và các trọng số đã được huấn luyện trước. Mặc dù điều này cho phép người dùng chạy mô hình và có lẽ tinh chỉnh nó trên các bộ dữ liệu nhỏ hơn, nhưng nó lại thiếu sót nghiêm trọng trong việc cung cấp tính minh bạch cần thiết liên quan đến dữ liệu và quy trình huấn luyện. Điều này hạn chế nghiêm trọng khả năng thực sự nghiên cứu các thuộc tính cơ bản của mô hình hoặc sửa đổi nó theo những cách có ý nghĩa sâu sắc đòi hỏi phải huấn luyện lại hoặc hiểu nguồn gốc của nó. Các quyền tự do nghiên cứu và sửa đổi, trung tâm của định nghĩa mã nguồn mở, bị cản trở đáng kể khi các yếu tố quan trọng về dữ liệu và phương pháp huấn luyện vẫn bị ẩn giấu. Việc sao chép lại quá trình tạo ra mô hình từ đầu – một bài kiểm tra quan trọng về sự hiểu biết và xác minh khoa học – trở nên gần như không thể.

Xu hướng Đáng lo ngại của ‘Openwashing’ trong AI

Khoảng cách giữa nhãn hiệu và thực tế này đã làm nảy sinh một thực tiễn được gọi là ‘openwashing’. Thuật ngữ này mô tả hành động của các công ty tận dụng danh tiếng tích cực và lợi ích được nhận thức của ‘mã nguồn mở’ để tiếp thị và tạo lợi thế chiến lược, đồng thời giữ lại quyền truy cập vào các thành phần quan trọng như thông tin chi tiết về dữ liệu huấn luyện hoặc mã được sử dụng cho chính quá trình huấn luyện. Họ khoác lên hệ thống của mình ngôn ngữ của sự cởi mở mà không hoàn toàn chấp nhận các nguyên tắc khắt khe về tính minh bạch và quyền truy cập cộng đồng.

Một số mô hình AI nổi bật, mặc dù được sử dụng rộng rãi và đôi khi mang danh hiệu ‘mở’, lại không đạt tiêu chuẩn khi được đo lường dựa trên định nghĩa toàn diện về mã nguồn mở được các tổ chức như Open Source Initiative (OSI) ủng hộ. Một phân tích của OSI, vốn đã làm việc siêng năng từ năm 2022 để làm rõ ý nghĩa của mã nguồn mở trong bối cảnh AI, đã nêu bật những lo ngại với một số mô hình phổ biến:

  • Llama 2 & Llama 3.x (Meta): Mặc dù trọng số và kiến trúc mô hình có sẵn, các hạn chế về sử dụng và tính minh bạch không đầy đủ liên quan đến toàn bộ bộ dữ liệu và quy trình huấn luyện hạn chế sự phù hợp của chúng với các giá trị mã nguồn mở truyền thống.
  • Grok (X): Tương tự, mặc dù được cung cấp, việc thiếu thông tin toàn diện về dữ liệu và phương pháp huấn luyện của nó đặt ra câu hỏi về tính mở thực sự của nó.
  • Phi-2 (Microsoft): Thường được mô tả là một ‘mô hình mở’, tính minh bạch đầy đủ liên quan đến quy trình tạo ra và dữ liệu của nó vẫn còn hạn chế.
  • Mixtral (Mistral AI): Mặc dù các phần được phát hành, nó không đáp ứng đầy đủ các tiêu chí cho mã nguồn mở do những hạn chế trong việc truy cập vào tất cả các thành phần cần thiết để nghiên cứu và sửa đổi.

Những ví dụ này trái ngược với những nỗ lực phấn đấu tuân thủ tốt hơn các nguyên tắc mã nguồn mở:

  • OLMo (Allen Institute for AI): Được phát triển bởi một viện nghiên cứu phi lợi nhuận, OLMo được thiết kế rõ ràng với mục tiêu cởi mở, không chỉ phát hành trọng số mà còn cả mã huấn luyện và chi tiết về dữ liệu được sử dụng.
  • CrystalCoder của LLM360: Một dự án do cộng đồng thúc đẩy nhằm mục đích minh bạch hoàn toàn trong suốt vòng đời của mô hình, bao gồm dữ liệu, quy trình huấn luyện và các chỉ số đánh giá.

Tại sao lại tham gia vào openwashing? Động cơ rất đa dạng:

  1. Tiếp thị và Nhận thức: Nhãn hiệu ‘mã nguồn mở’ mang lại thiện chí đáng kể. Nó gợi ý sự hợp tác, thực hành đạo đức và cam kết với cộng đồng rộng lớn hơn, có thể thu hút người dùng, nhà phát triển và báo chí tích cực.
  2. Xây dựng Hệ sinh thái: Việc phát hành trọng số mô hình, ngay cả khi không có sự minh bạch hoàn toàn, khuyến khích các nhà phát triển xây dựng ứng dụng trên nền tảng hệ thống AI, có khả năng tạo ra một hệ sinh thái phụ thuộc mang lại lợi ích cho công ty gốc.
  3. Lách luật Quy định: Đây là một động lực đặc biệt đáng lo ngại. Các quy định sắp tới, chẳng hạn như Đạo luật AI của Liên minh Châu Âu (European Union’s AI Act) (2024), dự kiến sẽ áp đặt các yêu cầu nghiêm ngặt hơn đối với một số hệ thống AI có rủi ro cao. Tuy nhiên, các miễn trừ hoặc sự giám sát nhẹ nhàng hơn thường được đề xuất cho ‘phần mềm mã nguồn mở và miễn phí’. Bằng cách áp dụng nhãn hiệu ‘mã nguồn mở’ – ngay cả khi không chính xác theo các định nghĩa đã được thiết lập – các công ty có thể hy vọng điều hướng các quy định này dễ dàng hơn, tránh các gánh nặng tuân thủ tốn kém tiềm ẩn liên quan đến các hệ thống độc quyền, rủi ro cao. Việc dán nhãn chiến lược này khai thác một lỗ hổng tiềm ẩn, làm suy yếu mục đích của quy định nhằm đảm bảo an toàn và minh bạch.

Thực tiễn này cuối cùng làm giảm giá trị của thuật ngữ ‘mã nguồn mở’ và tạo ra sự nhầm lẫn, khiến người dùng, nhà phát triển và nhà nghiên cứu khó phân biệt được hệ thống AI nào thực sự cung cấp tính minh bạch và các quyền tự do mà nhãn hiệu đó ngụ ý.

Tại sao Tính mở Thực sự lại Quan trọng Cấp bách đối với Khoa học

Đối với cộng đồng khoa học, những gì đang bị đe dọa trong cuộc tranh luận này là cực kỳ cao. Khoa học phát triển mạnh nhờ tính minh bạch, khả năng tái tạo và khả năng xác minh độc lập. Việc tích hợp ngày càng tăng của AI vào nghiên cứu – từ phân tích dữ liệu gen và mô hình hóa biến đổi khí hậu đến khám phá vật liệu mới và hiểu các hệ thống sinh học phức tạp – làm cho bản chất của các công cụ AI này trở nên cực kỳ quan trọng. Việc dựa vào các hệ thống AI ‘hộp đen’, hoặc những hệ thống giả mạo là mở mà không cung cấp sự minh bạch thực sự, gây ra những rủi ro sâu sắc:

  • Suy giảm Khả năng Tái tạo: Nếu các nhà nghiên cứu không thể truy cập hoặc hiểu dữ liệu huấn luyện và phương pháp luận đằng sau một mô hình AI được sử dụng trong một nghiên cứu, việc sao chép kết quả trở nên bất khả thi. Điều này về cơ bản làm suy yếu một trụ cột cốt lõi của phương pháp khoa học. Làm thế nào các phát hiện có thể được tin cậy hoặc xây dựng dựa trên nếu chúng không thể được xác minh độc lập?
  • Thành kiến và Hạn chế Ẩn giấu: Tất cả các mô hình AI đều kế thừa các thành kiến từ dữ liệu huấn luyện và các lựa chọn thiết kế của chúng. Nếu không có sự minh bạch, các nhà nghiên cứu không thể đánh giá đầy đủ những thành kiến này hoặc hiểu các hạn chế của mô hình. Việc sử dụng một mô hình có thành kiến mà không biết có thể dẫn đến kết quả sai lệch, kết luận sai lầm và hậu quả có hại tiềm ẩn trong thế giới thực, đặc biệt là trong các lĩnh vực nhạy cảm như nghiên cứu y tế hoặc khoa học xã hội.
  • Thiếu sự Xem xét Kỹ lưỡng: Các mô hình không rõ ràng né tránh sự đánh giá ngang hàng nghiêm ngặt. Cộng đồng khoa học không thể thẩm vấn đầy đủ hoạt động bên trong của mô hình, xác định các lỗi tiềm ẩn trong logic của nó hoặc hiểu những điều không chắc chắn liên quan đến các dự đoán của nó. Điều này cản trở bản chất tự sửa chữa của nghiên cứu khoa học.
  • Phụ thuộc vào Hệ thống Doanh nghiệp: Sự phụ thuộc vào các hệ thống AI đóng hoặc bán đóng do các tập đoàn kiểm soát tạo ra sự phụ thuộc. Các chương trình nghị sự nghiên cứu có thể bị ảnh hưởng một cách tinh vi bởi khả năng và hạn chế của các công cụ doanh nghiệp có sẵn, và quyền truy cập có thể bị hạn chế hoặc trở nên tốn kém, có khả năng kìm hãm các hướng nghiên cứu độc lập và làm gia tăng khoảng cách giữa các tổ chức được tài trợ tốt và các tổ chức khác.
  • Kìm hãm Đổi mới: Mã nguồn mở thực sự cho phép các nhà nghiên cứu không chỉ sử dụng các công cụ mà còn phân tích, sửa đổi, cải thiện và tái sử dụng chúng. Nếu các thành phần chính của mô hình AI vẫn không thể truy cập được, con đường quan trọng này cho sự đổi mới sẽ bị chặn. Các nhà khoa học bị ngăn cản thử nghiệm các kỹ thuật huấn luyện mới lạ, khám phá các kết hợp dữ liệu khác nhau hoặc điều chỉnh các mô hình cho các câu hỏi nghiên cứu cụ thể, tinh tế mà các nhà phát triển ban đầu không lường trước được.

Cộng đồng khoa học không thể chấp nhận một cách thụ động sự pha loãng của thuật ngữ ‘mã nguồn mở’. Cộng đồng phải tích cực ủng hộ sự rõ ràng và yêu cầu sự minh bạch thực sự từ các nhà phát triển AI, đặc biệt là khi các công cụ này được sử dụng trong bối cảnh nghiên cứu. Điều này bao gồm:

  • Thúc đẩy các Tiêu chuẩn Rõ ràng: Hỗ trợ các nỗ lực, như của OSI, để thiết lập các định nghĩa rõ ràng, nghiêm ngặt về những gì cấu thành ‘AI mã nguồn mở’, các định nghĩa bao gồm tính minh bạch liên quan đến kiến trúc, trọng số, dữ liệu huấn luyện và quy trình huấn luyện.
  • Ưu tiên các Công cụ Có thể Xác minh: Ưu tiên sử dụng các mô hình và nền tảng AI đáp ứng các tiêu chuẩn cao về tính minh bạch này, ngay cả khi ban đầu chúng kém hiệu quả hơn hoặc đòi hỏi nhiều nỗ lực hơn so với các lựa chọn thay thế không rõ ràng có sẵn.
  • Yêu cầu Tính minh bạch: Nhấn mạnh rằng các ấn phẩm liên quan đến AI phải bao gồm các tiết lộ chi tiết về các mô hình được sử dụng, bao gồm thông tin toàn diện về nguồn gốc dữ liệu huấn luyện, quá trình xử lý và các thành kiến tiềm ẩn, cũng như các phương pháp huấn luyện.
  • Hỗ trợ các Dự án Thực sự Mở: Đóng góp và sử dụng các dự án và sáng kiến do cộng đồng thúc đẩy từ các tổ chức cam kết về tính mở thực sự trong phát triển AI.

Tinh thần của Homebrew Computer Club – tinh thần chia sẻ kiến thức và xây dựng hợp tác – là điều cần thiết để điều hướng sự phức tạp của kỷ nguyên AI một cách có trách nhiệm. Việc đòi lại và bảo vệ ý nghĩa thực sự của ‘mã nguồn mở’ cho trí tuệ nhân tạo không chỉ là về sự trong sáng về thuật ngữ; đó là về việc bảo vệ tính toàn vẹn, khả năng tái tạo và sự tiến bộ liên tục của chính khoa học trong một thế giới ngày càng được điều khiển bởi AI. Con đường phía trước đòi hỏi sự cảnh giác và cam kết tập thể để đảm bảo rằng các công cụ mạnh mẽ của AI được phát triển và triển khai theo cách phù hợp với các nguyên tắc điều tra mở đã phục vụ khoa học rất tốt trong nhiều thế kỷ.