Đánh giá lại chuẩn AI: Tìm kiếm ý nghĩa
Việc theo đuổi trí tuệ nhân tạo (AI) vượt trội thường được thúc đẩy bởi điểm chuẩn, nhưng liệu những điểm số này có thực sự biểu thị khả năng thực tế? Cộng đồng AI đang vật lộn với câu hỏi này khi các chuẩn mực truyền thống phải đối mặt với sự giám sát ngày càng tăng.
SWE-Bench, được giới thiệu vào tháng 11 năm 2024, nhanh chóng trở thành một công cụ phổ biến để đánh giá khả năng viết mã của mô hình AI. Nó tận dụng hơn 2.000 thách thức lập trình xác thực được trích xuất từ các kho lưu trữ GitHub công khai trên một tá dự án dựa trên Python. Điểm SWE-Bench cao đã trở thành một huy hiệu đáng mơ ước, được hiển thị nổi bật trong các bản phát hành mô hình lớn từ các nhà phát triển AI hàng đầu như OpenAI, Anthropic và Google. Vượt ra ngoài những gã khổng lồ này, các công ty AI chuyên về tinh chỉnh liên tục cạnh tranh để giành quyền tối cao trên bảng xếp hạng SWE-Bench.
Tuy nhiên, sự nhiệt tình xung quanh các chuẩn mực này có thể gây hiểu lầm. John Yang, một nhà nghiên cứu tại Đại học Princeton tham gia vào việc phát triển SWE-Bench, lưu ý rằng sự cạnh tranh khốc liệt cho vị trí hàng đầu đã dẫn đến việc “gian lận” hệ thống. Điều này làm dấy lên lo ngại về việc liệu các chuẩn mực này có phản ánh chính xác thành tích AI thực sự hay không.
Vấn đề không nhất thiết là gian lận công khai, mà là sự phát triển của các chiến lược được thiết kế đặc biệt để khai thác những hạn chế của điểm chuẩn. Ví dụ, SWE-Bench ban đầu chỉ tập trung vào mã Python, khuyến khích các nhà phát triển đào tạo mô hình của họ độc quyền trên Python. Yang quan sát thấy rằng các mô hình đạt điểm cao này thường vấp ngã khi đối mặt với các ngôn ngữ lập trình khác nhau, bộc lộ một sự hiểu biết hời hợt mà ông mô tả là “mạ vàng”.
"Thoạt nhìn thì có vẻ đẹp và bóng bẩy, nhưng sau đó bạn cố gắng chạy nó trên một ngôn ngữ khác và mọi thứ cứ như sụp đổ," Yang giải thích. "Tại thời điểm đó, bạn không thiết kế một tác nhân kỹ thuật phần mềm. Bạn đang thiết kế để tạo ra một tác nhân SWE-Bench, điều này kém thú vị hơn nhiều."
"Vấn đề SWE-Bench" này phản ánh một thách thức lớn hơn trong đánh giá AI. Các chuẩn mực, từng được coi là chỉ số tiến bộ đáng tin cậy, ngày càng tách rời khỏi khả năng thực tế. Làm trầm trọng thêm vấn đề, những lo ngại về tính minh bạch đã nổi lên, làm xói mòn thêm niềm tin vào các số liệu này. Mặc dù có những vấn đề này, các chuẩn mực vẫn tiếp tục đóng một vai trò quan trọng trong phát triển mô hình, mặc dù nhiều chuyên gia đặt câu hỏi về giá trị vốn có của chúng. Đồng sáng lập OpenAI, Andrej Karpathy thậm chí còn gọi tình hình hiện tại là một "cuộc khủng hoảng đánh giá", than thở về việc thiếu các phương pháp đáng tin cậy để đo lường khả năng AI và sự thiếu vắng một con đường rõ ràng phía trước.
Vanessa Parli, giám đốc nghiên cứu tại Viện AI lấy con người làm trung tâm của Đại học Stanford, hỏi, "Trong lịch sử, các chuẩn mực là cách chúng ta đánh giá các hệ thống AI. Đó có phải là cách chúng ta muốn đánh giá các hệ thống trong tương lai? Và nếu không, thì cách đó là gì?"
Một nhóm học giả và nhà nghiên cứu AI ngày càng tăng ủng hộ một cách tiếp cận tập trung hơn, lấy cảm hứng từ khoa học xã hội. Họ đề xuất ưu tiên "tính hợp lệ", một khái niệm trung tâm đối với khoa học xã hội định lượng, đánh giá mức độ tốt của một công cụ đo lường nắm bắt chính xác cấu trúc dự định. Sự nhấn mạnh vào tính hợp lệ này có thể thách thức các chuẩn mực đánh giá các khái niệm được xác định mơ hồ như "lý luận" hoặc "kiến thức khoa học". Mặc dù nó có thể làm dịu việc theo đuổi trí tuệ nhân tạo tổng quát (AGI), nhưng nó sẽ cung cấp một nền tảng vững chắc hơn để đánh giá các mô hình riêng lẻ.
Abigail Jacobs, một giáo sư tại Đại học Michigan và là một tiếng nói hàng đầu trong việc thúc đẩy tính hợp lệ, khẳng định, "Nghiêm túc xem xét tính hợp lệ có nghĩa là yêu cầu mọi người trong giới học thuật, ngành công nghiệp hoặc bất cứ nơi nào chứng minh rằng hệ thống của họ làm những gì họ nói. Tôi nghĩ nó chỉ ra một điểm yếu trong thế giới AI nếu họ muốn rút lui khỏi việc chứng minh rằng họ có thể hỗ trợ tuyên bố của mình."
Giới hạn của thử nghiệm truyền thống
Sự phụ thuộc của ngành công nghiệp AI vào các chuẩn mực bắt nguồn từ những thành công trong quá khứ của họ, đặc biệt là trong các thách thức như ImageNet.
ImageNet, được ra mắt vào năm 2010, đã cung cấp cho các nhà nghiên cứu một cơ sở dữ liệu gồm hơn 3 triệu hình ảnh được phân loại thành 1.000 lớp khác nhau. Thách thức này là bất khả tri về phương pháp, cho phép bất kỳ thuật toán thành công nào đạt được uy tín bất kể phương pháp cơ bản của nó. Bước đột phá của AlexNet vào năm 2012, sử dụng một hình thức đào tạo GPU không theo quy ước, đã trở thành nền tảng của AI hiện đại. Mặc dù ít ai có thể dự đoán rằng mạng lưới thần kinh tích chập của AlexNet sẽ mở khóa nhận dạng hình ảnh, nhưng điểm số cao của nó đã dập tắt mọi nghi ngờ. (Đáng chú ý, một trong những nhà phát triển của AlexNet đã tiếp tục đồng sáng lập OpenAI.)
Hiệu quả của ImageNet bắt nguồn từ sự liên kết chặt chẽ giữa thách thức và các tác vụ nhận dạng hình ảnh trong thế giới thực. Ngay cả với các cuộc tranh luận về phương pháp, mô hình đạt điểm cao nhất luôn chứng minh hiệu suất vượt trội trong các ứng dụng thực tế.
Tuy nhiên, trong những năm kể từ đó, các nhà nghiên cứu AI đã áp dụng cùng một phương pháp bất khả tri này cho các tác vụ ngày càng tổng quát. Ví dụ: SWE-Bench thường được sử dụng làm đại diện cho khả năng viết mã rộng hơn, trong khi các chuẩn mực kiểu kiểm tra khác được sử dụng để đánh giá khả năng lý luận. Phạm vi rộng này gây khó khăn cho việc xác định một cách chặt chẽ những gì mà một điểm chuẩn cụ thể đo lường, cản trở việc giải thích có trách nhiệm các phát hiện.
Nơi mọi thứ sụp đổ
Anka Reuel, một nghiên cứu sinh tiến sĩ tại Stanford, lập luận rằng việc thúc đẩy tính tổng quát là gốc rễ của vấn đề đánh giá. "Chúng tôi đã chuyển từ các mô hình dành riêng cho tác vụ sang các mô hình đa năng," Reuel nói. "Đó không còn là một tác vụ duy nhất nữa mà là một loạt các tác vụ, vì vậy việc đánh giá trở nên khó khăn hơn."
Giống như Jacobs, Reuel tin rằng "vấn đề chính với các chuẩn mực là tính hợp lệ, thậm chí còn hơn cả việc triển khai thực tế," lưu ý: "Đó là nơi mà rất nhiều thứ sụp đổ." Đối với các tác vụ phức tạp như viết mã, gần như không thể bao gồm mọi kịch bản có thể tưởng tượng được trong một bộ vấn đề. Do đó, rất khó để phân biệt liệu điểm số cao hơn của một mô hình có phản ánh kỹ năng viết mã thực sự hay chỉ đơn giản là thao túng khéo léo bộ vấn đề. Áp lực lớn để đạt được điểm số kỷ lục càng khuyến khích các lối tắt.
Các nhà phát triển hy vọng rằng thành công trên vô số các chuẩn mực cụ thể sẽ chuyển thành một mô hình có khả năng chung. Tuy nhiên, sự trỗi dậy của AI tác nhân, nơi một hệ thống duy nhất có thể kết hợp một loạt các mô hình phức tạp, gây khó khăn cho việc đánh giá liệu những cải tiến trên các tác vụ cụ thể có tổng quát hay không. "Có rất nhiều nút bạn có thể vặn," Sayash Kapoor, một nhà khoa học máy tính tại Princeton và là một nhà phê bình các thông lệ cẩu thả trong ngành công nghiệp AI, nói. "Khi nói đến các tác nhân, họ đã từ bỏ các thông lệ tốt nhất để đánh giá."
Trong một bài báo được công bố vào tháng 7 năm ngoái, Kapoor đã nêu bật các vấn đề cụ thể với cách các mô hình AI tiếp cận điểm chuẩn WebArena vào năm 2024, kiểm tra khả năng điều hướng web của tác nhân AI. Điểm chuẩn bao gồm hơn 800 tác vụ được thực hiện trên các trang web nhân bản mô phỏng Reddit, Wikipedia và các trang web khác. Kapoor và nhóm của ông đã phát hiện ra rằng mô hình chiến thắng, STeP, đã khai thác cấu trúc của URL Reddit để truy cập trực tiếp vào các trang hồ sơ người dùng, một yêu cầu thường xuyên trong các tác vụ WebArena.
Mặc dù không phải là gian lận hoàn toàn, Kapoor coi đây là một "sự trình bày sai nghiêm trọng về mức độ hoạt động tốt của tác nhân nếu nó thấy các tác vụ trong WebArena lần đầu tiên." Mặc dù vậy, tác nhân web Operator của OpenAI kể từ đó đã áp dụng một chính sách tương tự.
Để minh họa thêm các vấn đề với các chuẩn mực AI, Kapoor và một nhóm các nhà nghiên cứu gần đây đã công bố một bài báo tiết lộ các vấn đề quan trọng trong Chatbot Arena, một hệ thống đánh giá đám đông phổ biến. Các phát hiện của họ chỉ ra rằng bảng xếp hạng đang bị thao túng, với một số mô hình nền tảng hàng đầu tham gia vào thử nghiệm riêng tư chưa được tiết lộ và chọn lọc phát hành điểm số của họ.
Ngay cả ImageNet, điểm chuẩn đã bắt đầu tất cả, hiện đang đối mặt với các vấn đề về tính hợp lệ. Một nghiên cứu năm 2023 của các nhà nghiên cứu tại Đại học Washington và Google Research cho thấy rằng các thuật toán chiến thắng ImageNet cho thấy "ít hoặc không có tiến bộ" khi áp dụng cho sáu bộ dữ liệu trong thế giới thực, cho thấy rằng tính hợp lệ bên ngoài của thử nghiệm đã đạt đến giới hạn của nó.
Đi nhỏ hơn
Để giải quyết vấn đề về tính hợp lệ, một số nhà nghiên cứu đề xuất kết nối lại các chuẩn mực với các tác vụ cụ thể. Như Reuel đã nói, các nhà phát triển AI "phải dùng đến các chuẩn mực cấp cao này gần như vô nghĩa đối với người tiêu dùng hạ nguồn, bởi vì các nhà phát triển chuẩn mực không còn có thể dự đoán được tác vụ hạ nguồn nữa."
Vào tháng 11 năm 2024, Reuel đã ra mắt BetterBench, một dự án xếp hạng công khai đánh giá các chuẩn mực dựa trên nhiều tiêu chí khác nhau, bao gồm sự rõ ràng của tài liệu mã và quan trọng nhất là tính hợp lệ của điểm chuẩn trong việc đo lường khả năng đã nêu của nó. BetterBench thách thức các nhà thiết kế xác định rõ ràng những gì mà các bài kiểm tra chuẩn mực của họ và cách nó liên quan đến các tác vụ tạo nên điểm chuẩn.
"Bạn cần có một sự phân tích cấu trúc về các khả năng," Reuel nói. "Những kỹ năng thực tế mà bạn quan tâm là gì và làm thế nào để bạn vận hành chúng thành một cái gì đó chúng ta có thể đo lường?"
Kết quả thật đáng kinh ngạc. Môi trường học tập Arcade (ALE), được thành lập vào năm 2013 để kiểm tra khả năng của các mô hình để học cách chơi các trò chơi Atari 2600, nổi lên là một trong những chuẩn mực đạt điểm cao nhất. Ngược lại, điểm chuẩn Hiểu ngôn ngữ đa nhiệm khổng lồ (MMLU), một bài kiểm tra được sử dụng rộng rãi cho các kỹ năng ngôn ngữ chung, nhận được một trong những điểm số thấp nhất do kết nối được xác định kém giữa các câu hỏi và kỹ năng cơ bản.
Mặc dù BetterBench vẫn chưa tác động đáng kể đến danh tiếng của các chuẩn mực cụ thể, nhưng nó đã mang lại thành công tính hợp lệ vào vị trí hàng đầu trong các cuộc thảo luận về cách cải thiện các chuẩn mực AI. Reuel đã tham gia một nhóm nghiên cứu mới do Hugging Face, Đại học Edinburgh và EleutherAI tổ chức, nơi cô sẽ phát triển thêm những ý tưởng của mình về tính hợp lệ và đánh giá mô hình AI.
Irene Solaiman, người đứng đầu chính sách toàn cầu của Hugging Face, cho biết nhóm sẽ tập trung vào việc xây dựng các chuẩn mực hợp lệ vượt ra ngoài việc đo lường các khả năng đơn giản. "Có rất nhiều khao khát cho một điểm chuẩn tốt có sẵn mà đã hoạt động," Solaiman nói. "Rất nhiều đánh giá đang cố gắng làm quá nhiều."
Ngành công nghiệp rộng lớn hơn dường như đang hội tụ vào quan điểm này. Trong một bài báo được công bố vào tháng 3, các nhà nghiên cứu từ Google, Microsoft, Anthropic và những người khác đã vạch ra một khuôn khổ mới để cải thiện các đánh giá, với tính hợp lệ là nền tảng.
Các nhà nghiên cứu lập luận rằng "khoa học đánh giá AI phải vượt ra ngoài các tuyên bố hạt thô về ‘trí tuệ tổng quát’ hướng tới các biện pháp tiến bộ phù hợp với thế giới thực và dành riêng cho nhiệm vụ hơn."
Đo lường những điều “Squishy”
Để tạo điều kiện cho sự thay đổi này, một số nhà nghiên cứu đang chuyển sang các công cụ của khoa học xã hội. Một bài báo quan điểm tháng 2 lập luận rằng "đánh giá các hệ thống GenAI là một thách thức đo lường khoa học xã hội", đặc biệt là khám phá cách các hệ thống tính hợp lệ của khoa học xã hội có thể được áp dụng cho điểm chuẩn AI.
Các tác giả, chủ yếu từ chi nhánh nghiên cứu của Microsoft nhưng cũng bao gồm các học giả từ Stanford và Đại học Michigan, chỉ ra các tiêu chuẩn mà các nhà khoa học xã hội sử dụng để đo lường các khái niệm bị tranh cãi như ý thức hệ, dân chủ và sự thiên vị của truyền thông. Áp dụng cho các chuẩn mực AI, các thủ tục tương tự này có thể cung cấp một cách để đo lường các khái niệm như "lý luận" và "thành thạo toán học" mà không cần dùng đến các khái quát hóa mơ hồ.
Văn học khoa học xã hội nhấn mạnh tầm quan trọng của việc xác định một cách chặt chẽ khái niệm đang được đo lường. Ví dụ: một bài kiểm tra được thiết kế để đo lường mức độ dân chủ trong một xã hội phải thiết lập trước một định nghĩa rõ ràng về một "xã hội dân chủ" và sau đó xây dựng các câu hỏi liên quan đến định nghĩa đó.
Để áp dụng điều này cho một điểm chuẩn như SWE-Bench, các nhà thiết kế sẽ cần phải từ bỏ phương pháp máy học truyền thống là thu thập các vấn đề lập trình từ GitHub và tạo ra một sơ đồ để xác thực các câu trả lời. Thay vào đó, họ sẽ trước tiên xác định những gì mà điểm chuẩn nhằm đo lường (ví dụ: "khả năng giải quyết các vấn đề được gắn cờ trong phần mềm"), chia nhỏ điều đó thành các kỹ năng phụ (ví dụ: các loại vấn đề khác nhau hoặc cấu trúc chương trình) và sau đó xây dựng các câu hỏi bao gồm chính xác các kỹ năng phụ đó.
Đối với các nhà nghiên cứu như Jacobs, sự thay đổi sâu sắc này so với cách các nhà nghiên cứu AI thường tiếp cận điểm chuẩn chính xác là trọng tâm. "Có một sự không phù hợp giữa những gì đang xảy ra trong ngành công nghệ và các công cụ này từ khoa học xã hội," cô nói. "Chúng tôi có hàng thập kỷ và hàng thập kỷ suy nghĩ về cách chúng tôi muốn đo lường những điều squishy này về con người."
Mặc dù những ý tưởng này ngày càng có tác động trong cộng đồng nghiên cứu, nhưng ảnh hưởng của chúng đến cách các công ty AI thực sự sử dụng các chuẩn mực là chậm.
Các bản phát hành mô hình gần đây từ OpenAI, Anthropic, Google và Meta tiếp tục dựa nhiều vào các chuẩn mực kiến thức trắc nghiệm như MMLU, chính phương pháp mà các nhà nghiên cứu về tính hợp lệ đang cố gắng vượt qua. Các bản phát hành mô hình, phần lớn, vẫn tập trung vào việc chứng minh sự gia tăng trí thông minh chung và các chuẩn mực rộng rãi được sử dụng để hỗ trợ các tuyên bố này.
Một số người quan sát thấy điều này thỏa đáng. Giáo sư Wharton, Ethan Mollick cho rằng các chuẩn mực, mặc dù là "các biện pháp tồi tệ về mọi thứ, cũng là những gì chúng ta có." Ông nói thêm, "Đồng thời, các mô hình đang trở nên tốt hơn. Rất nhiều tội lỗi được tha thứ bởi tiến bộ nhanh chóng."
Hiện tại, sự tập trung lâu dài của ngành công nghiệp vào trí tuệ nhân tạo tổng quát dường như đang làm lu mờ một cách tiếp cận tập trung hơn, dựa trên tính hợp lệ. Miễn là các mô hình AI tiếp tục tiến bộ trong trí thông minh chung, các ứng dụng cụ thể dường như ít hấp dẫn hơn, ngay cả khi các học viên đang sử dụng các công cụ mà họ không còn tin tưởng hoàn toàn.
"Đây là sợi dây chúng ta đang đi," Solaiman của Hugging Face nói. "Quá dễ dàng để vứt bỏ hệ thống, nhưng các đánh giá thực sự hữu ích trong việc hiểu các mô hình của chúng ta, ngay cả với những hạn chế này."