AIベンチマーク再考:意味ある測定を求めて

AIの優れた能力を追求する動きは、ベンチマークスコアによって推進されることが多いですが、これらのスコアは実際の能力を真に示しているのでしょうか。AIコミュニティは、従来のベンチマークがますます精査されるにつれて、この問題に取り組んでいます。

SWE-Benchは、2024年11月に導入され、AIモデルのコーディング能力を評価するための一般的なツールとして急速に支持を得ました。これは、12のPythonベースのプロジェクトにわたるパブリックGitHubリポジトリから抽出された2,000を超える本物のプログラミング課題を活用しています。強力なSWE-Benchスコアは、OpenAI、Anthropic、Googleなどの主要なAI開発者からの主要なモデルリリースで目立つように表示される、切望されたバッジになりました。これらの巨人を超えて、ファインチューニングを専門とするAI企業は、SWE-Benchリーダーボードで常に覇権を争っています。

しかし、これらのベンチマークを取り巻く熱狂は誤解を招く可能性があります。SWE-Benchの開発に関わったプリンストン大学の研究者であるジョン・ヤン氏は、トップの座を争う激しい競争がシステムの「ゲーミング」につながったと指摘しています。これは、これらのベンチマークが真のAIの成果を正確に反映しているかどうかについて懸念を引き起こします。

問題は必ずしも明白な不正行為ではなく、むしろベンチマークの制限を悪用するように特別に調整された戦略の開発です。たとえば、初期のSWE-BenchはPythonコードのみに焦点を当てていたため、開発者はモデルをPythonのみでトレーニングするようになりました。ヤン氏は、これらの高得点モデルは、異なるプログラミング言語に直面するとしばしば行き詰まり、彼が「金メッキ」と表現する表面的な理解を露呈させると観察しました。

「一見すると見栄えが良いですが、別の言語で実行しようとすると、すべてが崩れてしまいます」とヤン氏は説明します。「その時点で、ソフトウェアエンジニアリングエージェントを設計しているわけではありません。SWE-Benchエージェントを作成するように設計していますが、これははるかに面白くありません。」

この「SWE-Bench問題」は、AI評価におけるより広範な課題を反映しています。かつて進歩の信頼できる指標と見なされていたベンチマークは、現実世界の能力からますます切り離されています。問題を悪化させることに、透明性に関する懸念が表面化し、これらの指標への信頼がさらに損なわれています。これらの問題にもかかわらず、ベンチマークは依然としてモデル開発において重要な役割を果たしていますが、多くの専門家はその固有の価値に疑問を抱いています。OpenAIの共同創設者であるアンドレイ・カルパシー氏は、現在の状況を「評価危機」とさえ呼び、AIの能力を測定するための信頼できる方法の欠如と、明確な前進の道がないことを嘆いています。

スタンフォード大学の人間中心AI研究所の研究ディレクターであるヴァネッサ・パーリ氏は、「歴史的に、ベンチマークはAIシステムを評価する方法でした。それは私たちが今後システムを評価する方法ですか?そうでない場合、その方法は何ですか?」と尋ねています。

学界とAI研究者の間で増え続ける一派は、社会科学からインスピレーションを得て、より焦点を絞ったアプローチを提唱しています。彼らは、「妥当性」を優先することを提案しています。妥当性は、定量的社会科学の中心的な概念であり、測定ツールが意図された構成をどれだけ正確に捉えているかを評価します。この妥当性の重視は、「推論」や「科学的知識」などの曖昧に定義された概念を評価するベンチマークに異議を唱える可能性があります。人工汎用知能(AGI)の追求を緩和する可能性がありますが、個々のモデルを評価するためのより強固な基盤を提供します。

ミシガン大学の教授であり、妥当性の推進における主要な声であるアビゲイル・ジェイコブス氏は、「妥当性を真剣に受け止めるということは、学界、産業界、またはどこにいても、彼らのシステムが彼らが言うことを実行することを示すように求めることを意味します。彼らが主張をサポートできることを示すことから手を引くことを望むなら、AIの世界の弱点を示していると思います。」と主張しています。

従来のテストの限界

AI業界がベンチマークに依存しているのは、特にImageNetのような課題における過去の成功に起因しています。

2010年に開始されたImageNetは、研究者に1,000の異なるクラスに分類された300万を超える画像のデータベースを提示しました。課題は方法に依存せず、成功したアルゴリズムは、その基盤となるアプローチに関係なく信頼を得ることができました。GPUトレーニングの型破りな形式を利用した2012年のAlexNetのブレークスルーは、現代のAIの基礎となりました。AlexNetの畳み込みニューラルネットワークが画像認識をアンロックすることを予測できた人はほとんどいませんでしたが、その高いスコアはすべての疑念を払拭しました。(特に、AlexNetの開発者の1人は後にOpenAIを共同設立しました。)

ImageNetの有効性は、課題と現実世界の画像認識タスクとの間の密接な連携に由来していました。方法に関する議論があっても、最高得点のモデルは常に実用的なアプリケーションで優れたパフォーマンスを示しました。

しかし、それ以来、AI研究者は、この同じ方法に依存しないアプローチを、ますます一般的なタスクに適用してきました。たとえば、SWE-Benchは、より広範なコーディング能力のプロキシとしてよく使用されますが、他の試験スタイルのベンチマークは、推論能力を評価するために使用されます。この広い範囲により、特定のベンチマークが何を測定しているかを厳密に定義することが困難になり、調査結果の責任ある解釈が妨げられます。

問題が発生する場所

スタンフォード大学の博士課程の学生であるアンカ・ルーエル氏は、一般性への推進が評価問題の根本にあると主張しています。「タスク固有のモデルから汎用モデルに移行しました」とルーエル氏は言います。「もはや単一のタスクではなく、たくさんのタスクであるため、評価が難しくなります。」

ジェイコブス氏と同様に、ルーエル氏は、「ベンチマークの主な問題は、実際の実装以上に妥当性である」と信じており、「それが多くの問題が発生する場所です」と述べています。コーディングのような複雑なタスクの場合、考えられるすべてのシナリオを問題セットに含めることはほとんど不可能です。その結果、モデルの高いスコアが真のコーディングスキルを反映しているのか、単に問題セットを巧妙に操作しているのかを見分けることが困難になります。記録的なスコアを達成するための強いプレッシャーは、さらにショートカットを促します。

開発者は、多数の特定のベンチマークでの成功が、一般的に有能なモデルに変換されることを望んでいます。ただし、単一のシステムが複雑なモデルの配列を組み込むことができるエージェントAIの台頭により、特定のタスクの改善が一般化されるかどうかを評価することが困難になります。「回せるノブが多すぎる」と、プリンストンのコンピューター科学者であり、AI業界のずさんな慣行を批判しているサヤシュ・カプール氏は述べています。「エージェントに関しては、彼らは評価のためのベストプラクティスをあきらめています。」

昨年7月に発表された論文で、カプール氏は、2024年にAIモデルがWebArenaベンチマークにどのようにアプローチしたかについて具体的な問題を指摘しました。このベンチマークは、AIエージェントがWebをナビゲートする能力をテストします。ベンチマークは、Reddit、Wikipediaなどを模倣したクローンウェブサイトで実行される800を超えるタスクで構成されています。カプール氏と彼のチームは、勝利したモデルであるSTePが、RedditのURLの構造を利用して、WebArenaタスクで頻繁に必要とされるユーザープロファイルページに直接アクセスすることを発見しました。

完全な不正行為ではありませんが、カプール氏はこれを「エージェントがWebArenaでタスクを初めて見た場合にどのように機能するかについての深刻な誤り」と考えています。それにもかかわらず、OpenAIのウェブエージェントであるOperatorは、それ以来同様のポリシーを採用しています。

AIベンチマークの問題をさらに説明するために、カプール氏と研究者チームは最近、一般的なクラウドソーシング評価システムであるChatbot Arenaで重大な問題を明らかにする論文を発表しました。彼らの調査結果は、リーダーボードが操作されており、一部のトップ基盤モデルが非公開のプライベートテストに関与し、選択的にスコアを公開していることを示していました。

そもそもそれを始めたImageNetでさえ、現在妥当性の問題に直面しています。ワシントン大学とGoogle Researchの研究者による2023年の調査では、ImageNetで勝利したアルゴリズムが6つの現実世界のデータセットに適用した場合に「ほとんど進歩が見られない」ことがわかり、テストの外部妥当性が限界に達したことが示唆されました。

より小さくする

妥当性の問題に対処するために、一部の研究者はベンチマークを特定のタスクに再接続することを提案しています。ルーエル氏が述べているように、AI開発者は「ベンチマーク開発者がダウンストリームタスクを予測できなくなったため、ダウンストリームの消費者にとってほとんど意味のないこれらの高レベルのベンチマークに頼らざるを得ません。」

2024年11月、ルーエル氏はBetterBenchを立ち上げました。これは、コードドキュメントの明確さ、そして重要なことに、その述べられた能力を測定する際のベンチマークの妥当性など、さまざまな基準に基づいてベンチマークを評価する公開ランキングプロジェクトです。BetterBenchは、ベンチマークの設計者に、ベンチマークが何をテストし、ベンチマークを構成するタスクにどのように関連しているかを明確に定義するように求めています。

「機能の構造的内訳が必要です」とルーエル氏は言います。「実際に気にかけているスキルは何ですか?そして、それを測定できるものにどのように運用しますか?」

その結果は明らかです。Atari 2600ゲームのプレイ方法を学習するモデルの能力をテストするために2013年に確立されたArcade Learning Environment(ALE)は、最高のスコアを獲得したベンチマークの1つとして登場しました。逆に、一般的な言語スキルを広く使用されているテストであるMassive Multitask Language Understanding(MMLU)ベンチマークは、質問と基盤となるスキルとの接続が不十分であるため、最も低いスコアの1つを受け取ります。

BetterBenchは、特定のベンチマークの評判に大きな影響を与えていませんが、AIベンチマークを改善する方法に関する議論の最前線に妥当性をもたらすことに成功しました。ルーエル氏は、Hugging Face、エディンバラ大学、およびEleutherAIが主催する新しい研究グループに参加しました。そこで、妥当性とAIモデル評価に関する彼女のアイデアをさらに発展させます。

Hugging Faceのグローバルポリシーの責任者であるアイリーン・ソレイマン氏は、グループは単純な能力の測定を超えた有効なベンチマークの構築に焦点を当てると述べています。「すでに機能している既製の優れたベンチマークに対する飢えが非常に大きい」とソレイマン氏は述べています。「多くの評価は、あまりにも多くのことをしようとしています。」

より広範な業界は、この見解に収束しているようです。3月に発表された論文で、Google、Microsoft、Anthropicなどの研究者は、評価を改善するための新しいフレームワークを概説し、妥当性を礎としています。

研究者は、「AI評価科学は、進歩のよりタスク固有で現実世界に関連する尺度に向けて、「一般的な知性」の粗い主張を超えて進む必要がある」と主張しています。

「あいまいな」ものを測定する

この移行を促進するために、一部の研究者は社会科学のツールに目を向けています。2月のポジションペーパーでは、「GenAIシステムの評価は社会科学的測定の課題である」と主張し、特に社会科学的妥当性システムがAIベンチマークにどのように適用できるかを探求しました。

著者は、主にMicrosoftの研究部門からのものですが、スタンフォード大学とミシガン大学の学者も含まれており、社会科学者がイデオロギー、民主主義、メディアの偏見などの争われた概念を測定するために使用する基準を指摘しています。AIベンチマークに適用すると、これらの同じ手順は、曖昧な一般化に頼らずに、「推論」や「数学の習熟度」のような概念を測定する方法を提供できます。

社会科学の文献は、測定する概念を厳密に定義することの重要性を強調しています。たとえば、社会における民主主義のレベルを測定するように設計されたテストは、最初に「民主的な社会」の明確な定義を確立し、次にその定義に関連する質問を作成する必要があります。

これをSWE-Benchのようなベンチマークに適用するには、設計者はGitHubからプログラミングの問題を収集し、回答を検証するためのスキームを作成するという従来のマシンラーニングアプローチを放棄する必要があります。代わりに、ベンチマークが測定しようとしているもの(たとえば、「ソフトウェアでフラグが立てられた問題を解決する能力」)を最初に定義し、それをサブスキル(たとえば、問題またはプログラム構造の異なるタイプ)に分割してから、それらのサブスキルを正確にカバーする質問を作成します。

ジェイコブス氏のような研究者にとって、AI研究者が通常ベンチマークにアプローチする方法からのこの大きな変化はまさにポイントです。「テック業界で起こっていることと、社会科学のこれらのツールとの間にはミスマッチがあります」と彼女は言います。「私たちは、人間についてこれらのあいまいなものをどのように測定するかについて、何十年も何十年も考えてきました。」

これらのアイデアが研究コミュニティに与える影響は高まっていますが、AI企業が実際にベンチマークをどのように使用するかに与える影響は遅れています。

OpenAI、Anthropic、Google、およびMetaからの最近のモデルリリースは、MMLUのような多肢選択式の知識ベンチマークに大きく依存し続けています。これはまさに、妥当性研究者がそれを超えて移行しようとしているアプローチです。モデルリリースは、ほとんどの場合、一般的な知性の向上を示すことに依然として焦点を当てており、これらの主張をサポートするために広範なベンチマークが使用されています。

満足しているオブザーバーもいます。ウォートンのイーサン・モリック教授は、ベンチマークは「物事の悪い尺度ですが、私たちが持っているものでもあります」と示唆しています。彼は、「同時に、モデルは改善されています。多くの罪は、急速な進歩によって許されます。」と付け加えています。

今のところ、業界の長年の人工汎用知能への焦点は、より焦点を絞った妥当性ベースのアプローチを覆い隠しているようです。AIモデルが一般的な知能を進化させ続ける限り、特定のアプリケーションは、たとえ実践者がもはや完全に信頼していないツールを使用している場合でも、それほど魅力的に見えません。

「これは私たちが歩いている綱渡りです」と、Hugging Faceのソレイマン氏は言います。「システムを捨てるのは簡単すぎますが、評価はこれらの制限があっても、私たちのモデルを理解する上で本当に役立ちます。」