ChatGPTモデル:幻覚の深刻化

現象の理解

OpenAIの内部テストでは、o3やo4-miniなどのモデルで幻覚の発生率が大幅に増加していることが明らかになりました。これらのモデルは、高度な推論能力とマルチモーダル機能を備えており、AI技術の最前線に位置づけられます。画像生成、ウェブ検索、タスク自動化、過去の会話の記憶、複雑な問題解決などが可能です。しかし、これらの進歩には代償が伴うようです。

幻覚の程度を定量化するために、OpenAIはPersonQAと呼ばれる特定のテストを使用しています。このテストでは、モデルに様々な人物に関する事実を提示し、その人物について質問します。モデルの回答の正確性に基づいて評価が行われます。

以前の評価では、o1モデルは47%という素晴らしい正答率を達成し、幻覚率はわずか16%でした。しかし、o3とo4-miniに同じ評価を行ったところ、結果は著しく異なりました。

o4-miniモデルは、世界に関する知識が少ない小型モデルであるため、幻覚率が高いと予想されていました。しかし、実際の幻覚率は48%と驚くほど高く、o4-miniがウェブ検索や情報検索に広く使用されている商用製品であることを考えると、憂慮すべき結果です。

フルサイズのo3モデルも、幻覚を起こしやすい傾向を示しました。回答の33%で情報を捏造し、o1モデルの幻覚率を実質的に2倍にしました。しかし、o3は高い正答率も達成しており、これは全体的に多くの主張を行う傾向があるためだとOpenAIは分析しています。

幻覚の定義

AIにおける’幻覚’とは、事実と異なる、または意味不明な応答を、明確な根拠や正当性なしに生成する傾向を指します。これらは単に、不適切なデータや誤った解釈から生じる間違いではありません。むしろ、幻覚はモデルの推論プロセスにおけるより根本的な欠陥を表しています。

不正確な情報は、WikipediaのエントリやRedditのスレッドなど、様々なソースから生じる可能性がありますが、これらは特定のデータポイントに起因する追跡可能なエラーと考えることができます。一方、幻覚は、AIモデルが不確実な瞬間に事実を捏造することによって特徴づけられ、一部の専門家はこれを’創造的なギャップ埋め’と呼んでいます。

この点を説明するために、’現在入手可能なiPhone 16のモデルは何種類ですか?’という質問を考えてみましょう。次のiPhoneがどうなるかはAppleしか知らないため、LLMはおそらくいくつかの実際の答えを提供するでしょうが、タスクを完了するために追加のモデルを作り上げるでしょう。これは、モデルがタスクを完了するために情報を捏造する、つまり’創造的なギャップ埋め’と呼ばれる幻覚の明確な例です。

学習データの役割

ChatGPTのようなチャットボットは、膨大な量のインターネットデータで学習しています。このデータは、応答の内容を知らせるだけでなく、応答の仕方も決定します。モデルは、無数のクエリとそれに対応する理想的な応答の例にさらされ、特定のトーン、態度、丁寧さが強化されます。

この学習プロセスは、意図せずに幻覚の問題を悪化させる可能性があります。モデルは、質問に直接答える自信に満ちた応答を提供することが推奨されます。これにより、答えを知らないと認めるよりも、情報を捏造してでも質問に答えることを優先してしまう可能性があります。

要するに、学習プロセスは、事実と異なる場合でも、自信があり、知識豊富な応答に対して不注意に報酬を与えている可能性があります。これにより、正確性に関係なく、答えを生成することに偏りが生じ、幻覚の問題を悪化させる可能性があります。

AIの間違いの性質

AIの間違いと人間のエラーとの間に類似点を見出すのは自然なことです。結局のところ、人間は完璧ではなく、AIにも完璧を期待すべきではありません。しかし、AIの間違いは、人間のエラーとは根本的に異なるプロセスから生じていることを認識することが重要です。

AIモデルは、人間がするように嘘をついたり、誤解したり、情報を誤って記憶したりしません。人間のような推論を支える認知能力や状況認識が欠如しています。代わりに、確率に基づいて動作し、学習データで観察されたパターンに基づいて文中の次の単語を予測します。

この確率的なアプローチは、AIモデルが正確さや不正確さについて真に理解しているわけではないことを意味します。単に、学習データから学習した統計的関係に基づいて、最も可能性の高い単語のシーケンスを生成します。これにより、一見首尾一貫しているように見える応答が生成される可能性がありますが、実際には事実と異なっている可能性があります。

モデルにはインターネット全体に相当する情報が提供されますが、どの情報が良いか悪いか、正確か不正確かは伝えられません。何も伝えられていません。既存の基礎知識や、情報を自分で整理するのに役立つ基盤となる原則もありません。すべては単なる数字ゲームです。特定のコンテキストで最も頻繁に存在する単語のパターンが、LLMの’真実’になります。

課題への取り組み

高度なAIモデルにおける幻覚率の増加は、重大な課題となっています。OpenAIやその他のAI開発者は、この問題を理解し、軽減するために積極的に取り組んでいます。しかし、幻覚の根本的な原因は完全には解明されておらず、効果的な解決策を見つけることは継続的な取り組みです。

1つの潜在的なアプローチは、学習データの質と多様性を向上させることです。モデルをより正確で包括的な情報に触れさせることで、開発者はモデルが誤った情報を学習し、永続させる可能性を減らすことができます。

別のアプローチは、幻覚を検出し、防止するためのより高度な技術を開発することです。これには、モデルが特定の情報について確信がない場合に認識し、十分な証拠なしに主張することを控えるようにトレーニングすることが含まれる可能性があります。

当面の間、OpenAIは根本原因の研究を継続するとともに、短期的な解決策を追求する必要があるかもしれません。結局のところ、これらのモデルは収益性の高い製品であり、使用可能な状態である必要があります。1つのアイデアは、複数の異なるOpenAIモデルにアクセスできるチャットインターフェースである、何らかの集約製品を作成することです。

クエリに高度な推論が必要な場合はGPT-4oを呼び出し、幻覚の可能性を最小限に抑えたい場合はo1のような古いモデルを呼び出すことができます。おそらく会社はさらに凝ったことをして、単一のクエリのさまざまな要素を処理するために異なるモデルを使用し、最後にそれらをすべてつなぎ合わせるためにもう1つのモデルを使用することもできるでしょう。これは基本的に複数のAIモデル間のチームワークになるため、何らかのファクトチェックシステムも実装できる可能性があります。

正答率を上げることが主な目標ではありません。主な目標は幻覚率を下げることであり、そのためには、正解だけでなく、’わかりません’と言う応答も評価する必要があります。

ファクトチェックの重要性

AIモデルにおける幻覚の蔓延は、ファクトチェックの重要性を強調しています。これらのモデルは、情報検索やタスク自動化のための貴重なツールとなりえますが、絶対確実な真実の情報源として扱うべきではありません。

ユーザーは、AIモデルの出力を解釈する際には常に注意を払い、受け取った情報を独自に検証する必要があります。これは、機密性の高い、または重大な問題に対処する場合は特に重要です。

AIによって生成されたコンテンツに批判的かつ懐疑的なアプローチを採用することで、幻覚に関連するリスクを軽減し、正確な情報に基づいて十分な情報に基づいた意思決定を行えるようにすることができます。LLMに夢中になっている場合でも、それらの使用をやめる必要はありません。ただし、時間を節約したいという欲求が、結果をファクトチェックする必要性を上回らないようにしてください。常にファクトチェックしてください!

AIの将来への影響

幻覚の課題は、AIの将来に重大な影響を与えます。AIモデルが私たちの生活にますます統合されるにつれて、信頼性と信頼性が不可欠になります。AIモデルが誤った情報や誤解を招く情報を生成しやすい場合、公衆の信頼を損ない、広範な採用を妨げる可能性があります。

幻覚の問題に対処することは、AIモデルの精度を向上させるために不可欠であるだけでなく、倫理的かつ責任ある使用を保証するためにも重要です。幻覚を起こしにくいAIシステムを開発することで、誤った情報や欺瞞のリスクを軽減しながら、AIの潜在的な可能性を有効活用できます。