ファインチューニングの錯覚
ファインチューニングと検索拡張生成(RAG)は、一般的に、事前トレーニングされたAIモデルの知識と能力を向上させるための確立された方法と見なされています。しかし、Aleph AlphaのCEOであるJonas Andrulis氏は、現実はもっと複雑だと指摘しています。
「1年前、ファインチューニングは魔法の解決策であるという考えが広まっていました。AIシステムが期待どおりに機能しない場合、その答えは単にファインチューニングでした。それはそれほど単純ではありません」と彼は説明しました。
ファインチューニングはモデルのスタイルや動作を変更できますが、新しい情報を教えるための最も効果的なアプローチではありません。ファインチューニングだけでAIアプリケーションのすべての問題を解決できるという期待は誤解です。
RAG:代替アプローチ
RAGは、外部アーカイブから情報を取得する図書館員のように機能することで、代替手段を提供します。このアプローチにより、モデルを再トレーニングまたはファインチューニングすることなく、データベース内の情報を更新および変更できます。さらに、生成された結果は、正確性を確認するために引用および監査できます。
「特定の知識は常に文書化されるべきであり、LLMのパラメーター内に保存されるべきではありません」とAndrulis氏は強調しました。
RAGは多くの利点を提供しますが、その成功は、モデルが理解できる形式での主要なプロセス、手順、および組織の知識の適切な文書化にかかっています。残念ながら、これは多くの場合当てはまりません。
ドキュメントが存在する場合でも、ドキュメントまたはプロセスが、ベースモデルのトレーニングに使用されたデータとは大きく異なる、分布外データに依存している場合、企業は問題に遭遇する可能性があります。たとえば、英語のデータセットのみでトレーニングされたモデルは、特に科学的な数式が含まれている場合、ドイツ語のドキュメントに苦労します。多くの場合、モデルはデータをまったく解釈できません。
したがって、Andrulis氏は、有意義な結果を達成するには、通常、ファインチューニングとRAGの組み合わせが必要であると示唆しています。このハイブリッドアプローチは、両方の方法の長所を活用して、それぞれの制限を克服します。
分断を埋める
Aleph Alphaは、企業や国が独自のソブリンAIを開発することを妨げる課題に取り組むことで、ヨーロッパのDeepMindとしての地位を確立することを目指しています。
ソブリンAIとは、国内で構築または展開されたハードウェア上で、国の内部データセットを使用してトレーニングまたはファインチューニングされたモデルを指します。このアプローチは、多くの組織や政府にとって重要な、データのプライバシー、セキュリティ、および制御を保証します。
「私たちは、企業や政府が独自のソブリンAI戦略を構築するためのオペレーティングシステム、基盤となることを目指しています」とAndrulis氏は述べています。「可能な限り、オープンソースおよび最先端のテクノロジーを活用しながら、必要に応じて革新することを目指しています。」
これには、AlephのPharia-1-LLMなどのモデルのトレーニングが含まれることもありますが、Andrulis氏は、LlamaやDeepSeekなどの既存のモデルを複製しようとしているわけではないことを強調しています。彼らの焦点は、特定の課題に対処する独自のソリューションを作成することです。
「私は常に、他の人がやっていることを単にコピーするのではなく、意味のある異なることに焦点を当てるように研究を指示しています。なぜなら、それはすでに存在しているからです」とAndrulis氏は述べています。「別のLlamaやDeepSeekを構築する必要はありません。なぜなら、それらはすでに存在しているからです。」
代わりに、Aleph Alphaは、これらのテクノロジーの採用を簡素化および合理化するフレームワークの構築に注力しています。最近の例は、分布外データをより効率的に理解できるモデルをファインチューニングすることを目的とした、新しいトークナイザーフリー、または「T-Free」トレーニングアーキテクチャです。
従来のトークナイザーベースのアプローチでは、モデルを効果的にファインチューニングするために、大量の分布外データが必要になることがよくあります。これは計算コストが高く、十分なデータが利用可能であることを前提としています。
Aleph AlphaのT-Freeアーキテクチャは、トークナイザーを排除することでこの問題を回避します。フィンランド語でのPharia LLMの初期テストでは、トークナイザーベースのアプローチと比較して、トレーニングコストと二酸化炭素排出量が70%削減されました。この革新的なアプローチにより、ファインチューニングがよりアクセスしやすく、持続可能になります。
Aleph Alphaはまた、文書化された知識のギャップに対処するためのツールを開発しました。これらのギャップは、不正確または役に立たない結論につながる可能性があります。
たとえば、コンプライアンスに関する質問に関連する2つの契約が矛盾する場合、「システムは人に近づき、『矛盾が見つかりました…これが実際の矛盾であるかどうかフィードバックを提供していただけますか?』と言うことができます」とAndrulis氏は説明しました。
Pharia Catchと呼ばれるこのフレームワークを通じて収集された情報は、アプリケーションの知識ベースにフィードバックしたり、より効果的なモデルをファインチューニングするために使用したりできます。このフィードバックループにより、AIシステムの精度と信頼性が時間の経過とともに向上します。
Andrulis氏によると、これらのツールは、Aleph Alphaのテクノロジーを実装するためにエンドカスタマーと協力しているPwC、Deloitte、Capgemini、Supraなどのパートナーを引き付けています。これらのパートナーシップは、実際のアプリケーションにおけるAleph Alphaのソリューションの価値と実用性を示しています。
ハードウェアの要素
ソフトウェアとデータは、ソブリンAIの採用者が直面する唯一の課題ではありません。ハードウェアも重要な考慮事項です。
企業や国によって、国内で開発されたハードウェアで実行するための特定の要件がある場合や、ワークロードを実行できる場所を指定する場合があります。これらの制約は、ハードウェアとインフラストラクチャの選択に大きな影響を与える可能性があります。
これは、Andrulis氏と彼のチームが幅広いハードウェアオプションをサポートする必要があることを意味します。Aleph Alphaは、AMD、Graphcore、Cerebrasなど、さまざまなハードウェアパートナーを引き付けています。
先月、Aleph Alphaは、MI300シリーズアクセラレーターを使用するためにAMDとのパートナーシップを発表しました。このコラボレーションは、AMDの高度なハードウェアを活用して、AIトレーニングと推論を加速します。
Andrulis氏はまた、ソフトバンクが買収したGraphcore、およびドイツ軍のAIモデルのトレーニングに使用されているCerebrasのCS-3ウェハースケールアクセラレーターとのコラボレーションを強調しました。これらのパートナーシップは、顧客の特定のニーズを満たすために、さまざまなハードウェアプロバイダーと協力するというAleph Alphaのコミットメントを示しています。
これらのコラボレーションにもかかわらず、Andrulis氏は、Aleph Alphaの目標は、マネージドサービスまたはクラウドプロバイダーになることではないと主張しています。「私たちはクラウドプロバイダーになることは決してありません」と彼は述べました。「私は顧客が自由であり、ロックインされないことを望んでいます。」顧客の自由と柔軟性に対するこのコミットメントは、Aleph Alphaを他の多くのAI企業とは一線を画しています。
今後の展望:複雑性の増大
今後、Andrulis氏は、業界がチャットボットから、より高度な問題解決が可能なエージェントAIシステムに移行するにつれて、AIアプリケーションの構築はより複雑になると予想しています。
エージェントAIは、過去1年間で大きな注目を集めており、モデルビルダー、ソフトウェア開発者、およびハードウェアベンダーは、複数ステップのプロセスを非同期的に完了できるシステムを約束しています。初期の例としては、OpenAIのOperatorやAnthropicのコンピューター使用APIなどがあります。これらのエージェントAIシステムは、AI機能の大きな進歩を表しています。
「昨年、私たちは主にドキュメントの要約や執筆支援などの簡単なタスクに焦点を当てていました」と彼は言いました。「現在、一見したところgenAIの問題であるように見えないもの、ユーザーエクスペリエンスがチャットボットではないもので、よりエキサイティングになっています。」より複雑で統合されたAIアプリケーションへのこの移行は、業界に新たな課題と機会をもたらします。
エンタープライズAIアプリケーション構築における主な課題
- モデルトレーニングとアプリケーション統合の間のギャップを埋める: LLMの機能を実用的なアプリケーションに効果的に変換することは、依然として大きなハードルです。
- ファインチューニングの限界を克服する: ファインチューニングだけでは、AIモデルに新しい情報を教えたり、特定のタスクに適応させたりするには不十分なことがよくあります。
- データの品質とアクセシビリティを確保する: RAGは、適切に文書化され、すぐにアクセスできるデータに依存していますが、これは多くの組織で不足していることがよくあります。
- 分布外データを処理する: AIモデルは、トレーニングに使用されたデータとは異なるデータを処理できる必要があります。これには、特殊な技術が必要です。
- ハードウェアの制約に対処する: 企業や国によって、考慮する必要のあるさまざまなハードウェア要件があります。
- データのプライバシーとセキュリティを維持する: ソブリンAIでは、データが国内の境界内で安全に処理および保存されるようにする必要があります。
- エージェントAIシステムを開発する: 複雑な複数ステップのプロセスを非同期的に実行できるAIアプリケーションを構築することは、困難ですが有望な研究分野です。
エンタープライズAIアプリケーション構築における主な機会
- 革新的なAIソリューションの開発: エンタープライズAIアプリケーションの構築における課題は、特定のニーズに対応する革新的なソリューションを開発する機会を生み出します。
- オープンソーステクノロジーの活用: オープンソーステクノロジーは、コストを削減し、AIアプリケーションの開発を加速するのに役立ちます。
- ハードウェアパートナーとの連携: ハードウェアパートナーとの連携は、AIアプリケーションが特定のハードウェアプラットフォーム向けに最適化されていることを確認するのに役立ちます。
- ソブリンAI機能の構築: ソブリンAIは、国や組織にデータとAIインフラストラクチャに対するより大きな制御を提供できます。
- AIによる業界の変革: AIは、タスクの自動化、意思決定の改善、新しい製品やサービスの作成により、業界を変革する可能性を秘めています。
エンタープライズAIアプリケーションの未来
エンタープライズAIアプリケーションの未来は、次の特徴を持つ可能性があります。
- 複雑性の増大: AIアプリケーションはより複雑になり、統合され、専門的な知識とツールが必要になります。
- データ品質へのより大きな焦点: AIアプリケーションは正確で信頼性の高いデータに依存するため、データ品質はますます重要になります。
- セキュリティとプライバシーの重視: AIアプリケーションは機密データを処理するため、セキュリティとプライバシーが最も重要になります。
- エージェントAIのより広範な採用: 組織が複雑なタスクを自動化しようとするにつれて、エージェントAIシステムがより普及します。
- 継続的なイノベーション: AIの分野は急速に進化し続け、新たなブレークスルーと機会につながります。
課題に対処し、機会を受け入れることで、組織はAIの力を活用してビジネスを変革し、より良い未来を創造できます。