DeepSeek、定理証明LLM Prover-V2 を発表

DeepSeekは、形式的定理証明という複雑な領域において、Lean 4フレームワーク内で動作する画期的なオープンソースの大規模言語モデル(LLM)、DeepSeek-Prover-V2を発表しました。この新しいモデルは、DeepSeekの最先端DeepSeek-V3基盤モデルの能力を活用し、再帰的な定理証明パイプラインを利用しています。Lean 4は、Microsoft Researchによって開発されたインタラクティブな証明支援ツールであるLean定理証明器の最新バージョンです。この洗練された関数型プログラミング言語とインタラクティブな定理証明システムは、数学者やコンピュータ科学者が比類のない機械検証による形式的な証明を構築することを可能にします。

このプロジェクトは、形式的および非形式的な数学的推論の間のギャップを埋めるための大きな一歩となります。汎用LLMの固有の能力を活用することで、形式的な定理証明という高度に構造化された分野に効果的に取り組むことを目指しています。DeepSeekの研究チームは、彼らの革新的なアプローチは、人間の数学者が証明を構築する際に使用する認知プロセスを反映しており、複雑な定理をより管理しやすく理解しやすい構成要素に注意深く分解すると述べています。

評価フレームワークの拡大:ProverBenchの導入

DeepSeekチームは、研究の厳密さを高めるための重要な動きとして、形式的な定理証明能力の包括的な評価のために特別に設計された、まったく新しいベンチマークコレクションであるProverBenchを導入し、評価フレームワークを大幅に拡大しました。この包括的なコレクションは、形式的な数学の文脈におけるLLMのパフォーマンスを評価するための貴重なリソースとして機能します。

「従来のベンチマークを超えて、評価プロセスを充実させるために、325の形式化された問題からなる綿密にキュレーションされたコレクションであるProverBenchを誇りを持って紹介します。このコレクションには、最近のアメリカ招待数学試験(AIME)コンテスト、具体的には24〜25年から直接調達した厳選された15の問題が含まれています」と研究者たちは詳しく説明しています。

ProverBenchデータセットへのAIME問題の包含は特に注目に値します。数学コミュニティ内で広く認識されている、挑戦的で確立された数学的問題のセットを導入するためです。これにより、DeepSeek-Prover-V2のパフォーマンスを評価し、他のアプローチと比較するための標準化された厳密な基盤が提供されます。

有望な初期結果:AIME問題への取り組み

これらの挑戦的なAIME問題に関する厳格なテストから得られた初期結果は、綿密に設計された特殊な定理証明モデルからの、非常に有望なパフォーマンスを明らかにしました。DeepSeekチームは、DeepSeek-Prover-V2が、提示された15個のAIME問題のうち、印象的な6個を正常に解決することで、その腕前を実証したことを誇りを持って報告しています。比較として、汎用DeepSeek-V3モデルは、多数決投票手法を使用した場合、8個の問題を正常に解決することができました。

これらの発見は、複雑な数学的問題に取り組む上での、特殊および汎用LLMの両方の可能性を強調しています。汎用モデルは、この特定のベンチマークにおいてわずかに高い成功率を示しましたが、特殊な定理証明モデルは、形式的な数学的推論におけるその熟練度を実証しました。

人間の証明構築の模倣:Chain-of-Thoughtアプローチ

「汎用モデルが完全なLean証明を生成しようとする際にしばしば遭遇する、十分に文書化された課題を考慮して、複雑な詳細を意図的に省略し、高レベルの証明スケッチのみを生成するようにDeepSeek-V3に戦略的に指示しました。結果として得られるChain-of-Thoughtは、haveステートメントのシーケンスで構成されるLean定理で最高潮に達し、それぞれが解決する必要のあるサブゴールを効果的に示すsorryプレースホルダーで綿密に締めくくられます。この革新的なアプローチは、複雑な定理が徐々により管理しやすい補題のシーケンスに削減される、人間の証明構築のスタイルを見事に反映しています」とDeepSeekチームは詳しく説明しました。

高レベルの証明スケッチを生成するというこの革新的なアプローチは、数学者が複雑な証明に取り組む方法と一致しています。全体的な構造と主要なステップに焦点を当てることで、モデルは、証明のその後の改良と完成を効果的に導くことができます。

体系的な戦略:各証明構成要素への個別対処

次に、システムは、証明の各個々の構成要素に対処するために、体系的かつ構造化された戦略を綿密に採用します。この体系的なアプローチは、証明のあらゆる側面が慎重に検討され、論理的かつ首尾一貫した方法で対処されることを保証します。システムは、以前に確立された結果に基づいて定理証明への高度に構造化されたアプローチを作成し、後続の各ステップに対する強固な基盤を保証します。

「DeepSeek-V3によって生成されたサブゴールを活用して、各中間証明ステップを体系的に解決するために、再帰的な解決戦略を採用します。haveステートメントからサブゴールの式を抽出し、それらを指定された問題の元のゴールに置き換え、次に先行するサブゴールを前提として組み込みます。この構造により、後続のサブゴールを以前のステップの中間結果を使用して解決できるようになり、よりローカライズされた依存構造が促進され、より単純な補題の開発が容易になります」と研究者たちは詳しく述べています。

再帰的な解決戦略は、システムが複雑な証明を処理する能力の重要な側面です。問題をより小さく、より管理しやすいサブゴールに分割することにより、システムは、個々の構成要素にその推論能力を効果的に適用できます。

計算リソースの最適化:特殊な7Bパラメータモデル

計算リソースを効果的に最適化し、効率的な処理を保証するために、システムは、分解された補題を処理するために、より小さく、高度に特殊化された7Bパラメータモデルを戦略的に採用します。このアプローチは、広範な証明検索に伴う計算上の要求を効果的に管理するために不可欠であり、システムが検索空間の複雑さに圧倒されることなく効率的に動作できることを保証します。このアプローチは最終的に、分解されたすべてのステップが正常に解決された場合に、自動的に導出された完全な証明で最高潮に達します。

「アルゴリズムフレームワークは、2つの異なる段階で動作し、補完的な2つのモデルを活用します。補題分解にはDeepSeek-V3、対応する形式的な証明の詳細を完了するには7Bプルーバーモデルを活用します」と研究者たちは説明しました。

この2段階のアプローチにより、システムは、大規模な汎用モデルとより小さな特殊モデルの両方の強みを活用できます。大規模なモデルは、高レベルの証明スケッチを生成するために使用され、小さなモデルは、詳細を埋めて正式な証明を完成させるために使用されます。

形式的な推論データの合成:自然な経路

この綿密に設計されたアーキテクチャは、高レベルの数学的推論と形式的な検証の厳格で厳格な要件をシームレスに融合し、 formal 推論データを合成するための自然で直感的な経路を効果的に確立します。この統合は、システムの結果の信頼性と信頼性を保証するために不可欠です。

「エンドツーエンドの方法で7Bプルーバーモデルによって未解決のままになっている、困難な問題のサブセットをキュレートしますが、分解されたすべてのサブゴールは正常に解決されています。すべてのサブゴールの証明を構成することにより、元の問題に対する完全な形式的な証明を作成します」と研究者たちは説明しました。

このアプローチにより、システムは、その間違いから学び、複雑な問題を解決する能力を向上させることができます。困難を引き起こしている特定のサブゴールを特定することにより、システムは、それらの領域でのパフォーマンスの向上に注力できます。

懸念事項と課題:精査中の実装の詳細

DeepSeek-Prover-V2によって実証された否定できない技術的な成果にもかかわらず、この分野の一部の専門家は、特定の実装の詳細に関して適切な懸念を表明しています。Epoch AIの非常に尊敬されている主任数学者であるElliot Glazerは、さらなる調査を必要とする可能性のある問題を指摘しています。

DeepSeek-Prover-V2の論文に関するいくつかの懸念事項。誤って形式化された例の可能性、およびLean zulipに関する議論は、PutnamBenchの証明はナンセンスであり、(おそらくapply?戦術に隠されている)暗黙的なsorryを使用しており、彼らのread-eval-print-loopでは報告されていないことを示唆しています。

これらの懸念事項は、形式的な検証スペースに固有の継続的な課題を鮮やかに強調しています。ここでは、ごくわずかで一見重要でない実装の詳細でさえ、結果の全体的な有効性と信頼性に不均衡に大きな影響を与える可能性があります。正式な検証プロセスには、細部への揺るぎない注意と、確立された規格の綿密な順守が必要です。

誤って形式化された例の可能性と、PutnamBenchの証明に隠れた「sorry」戦術の可能性は、検証プロセスの厳密さと完全性について重要な疑問を提起します。これらの懸念事項は、結果の継続的な精査と独立した検証の必要性を浮き彫りにしています。

可用性とリソース:形式的定理証明へのアクセスの民主化

DeepSeekは、多様な計算リソースと研究目標に対応するため、Prover-V2を2つの異なるモデルサイズで利用できるようにしました。最初のバージョンは、以前のProver-V1.5-Base上に構築された7Bパラメータモデルであり、最大32Kトークンの拡張されたコンテキスト長を備えています。2番目のバージョンは、DeepSeek-V3-Baseでトレーニングされた大幅に大きな671Bパラメータモデルです。両方のモデルは、機械学習モデルの共有とコラボレーションのための主要なプラットフォームであるHuggingFaceで、すぐにアクセスできます。

モデル自体に加えて、DeepSeekは、評価目的で325の綿密に形式化された問題を含む、完全なProverBenchデータセットもHuggingFaceで利用できるようにしました。この包括的なデータセットは、研究者や開発者に、モデルのパフォーマンスを評価し、DeepSeek-Prover-V2と比較するための貴重なリソースを提供します。

これらのリソースを無料で利用できるようにすることで、DeepSeekは формал teorema 証明技術へのアクセスを民主化し、研究コミュニティ内でのコラボレーションを促進しています。このオープンソースのアプローチは、この分野の進歩を加速させ、 автоматизиране 推論と検証における新しい進歩につながる可能性があります。

このリリースにより、研究者や開発者は、この技術の機能と制限を掘り下げるために必要なリソースを得ることができます。DeepSeekは、モデルとProverBenchデータセットへのオープンアクセスを提供することにより、この分野の専門家によって提起された懸念事項に対処するためのさらなる調査と共同努力を奨励します。この共同アプローチは、形式的な定理証明の複雑さを解きほぐし、これらの画期的な進歩の信頼性を確固たるものにする鍵を握っています。