DeepSeek представила DeepSeek-Prover-V2, революционную модель большого языка с открытым исходным кодом (LLM), тщательно разработанную для сложной области формальных доказательств теорем в рамках Lean 4. Эта новая модель использует рекурсивный конвейер доказательства теорем, используя возможности современной базовой модели DeepSeek-V3 от DeepSeek. Lean 4, последняя итерация доказывателя теорем Lean, представляет собой интерактивный помощник по доказательствам, разработанный Microsoft Research. Этот сложный язык функционального программирования и система интерактивного доказательства теорем позволяет математикам и специалистам по компьютерным наукам строить формальные доказательства с беспрецедентной машинной проверкой.
Проект знаменует собой монументальный шаг к преодолению разрыва между формальными и неформальными математическими рассуждениями. Используя неотъемлемые возможности LLM общего назначения, он стремится эффективно решать высокоструктурированную область формального доказательства теорем. Исследовательская группа DeepSeek постулирует, что их инновационный подход отражает когнитивные процессы, используемые учеными-математиками при построении доказательств, тщательно разделяя сложные теоремы на более управляемые и понятные компоненты.
Расширение среды оценки: представляем ProverBench
В рамках значительного шага по повышению строгости своих исследований команда DeepSeek значительно расширила свою среду оценки, представив ProverBench, совершенно новый набор тестов, тщательно разработанный специально для всесторонней оценки возможностей формального доказательства теорем. Эта всеобъемлющая коллекция служит ценным ресурсом для оценки производительности LLM в контексте формальной математики.
"Помимо традиционных тестов, мы с гордостью представляем ProverBench, тщательно разработанный набор из 325 формализованных задач, чтобы обогатить наш процесс оценки. Эта коллекция включает в себя 15 тщательно отобранных задач, взятых непосредственно из недавних Американских пригласительных математических экзаменов (AIME), в частности, за 24–25 годы", — пояснили исследователи.
Включение задач AIME в набор данных ProverBench особенно примечательно, поскольку оно представляет собой набор сложных и хорошо зарекомендовавших себя математических задач, широко признанных в математическом сообществе. Это обеспечивает стандартизированную и строгую основу для оценки производительности DeepSeek-Prover-V2 и его сравнения с другими подходами.
Многообещающие начальные результаты: решение задач AIME
Первоначальные результаты, полученные в результате тщательного тестирования этих сложных задач AIME, выявили исключительно многообещающую производительность их тщательно разработанной специализированной модели доказательства теорем. Команда DeepSeek с гордостью сообщает, что DeepSeek-Prover-V2 продемонстрировала свое мастерство, успешно решив впечатляющие 6 из 15 задач AIME, представленных ей. Для сравнения, модель DeepSeek-V3 общего назначения при использовании методов мажоритарного голосования сумела успешно решить 8 задач.
Эти результаты подчеркивают потенциал как специализированных, так и общецелевых LLM в решении сложных математических задач. В то время как модель общего назначения продемонстрировала несколько более высокий уровень успеха в этом конкретном тесте, специализированная модель доказательства теорем продемонстрировала свое умение в формальных математических рассуждениях.
Имитация построения человеческих доказательств: подход Chain-of-Thought
"Учитывая хорошо задокументированные проблемы, с которыми часто сталкиваются модели общего назначения при попытке получить полные доказательства Lean, мы стратегически поручили DeepSeek-V3 генерировать только эскиз доказательства высокого уровня, намеренно опуская сложные детали. Полученная цепочка мыслей завершается теоремой Lean, состоящей из последовательности утверждений have, каждое из которых тщательно завершается заполнителем sorry, эффективно указывающим на подцель, которую необходимо решить. Этот инновационный подход изящно отражает человеческий стиль построения доказательств, в котором сложная теорема постепенно сводится к последовательности более управляемых лемм", — пояснила команда DeepSeek.
Этот инновационный подход к созданию эскизов доказательств высокого уровня соответствует тому, как математики часто подходят к сложным доказательствам. Сосредоточившись на общей структуре и ключевых шагах, модель может эффективно направлять последующую доработку и завершение доказательства.
Методическая стратегия: индивидуальное рассмотрение каждого компонента доказательства
Затем система тщательно использует методическую и структурированную стратегию для решения каждого отдельного компонента доказательства. Этот систематический подход гарантирует, что каждый аспект доказательства тщательно рассматривается и рассматривается логичным и последовательным образом. Система создает высокоструктурированный подход к доказательству теорем, опираясь на ранее установленные результаты для обеспечения прочной основы для каждого последующего шага.
"Используя подцели, сгенерированные DeepSeek-V3, мы применяем рекурсивную стратегию решения для систематического решения каждого промежуточного этапа доказательства. Мы извлекаем выражения подцелей из утверждений have, чтобы заменить их исходными целями в данных задачах, а затем включаем предыдущие подцели в качестве предпосылок. Эта конструкция позволяет разрешать последующие подцели с использованием промежуточных результатов более ранних шагов, тем самым способствуя более локализованной структуре зависимостей и облегчая разработку более простых лемм", — подробно рассказали исследователи.
Рекурсивная стратегия решения является ключевым аспектом способности системы обрабатывать сложные доказательства. Разбив задачу на более мелкие, более управляемые подцели, система может эффективно применять свои возможности рассуждения к каждому отдельному компоненту.
Оптимизация вычислительных ресурсов: специализированная модель с 7B параметрами
Чтобы эффективно оптимизировать вычислительные ресурсы и обеспечить эффективную обработку, система стратегически использует меньшую, узкоспециализированную модель с 7B параметрами для обработки декомпозированных лемм. Этот подход имеет решающее значение для эффективного управления вычислительными потребностями, связанными с обширным поиском доказательств, гарантируя, что система может работать эффективно, не перегружаясь сложностью поискового пространства. В конечном итоге подход завершается автоматически полученным полным доказательством, когда все декомпозированные шаги успешно решены.
"Алгоритмическая основа работает в два отдельных этапа, используя две взаимодополняющие модели: DeepSeek-V3 для разложения лемм и модель prove