DeepSeek imeanzisha DeepSeek-Prover-V2, lugha kubwa ya modeli ya lugha (LLM) ya chanzo huria iliyoundwa kwa ustadi kwa uwanja tata wa uthibitishaji rasmi wa nadharia ndani ya mfumo wa Lean 4. Model hii mpya inatumia mchakato wa uthibitishaji wa nadharia unaojirudia, ikitumia nguvu ya modeli ya msingi ya DeepSeek-V3 ya DeepSeek ya hali ya juu. Lean 4, marudio ya hivi karibuni ya prover ya nadharia ya Lean, inasimama kama msaidizi wa uthibitisho shirikishi uliotengenezwa na Microsoft Research. Lugha hii ya kisasa ya upangaji kazi na mfumo shirikishi wa uthibitishaji wa nadharia huwezesha wataalamu wa hisabati na wanasayansi wa kompyuta kuunda uthibitisho rasmi na uthibitishaji usio na kifani wa mashine.
Mradi unaashiria hatua kubwa kuelekea kuziba pengo kati ya hoja rasmi na zisizo rasmi za hisabati. Kwa kutumia uwezo asili wa LLM za madhumuni ya jumla, inataka kushughulikia kwa ufanisi uwanja ulioandaliwa sana wa uthibitishaji rasmi wa nadharia. Timu ya utafiti ya DeepSeek inadai kwamba mbinu yao bunifu inaakisi michakato ya utambuzi inayotumiwa na wataalamu wa hisabati wa kibinadamu wakati wa kujenga uthibitisho, wakitenganisha kwa ustahimilivu nadharia ngumu katika vipengele vinavyoweza kudhibitiwa na kueleweka zaidi.
Kupanua Mfumo wa Tathmini: Kuanzisha ProverBench
Katika hatua muhimu ya kuimarisha ukali wa utafiti wao, timu ya DeepSeek imepanua kwa kiasi kikubwa mfumo wao wa tathmini kwa kuanzisha ProverBench, mkusanyiko mpya kabisa wa alama za viwango ulioandaliwa kwa ustadi mahususi kwa ajili ya tathmini kamili ya uwezo rasmi wa uthibitishaji wa nadharia. Mkusanyiko huu wa kina hutumika kama rasilimali muhimu kwa ajili ya kutathmini utendaji wa LLM katika muktadha wa hisabati rasmi.
"Zaidi ya alama za viwango vya kawaida, tunajivunia kuanzisha ProverBench, mkusanyiko ulioratibiwa kwa ustahimilivu wa matatizo 325 yaliyo rasmi, ili kuboresha mchakato wetu wa tathmini. Mkusanyiko huu unajumuisha matatizo 15 yaliyochaguliwa kwa uangalifu kutoka moja kwa moja kutoka kwa Mashindano ya hivi majuzi ya Mitihani ya Mwaliko ya Hisabati ya Marekani (AIME), hasa kutoka miaka ya 24-25," watafiti walieleza.
Kujumuishwa kwa matatizo ya AIME katika hifadhidata ya ProverBench ni muhimu sana, kwani inaleta seti ya matatizo ya hisabati yenye changamoto na yaliyothibitishwa vizuri ambayo yanatambuliwa sana ndani ya jumuiya ya hisabati. Hii hutoa msingi sanifu na madhubuti wa kutathmini utendaji wa DeepSeek-Prover-V2 na kuilinganisha na mbinu zingine.
Matokeo ya Awali Yanayoahidi: Kushughulikia Matatizo ya AIME
Matokeo ya awali yanayotokana na majaribio magumu kwenye matatizo haya yenye changamoto ya AIME yamefunua utendaji unaoahidi sana kutoka kwa modeli yao maalum ya uthibitishaji wa nadharia iliyoundwa kwa ustahimilivu. Timu ya DeepSeek inaripoti kwa fahari kwamba DeepSeek-Prover-V2 ilionyesha uwezo wake kwa kutatua kwa mafanikio matatizo 6 ya AIME kati ya 15 yaliyowasilishwa kwake. Kwa kulinganisha, modeli ya madhumuni ya jumla ya DeepSeek-V3, ilipotumia mbinu za upigaji kura mwingi, ilifanikiwa kutatua matatizo 8.
Matokeo haya yanaangazia uwezo wa LLM maalum na madhumuni ya jumla katika kushughulikia matatizo tata ya hisabati. Ingawa modeli ya madhumuni ya jumla ilionyesha kiwango cha juu kidogo cha mafanikio katika alama hii mahususi ya viwango, modeli maalum ya uthibitishaji wa nadharia ilionyesha ustadi wake katika hoja rasmi za hisabati.
Kuiga Ujenzi wa Uthibitisho wa Kibinadamu: Mbinu ya Mlolongo wa Mawazo
“Kwa kuzingatia changamoto zilizoandikwa vizuri ambazo modeli za madhumuni ya jumla hukumbana nazo mara nyingi wakati wa kujaribu kutoa uthibitisho kamili wa Lean, kimkakati tuliagiza DeepSeek-V3 kutoa mchoro wa uthibitisho wa kiwango cha juu tu, tukiondoa kwa makusudi maelezo tata. Mlolongo wa mawazo unaotokana na hayo unaishia kwenye nadharia ya Lean inayojumuisha mfuatano wa taarifa za have, kila moja ikihitimishwa kwa ustahimilivu na kishika nafasi cha samahani, ikionyesha kwa ufanisi lengo dogo ambalo linahitaji kutatuliwa. Mbinu hii bunifu inaakisi kwa uzuri mtindo wa kibinadamu wa ujenzi wa uthibitisho, ambapo nadharia ngumu hupunguzwa hatua kwa hatua hadi mfuatano wa lemmu zinazoweza kudhibitiwa zaidi,” timu ya DeepSeek ilieleza.
Mbinu hii bunifu ya kutoa michoro ya uthibitisho wa kiwango cha juu inalingana na jinsi wataalamu wa hisabati wanavyoshughulikia mara nyingi uthibitisho ngumu. Kwa kuzingatia muundo wa jumla na hatua muhimu, modeli inaweza kuongoza kwa ufanisi uboreshaji na ukamilishaji wa uthibitisho unaofuata.
Mkakati wa Kimbinu: Kushughulikia Kila Kipengele cha Uthibitisho Mmoja Mmoja
Mfumo huo kisha hutumia kwa ustahimilivu mkakati wa kimbinu na uliopangwa ili kushughulikia kila kipengele cha mtu binafsi cha uthibitisho. Mbinu hii ya utaratibu inahakikisha kwamba kila kipengele cha uthibitisho kinazingatiwa kwa uangalifu na kushughulikiwa kwa njia mantiki na inayoeleweka. Mfumo huunda mbinu iliyoandaliwa sana ya uthibitishaji wa nadharia, ikijenga juu ya matokeo yaliyothibitishwa hapo awali ili kuhakikisha msingi thabiti kwa kila hatua inayofuata.
"Kwa kutumia malengo madogo yanayotokana na DeepSeek-V3, tunachukua mkakati wa utatuzi unaojirudia ili kutatua kwa utaratibu kila hatua ya uthibitisho wa kati. Tunatoa misemo ya lengo dogo kutoka kwa taarifa za have ili kuzibadilisha kwa malengo asili katika matatizo yaliyotolewa na kisha kuingiza malengo madogo yaliyotangulia kama msingi. Ujenzi huu huwezesha malengo madogo yanayofuata kutatuliwa kwa kutumia matokeo ya kati ya hatua za awali, na hivyo kukuza muundo wa utegemezi wa eneo zaidi na kuwezesha uundaji wa lemmu rahisi," watafiti walieleza kwa kina.
Mkakati wa utatuzi unaojirudia ni kipengele muhimu cha uwezo wa mfumo wa kushughulikia uthibitisho ngumu. Kwa kuvunja tatizo katika malengo madogo, yanayoweza kudhibitiwa zaidi, mfumo unaweza kutumia kwa ufanisi uwezo wake wa kufikiri kwa kila kipengele cha mtu binafsi.
Kuboresha Rasilimali za Uhesabuji: Model Maalum ya Parameta ya 7B
Ili kuboresha rasilimali za uhesabuji kwa ufanisi na kuhakikisha uchakataji bora, mfumo hutumia kimkakati modeli ndogo, maalum sana ya parameta ya 7B kwa ajili ya kuchakata lemmu zilizotengwa. Mbinu hii ni muhimu kwa ajili ya kudhibiti kwa ufanisi mahitaji ya uhesabuji yanayohusiana na utafutaji mpana wa uthibitisho, kuhakikisha kwamba mfumo unaweza kufanya kazi kwa ufanisi bila kuzidiwa na ugumu wa nafasi ya utafutaji. Mbinu hiyo hatimaye huishia kwenye uthibitisho kamili unaotokana kiotomatiki wakati hatua zote zilizotengwa zinatatuliwa kwa mafanikio.
"Mfumo wa algorithmic hufanya kazi katika hatua mbili tofauti, ukitumia modeli mbili zinazosaidiana: DeepSeek-V3 kwa ajili ya utengano wa lemmu na modeli ya prover ya 7B ili kukamilisha maelezo ya uthibitisho rasmi yanayolingana," watafiti walieleza.
Mbinu hii ya hatua mbili inaruhusu mfumo kutumia nguvu za modeli kubwa ya madhumuni ya jumla na modeli ndogo maalum. Modeli kubwa hutumiwa kutoa michoro ya uthibitisho wa kiwango cha juu, wakati modeli ndogo hutumiwa kujaza maelezo na kukamilisha uthibitisho rasmi.
Kuunganisha Data ya Hoja Rasmi: Njia Asili
Usanifu huu ulioundwa kwa ustahimilivu huweka kwa ufanisi njia asili na angavu ya kuunganisha data ya hoja rasmi, ikiunganisha kwa usawa hoja za kiwango cha juu za hisabati na mahitaji madhubuti na magumu ya uthibitishaji rasmi. Muunganisho huu ni muhimu kwa kuhakikisha uhakika na uaminifu wa matokeo ya mfumo.
"Tunaratibu kikundi kidogo cha matatizo yenye changamoto ambayo hayajatatuliwa na modeli ya prover ya 7B kwa njia ya mwisho hadi mwisho, lakini ambayo malengo madogo yote yaliyotengwa yametatuliwa kwa mafanikio. Kwa kutunga uthibitisho wa malengo madogo yote, tunaunda uthibitisho kamili-rasmi kwa tatizo asili," watafiti walieleza.
Mbinu hii inaruhusu mfumo kujifunza kutokana na makosa yake na kuboresha uwezo wake wa kutatua matatizo magumu. Kwa kutambua malengo madogo mahususi ambayo yanasababisha matatizo, mfumo unaweza kuzingatia juhudi zake katika kuboresha utendaji wake katika maeneo hayo.
Hofu na Changamoto: Maelezo ya Utekelezaji Chini ya Uangalizi
Licha ya mafanikio yasiyopingika ya kiufundi yaliyoonyeshwa na DeepSeek-Prover-V2, baadhi ya wataalamu katika uwanja huo wameibua wasiwasi muhimu kuhusu maelezo fulani ya utekelezaji. Elliot Glazer, mtaalamu wa hisabati anayeheshimika sana katika Epoch AI, ameonyesha masuala yanayoweza kuwepo ambayo yanahitaji uchunguzi zaidi.
Baadhi ya wasiwasi kuhusu karatasi ya DeepSeek-Prover-V2. Mifano iliyowekwa rasmi vibaya, na majadiliano kwenye Lean zulip yanaonyesha kuwa uthibitisho wa PutnamBench hauna maana na hutumia samahani iliyo wazi (labda imefichwa kwenye ujanja wa apply?) haijaripotiwa katika kitanzi chao cha kusoma-tathmini-chapisha.
Wasiwasi huu unaangazia wazi changamoto zinazoendelea katika nafasi rasmi ya uthibitishaji, ambapo hata maelezo madogo na yaonekana yasiyo na maana ya utekelezaji yanaweza kuwa na athari kubwa isiyo ya kawaida kwenye uhalali wa jumla na uaminifu wa matokeo. Mchakato rasmi wa uthibitishaji unahitaji umakini usioyumba kwa maelezo na uzingatiaji wa ustahimilivu kwa viwango vilivyoanzishwa.
Uwezekano wa mifano iliyowekwa rasmi vibaya na uwezekano wa mbinu zilizofichwa za "samahani" katika uthibitisho wa PutnamBench huibua maswali muhimu kuhusu ukali na ukamilifu wa mchakato wa uthibitishaji. Wasiwasi huu unasisitiza haja ya uchunguzi unaoendelea na uthibitishaji huru wa matokeo.
Upatikanaji na Rasilimali: Kurahisisha Ufikiaji wa Uthibitishaji Rasmi wa Nadharia
DeepSeek imefanya Prover-V2 yake ipatikane katika ukubwa wa modeli mbili tofauti, ikishughulikia anuwai ya rasilimali za uhesabuji na malengo ya utafiti. Toleo la kwanza ni modeli ya parameta ya 7B iliyojengwa juu ya Prover-V1.5-Base yao ya awali, iliyo na urefu wa muktadha uliopanuliwa hadi tokeni 32K. Toleo la pili ni modeli kubwa zaidi ya parameta ya 671B iliyoandaliwa kwenye DeepSeek-V3-Base. Modeli zote mbili sasa zinapatikana kwa urahisi kwenye HuggingFace, jukwaa linaloongoza la kushiriki na kushirikiana kwenye modeli za ujifunzaji mashine.
Mbali na modeli zenyewe, DeepSeek pia imefanya hifadhidata kamili ya ProverBench, iliyo na matatizo 325 yaliyowekwa rasmi kwa ustahimilivu kwa madhumuni ya tathmini, ipatikane kwenye HuggingFace. Hifadhidata hii ya kina huwapa watafiti na watengenezaji rasilimali muhimu kwa ajili ya kutathmini utendaji wa modeli zao na kuzilinganisha na DeepSeek-Prover-V2.
Kwa kufanya rasilimali hizi zipatikane bila malipo, DeepSeek inarahisisha ufikiaji wa teknolojia rasmi ya uthibitishaji wa nadharia na kukuza ushirikiano ndani ya jumuiya ya utafiti. Mbinu hii ya chanzo-mwazi ina uwezekano wa kuharakisha maendeleo katika uwanja huo na kusababisha mafanikio mapya katika hoja na uthibitishaji wa kiotomatiki.
Toleo hili huwapa watafiti na watengenezaji rasilimali zinazohitajika ili kuchunguza uwezo na mapungufu ya teknolojia hii. Kwa kutoa ufikiaji wazi kwa modeli na hifadhidata ya ProverBench, DeepSeek inahimiza uchunguzi zaidi na juhudi za ushirikiano ili kushughulikia wasiwasi ulioibuliwa na wataalamu katika uwanja huo. Mbinu hii ya ushirikiano ndiyo ufunguo wa kufumbua utata wa uthibitishaji rasmi wa nadharia na kuimarisha uaminifu wa maendeleo haya ya msingi.