Kimi k1.5: Mfumo wa AI unaolingana na OpenAI o1

Utangulizi wa Kimi k1.5

Katika ulimwengu wa akili bandia, hatua kubwa imefikiwa kwa kuzinduliwa kwa mfumo wa Kimi k1.5 multimodal na Moonshot AI. Mfumo huu wa kimapinduzi umeonyesha viwango vya utendaji vinavyolingana na toleo kamili la o1 la OpenAI, jambo ambalo halijawahi kufikiwa na chombo kingine chochote nje ya OpenAI. Maendeleo haya yanaashiria sura mpya katika harakati za uwezo wa hali ya juu wa AI, kuonyesha uwezo wa uvumbuzi wa ndani katika kukabiliana na ushindani wa kimataifa.

Uwezo wa Kipekee wa Kimi k1.5

Mfumo wa Kimi k1.5 unajitokeza kwa uwezo wake wa kina katika nyanja mbalimbali, ikiwa ni pamoja na hesabu, uandishi wa misimbo, na hoja za multimodal. Utendaji wake katika maeneo haya haulinganishwi tu na toleo kamili la o1 lakini, katika baadhi ya vipengele, unalizidi. Hasa, lahaja ya kimi-k1.5-short inajitokeza kama mfumo wa hali ya juu (SOTA) wa mnyororo mfupi wa mawazo (CoT), unaozidi GPT-4o na Claude 3.5 Sonnet kwa asilimia 550 ya kushangaza. Maendeleo haya muhimu yanaonyesha uwezo wa kipekee wa mfumo na uwezo wake wa kufafanua upya vigezo vya utendaji wa AI.

Uwazi na Ushirikiano wa Moonshot AI

Mafanikio ya Moonshot AI si tu hatua muhimu ya kiufundi bali ni ushuhuda wa uwazi na roho ya ushirikiano ambayo mara nyingi hukosekana katika mazingira ya ushindani wa AI. Kwa kuchapisha ripoti yao ya kiufundi, Moonshot AI inaalika jumuiya pana ya teknolojia kuchunguza, kujifunza kutoka, na kuchangia kazi yao. Hatua hii inasisitiza imani yao kwamba safari kuelekea akili bandia kwa ujumla (AGI) ni juhudi ya pamoja, inayohitaji ushiriki wa vipaji na mitazamo mbalimbali.

Utendaji wa Kimi k1.5 katika Majaribio

Upimaji wa kina wa mfumo wa Kimi k1.5 unaonyesha hali yake ya SOTA katika maeneo kadhaa muhimu. Katika hali ya long-CoT, inalingana na utendaji wa toleo rasmi la OpenAI o1 katika hesabu, uandishi wa misimbo, na hoja za multimodal. Alama zake kwenye vigezo kama AIME (77.5), MATH 500 (96.2), Codeforces (asilimia 94), na MathVista (74.9) zinaonyesha uwezo wake. Mafanikio haya yanaashiria tukio la kwanza kwa kampuni nje ya OpenAI kufikia kiwango kamili cha utendaji wa o1.

Zaidi ya hayo, katika hali ya short-CoT, mfumo wa Kimi k1.5 umeonyesha utendaji wa SOTA wa kimataifa, ukizidi kwa kiasi kikubwa GPT-4o na Claude 3.5 Sonnet. Alama zake kwenye AIME (60.8), MATH500 (94.6), na LiveCodeBench (47.3) ni ushahidi wa uwezo wake wa kipekee katika hoja fupi za mnyororo wa mawazo. Matokeo haya si nambari tu; yanawakilisha mabadiliko ya dhana katika uwezo wa mifumo ya AI ya multimodal.

Mbinu ya Ubunifu ya Moonshot AI

Uundaji wa mfumo wa Kimi k1.5 haukuwa bahati bali ni matokeo ya mbinu ya makusudi na ya ubunifu. Timu ya Moonshot AI ilitambua kwamba kuongeza tu vigezo wakati wa mafunzo ya awali hakungeweza kutoa matokeo yaliyohitajika. Walielekeza kwenye mafunzo ya baada ya mafunzo yanayotegemea kujifunza kwa kuimarisha kama eneo muhimu la kuboresha. Mbinu hii inaruhusu mfumo kupanua data yake ya mafunzo kupitia uchunguzi unaotegemea zawadi, na hivyo kuongeza uwezo wake wa kompyuta.

Mfumo wa Kujifunza kwa Kuimarisha (RL)

Ripoti ya kiufundi inaeleza uchunguzi wa timu wa mbinu za mafunzo ya kujifunza kwa kuimarisha (RL), mapishi ya data ya multimodal, na uboreshaji wa miundombinu. Mfumo wao wa RL, hasa, ni wa moja kwa moja na wenye ufanisi, ukiepuka mbinu ngumu zaidi kama vile utafutaji wa mti wa Monte Carlo na kazi za thamani. Pia walianzisha mbinu ya long2short, ambayo hutumia mifumo ya Long-CoT ili kuimarisha utendaji wa mifumo ya Short-CoT.

Vipengele Muhimu vya Mfumo wa RL

Vipengele viwili muhimu vinasaidia mfumo wa RL wa timu: kuongeza muktadha mrefu na uboreshaji wa sera. Kwa kuongeza dirisha la muktadha hadi 128k, waliona uboreshaji unaoendelea katika utendaji wa mfumo. Pia hutumia sehemu ya rollout ili kuboresha ufanisi wa mafunzo, wakitumia tena trajectories za zamani ili kupata mpya. Timu pia ilipata fomula ya kujifunza kwa kuimarisha na long-CoT, ikitumia lahaja ya kushuka kwa kioo mtandaoni kwa uboreshaji thabiti wa sera.

Mbinu ya Long2short

Mbinu ya long2short inahusisha mbinu kadhaa, ikiwa ni pamoja na kuunganisha mfumo, sampuli fupi zaidi ya kukataa, DPO, na long2short RL. Kuunganisha mfumo huchanganya mifumo ya long-CoT na short-CoT ili kufikia ufanisi bora wa tokeni. Sampuli fupi zaidi ya kukataa huchagua jibu fupi zaidi sahihi kwa urekebishaji mzuri. DPO hutumia jozi za majibu mafupi na marefu kwa data ya mafunzo. Long2short RL inahusisha awamu tofauti ya mafunzo na adhabu ya urefu.

Mtazamo wa Baadaye wa Moonshot AI

Kuangalia mbele, Moonshot AI imejitolea kuharakisha uboreshaji wa mifumo yake ya kujifunza kwa kuimarisha ya mfululizo wa k. Wanalenga kuanzisha mbinu zaidi, uwezo mpana, na uwezo mkuu ulioimarishwa. Maono haya kabambe yanawaweka kama mchezaji muhimu katika mazingira ya kimataifa ya AI, tayari kupinga utawala wa wachezaji walioanzishwa kama OpenAI.

Umuhimu wa Kimi k1.5

Mfumo wa Kimi k1.5 ni zaidi ya mafanikio ya kiteknolojia; ni ishara ya uwezo wa uvumbuzi wa ndani katika sekta ya AI. Kwa utendaji wake wa kipekee na ushiriki wazi wa maelezo yake ya mafunzo, Kimi k1.5 inaweka kiwango kipya cha maendeleo ya AI duniani kote. Matarajio ya kutolewa kwake ni makubwa, na athari zake zinatarajiwa kuwa kubwa.