Tencent Hunyuan-T1: Mamba తో AI రీజనింగ్‌లో కొత్త శకం

పెద్ద భాషా నమూనా ఆప్టిమైజేషన్ యొక్క అభివృద్ధి చెందుతున్న ప్రకృతి దృశ్యం

కృత్రిమ మేధస్సు రంగం ఒక నమూనా మార్పును చూస్తోంది, ముఖ్యంగా పెద్ద భాషా నమూనాల (LLMs) ప్రారంభ శిక్షణ తర్వాత శుద్ధీకరణ దశలలో. రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL), బహుమతుల ద్వారా మార్గనిర్దేశం చేయబడిన ప్రయత్నం మరియు లోపం ద్వారా నమూనాలు నేర్చుకునే ఒక అధునాతన సాంకేతికత, గణనీయమైన పనితీరు లాభాలను నడిపించే శక్తివంతమైన శక్తిగా ఉద్భవించింది. ఈ విధానం విద్యాసంబంధమైన ఉత్సుకత నుండి ప్రముఖ AI డెవలపర్‌లకు మూలస్తంభ వ్యూహంగా మారింది. OpenAI యొక్క O-సిరీస్ మరియు గుర్తించదగిన DeepSeek R1 వంటి నమూనాల ద్వారా ప్రదర్శించబడిన ఆకట్టుకునే సామర్థ్యాలు బలవంతపు సాక్ష్యంగా పనిచేస్తాయి, నమూనా అవుట్‌పుట్‌లను మెరుగుపరచడంలో, సమస్య-పరిష్కార నైపుణ్యాలను మెరుగుపరచడంలో మరియు AI ప్రవర్తనను మానవ అంచనాలు మరియు ప్రాధాన్యతలతో మరింత దగ్గరగా సమలేఖనం చేయడంలో రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ యొక్క కీలక పనితీరును నొక్కి చెబుతుంది. ఈ పోస్ట్-ట్రైనింగ్ దశ కేవలం ఫైన్-ట్యూనింగ్ గురించి మాత్రమే కాదు; ఇది ప్రాథమికంగా నమూనా యొక్క అభిజ్ఞా పరాక్రమాన్ని మెరుగుపరచడం గురించి.

Hunyuan-T1 పరిచయం: డీప్ థింకింగ్ సామర్థ్యాలలో ఒక ముందడుగు

వేగవంతమైన పురోగతి యొక్క ఈ నేపథ్యంలో, Tencent యొక్క Hunyuan బృందం ఒక ముఖ్యమైన మైలురాయిని గుర్తించింది. ఈ సంవత్సరం ప్రారంభంలో, ఫిబ్రవరి మధ్యలో, బృందం Hunyuan T1-Preview (Hunyuan-Thinker-1-Preview)తో వారి పురోగతిని ఒక సంగ్రహావలోకనం అందించింది. Tencent Yuanbao అప్లికేషన్‌లో విలీనం చేయబడిన, మధ్యస్థ-స్థాయి Hunyuan బేస్‌పై నిర్మించబడిన ఈ ప్రారంభ రీజనింగ్ మోడల్, వినియోగదారులకు వేగవంతమైన మరియు లోతైన విశ్లేషణాత్మక సామర్థ్యాల రుచిని అందించింది.

ఆ పునాదిపై నిర్మిస్తూ, మేము ఇప్పుడు Hunyuan-T1 యొక్క అధికారిక ప్రారంభాన్ని ప్రకటించడానికి గర్విస్తున్నాము, ఇది Hunyuan పెద్ద మోడల్ కుటుంబంలో లోతైన ఆలోచనా నమూనా యొక్క పూర్తిగా గ్రహించబడిన సంస్కరణ. ఇది కేవలం ఒక పెరుగుతున్న నవీకరణ కాదు; ఇది గణనీయమైన పరిణామాన్ని సూచిస్తుంది. Hunyuan-T1 TurboS ఫాస్ట్-థింకింగ్ బేస్ను ప్రభావితం చేస్తుంది, ఇది మార్చి ప్రారంభంలో Tencent ద్వారా పరిచయం చేయబడిన ఒక అద్భుతమైన ఆర్కిటెక్చర్. TurboSను ప్రత్యేకంగా గుర్తించదగినది ఏమిటంటే, ఇది ప్రపంచంలోని మొట్టమొదటి అల్ట్రా-లార్జ్-స్కేల్ హైబ్రిడ్-ట్రాన్స్‌ఫార్మర్-మాంబా మిక్స్చర్ ఆఫ్ ఎక్స్‌పర్ట్స్ (MoE) పెద్ద మోడల్‌గా దాని వ్యత్యాసం. ఈ వినూత్న హైబ్రిడ్ నిర్మాణం స్థాపించబడిన Transformer ఆర్కిటెక్చర్‌ల బలాన్ని కొత్త Mamba స్టేట్ స్పేస్ మోడల్ యొక్క సామర్థ్యం మరియు సీక్వెన్స్-హ్యాండ్లింగ్ పరాక్రమంతో మిళితం చేస్తుంది. విస్తృతమైన మరియు సూక్ష్మంగా రూపొందించిన పోస్ట్-ట్రైనింగ్ నియమావళి ద్వారా, Hunyuan-T1 యొక్క రీజనింగ్ ఫ్యాకల్టీలు నాటకీయంగా విస్తరించబడ్డాయి మరియు సూక్ష్మమైన మానవ ప్రాధాన్యతలతో దాని సమలేఖనం గణనీయంగా శుద్ధి చేయబడింది. దాని ప్రివ్యూ పూర్వీకులతో పోలిస్తే, అధికారిక Hunyuan-T1 బోర్డు అంతటా గుర్తించబడిన మెరుగుదలలను ప్రదర్శిస్తుంది, ఇది పరిశ్రమ యొక్క ప్రముఖ-అంచు, అధిక-రీజనింగ్ పెద్ద నమూనాలలో ఒక బలీయమైన పోటీదారుగా నిలుస్తుంది.

నిర్మాణ ప్రయోజనాలు: TurboS మరియు Mamba యొక్క శక్తి

Hunyuan-T1 కోసం పునాదిగా TurboS ఎంపిక ప్రత్యేక ప్రయోజనాలను అందిస్తుంది, ముఖ్యంగా లోతైన, బహుళ-దశల రీజనింగ్ అవసరమయ్యే పనులను పరిష్కరించేటప్పుడు. అనేక పెద్ద భాషా నమూనాలలో ఒక క్లిష్టమైన అడ్డంకి విస్తృతమైన పత్రాలు లేదా సుదీర్ఘ సంభాషణలతో వ్యవహరించేటప్పుడు తలెత్తుతుంది. ప్రారంభంలో సమర్పించబడిన సమాచారం మోడల్ తదుపరి వచనాన్ని ప్రాసెస్ చేస్తున్నప్పుడు పలుచన కావచ్చు లేదా పూర్తిగా కోల్పోవచ్చు, ఇది కాంటెక్స్ట్ లాస్ అని పిలువబడే దానికి దారితీస్తుంది. ఇంకా, టెక్స్ట్ యొక్క పెద్ద విస్తీర్ణాల ద్వారా వేరు చేయబడిన పాయింట్ల మధ్య కనెక్షన్‌లను స్థాపించడం - లాంగ్-డిస్టెన్స్ ఇన్ఫర్మేషన్ డిపెండెన్స్ - గణనీయమైన గణన సవాలును విసిరింది.

TurboS నుండి వారసత్వంగా పొందిన Hunyuan-T1కు ఆధారమైన ఆర్కిటెక్చర్, ఈ పరిమితులను నేరుగా ఎదుర్కొంటుంది. దాని స్వాభావిక రూపకల్పన బలమైన లాంగ్-టెక్స్ట్ క్యాప్చర్కు ప్రాధాన్యతనిస్తుంది, మోడల్ ఇన్‌పుట్ యొక్క మొత్తంపై దృఢమైన పట్టును కలిగి ఉందని నిర్ధారిస్తుంది, తద్వారా కాంటెక్స్ట్ లాస్‌ను తగ్గిస్తుంది మరియు విస్తరించిన సీక్వెన్స్‌లలో కీలకమైన సంబంధాలను మరింత విశ్వసనీయంగా గుర్తిస్తుంది. ఈ సామర్థ్యం సంక్లిష్టమైన రీజనింగ్ పనులకు కీలకం, దీనికి తరచుగా పెద్ద కార్పస్ ఆఫ్ టెక్స్ట్‌లో చెల్లాచెదురుగా ఉన్న సమాచారాన్ని సంశ్లేషణ చేయడం అవసరం.

ఈ మెరుగైన సామర్థ్యానికి కేంద్రంగా Mamba ఆర్కిటెక్చర్ కాంపోనెంట్ ఉంది. Mamba అనేక Transformer మోడళ్లలో ఆధిపత్యం చెలాయించే పూర్తిగా అటెన్షన్-ఆధారిత మెకానిజమ్‌ల నుండి నిష్క్రమణను సూచిస్తుంది. ఇది స్టేట్ స్పేస్ మోడల్ (SSM) విధానాన్ని ఉపయోగిస్తుంది, ప్రత్యేకంగా సుదీర్ఘ సీక్వెన్స్‌లను అద్భుతమైన సామర్థ్యంతో ప్రాసెస్ చేయడానికి ఆప్టిమైజ్ చేయబడింది. ముఖ్య ప్రయోజనాలు:

  • లీనియర్ టైమ్ కాంప్లెక్సిటీ: సీక్వెన్స్ పొడవుకు సంబంధించి ప్రామాణిక అటెన్షన్ మెకానిజమ్‌ల క్వాడ్రాటిక్ కాంప్లెక్సిటీ వలె కాకుండా, Mamba సరళంగా స్కేల్ అవుతుంది. ఇది నిషేధిత వనరుల డిమాండ్లు లేకుండా గణనపరంగా చాలా పొడవైన టెక్స్ట్‌లను ప్రాసెస్ చేయడాన్ని సాధ్యం చేస్తుంది.
  • సమర్థవంతమైన గణన: Mamba డిజైన్ శిక్షణ సమయంలో సమాంతరీకరించదగిన గణనలను మరియు అనుమితి సమయంలో సమర్థవంతమైన పునరావృత కార్యకలాపాలను అనుమతిస్తుంది. ఇది నేరుగా వేగవంతమైన ప్రాసెసింగ్ వేగాలకు అనువదిస్తుంది.
  • సెలెక్టివ్ స్టేట్ మేనేజ్‌మెంట్: Mamba మోడల్‌లు ఒక సీక్వెన్స్‌ను ప్రాసెస్ చేస్తున్నప్పుడు సమాచారాన్ని ఎంపికగా నిలుపుకోవచ్చు లేదా మరచిపోవచ్చు, కాంటెక్స్ట్ మేనేజ్‌మెంట్‌కు మరింత కేంద్రీకృత విధానాన్ని అనుకరిస్తుంది, ఇది సుదూరాలలో సంబంధిత సమాచారాన్ని నిర్వహించడానికి చాలా ముఖ్యమైనది.

పర్యవసానంగా, TurboS, మరియు పొడిగింపు ద్వారా Hunyuan-T1, సారూప్య స్కేల్ యొక్క సాంప్రదాయ Transformer మోడళ్లతో పోలిస్తే గణనీయంగా తక్కువ గణన వనరులను వినియోగిస్తూ సుదీర్ఘ ఇన్‌పుట్‌లను సమర్థవంతంగా విశ్లేషించగలదు. అంతర్గత బెంచ్‌మార్క్‌లు ఒకే విస్తరణ పరిస్థితులలో, Hunyuan-T1 Mamba ఆప్టిమైజేషన్ లేని పోల్చదగిన మోడళ్ల కంటే రెండు రెట్లు వేగవంతమైన డీకోడింగ్ వేగాన్ని సాధిస్తుందని సూచిస్తున్నాయి, ఇది సకాలంలో ప్రతిస్పందనలు అవసరమయ్యే వాస్తవ-ప్రపంచ అనువర్తనాలకు కీలకమైన అంశం.

పోస్ట్-ట్రైనింగ్ క్రూసిబుల్: రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌తో రీజనింగ్ పరాక్రమాన్ని రూపొందించడం

బేస్ TurboS మోడల్ నుండి అత్యంత సామర్థ్యం గల Hunyuan-T1కి పరివర్తన భారీ మరియు వ్యూహాత్మకంగా కేంద్రీకృత పోస్ట్-ట్రైనింగ్ దశను కలిగి ఉంది. అధునాతన అభ్యాస పద్ధతుల యొక్క కీలక పాత్రను గుర్తించి, Tencent ఈ దశ కోసం కేటాయించిన గణన వనరులలో అసాధారణమైన 96.7% ప్రత్యేకంగా రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ శిక్షణకు అంకితం చేసింది. ఈ అపారమైన పెట్టుబడి స్పష్టమైన వ్యూహాత్మక ప్రాధాన్యతను నొక్కి చెబుతుంది: మోడల్ యొక్క స్వచ్ఛమైన రీజనింగ్ సామర్థ్యాలను పెంచడం మరియు సంక్లిష్ట మానవ తీర్పులు మరియు ప్రాధాన్యతలతో దాని అవుట్‌పుట్‌లను సూక్ష్మంగా సమలేఖనం చేయడం.

ఇది కేవలం మోడల్‌కు ఎక్కువ డేటాను అందించడం గురించి కాదు; ఇది ఎలా మరింత సమర్థవంతంగా ఆలోచించాలో నేర్పించడం గురించి. ఈ RL-ఇంటెన్సివ్ దశ యొక్క ప్రధాన లక్ష్యాలు రెండు రెట్లు:

  1. స్వచ్ఛమైన రీజనింగ్‌ను మెరుగుపరచడం: విభిన్న డొమైన్‌లలో తార్కిక తగ్గింపు, గణిత గణన, కారణ అనుమితి మరియు సంక్లిష్ట సమస్య-పరిష్కారం చేసే మోడల్ సామర్థ్యం యొక్క సరిహద్దులను నెట్టడం.
  2. మానవ సమలేఖనాన్ని ఆప్టిమైజ్ చేయడం: మోడల్ యొక్క ప్రతిస్పందనలు ఖచ్చితమైనవి మాత్రమే కాకుండా, సహాయకరంగా, హానికరం కానివి, నిజాయితీగా మరియు మానవ వినియోగదారులతో ప్రతిధ్వనించే విధంగా సూక్ష్మంగా ఉన్నాయని నిర్ధారించడం. ఇందులో అవ్యక్త ఉద్దేశ్యాన్ని అర్థం చేసుకోవడం, పొందికైన మరియు సందర్భోచితంగా తగిన అవుట్‌పుట్‌లను రూపొందించడం మరియు భద్రతా మార్గదర్శకాలకు కట్టుబడి ఉండటం వంటివి ఉంటాయి.

ఈ డిమాండ్ శిక్షణా ప్రక్రియకు ఆజ్యం పోయడానికి, విస్తారమైన మరియు విభిన్నమైన డేటాసెట్ సూక్ష్మంగా క్యూరేట్ చేయబడింది. ఈ సేకరణ ప్రపంచ విజ్ఞాన శాస్త్రం మరియు రీజనింగ్ సమస్యలను కలిగి ఉంది, ఇది విస్తృత శ్రేణి విభాగాలను కలిగి ఉంది:

  • గణితం: ప్రాథమిక అంకగణితం మరియు బీజగణితం నుండి కాలిక్యులస్, సంఖ్యా సిద్ధాంతం మరియు అధునాతన పోటీ-స్థాయి సమస్యల వరకు.
  • తార్కిక రీజనింగ్: పజిల్స్, డిడక్టివ్ రీజనింగ్ టాస్క్‌లు, క్రిటికల్ థింకింగ్ ఛాలెంజ్‌లు మరియు ఫార్మల్ లాజిక్ సమస్యలు.
  • సైన్స్: భౌతిక శాస్త్రం, రసాయన శాస్త్రం, జీవశాస్త్రం మరియు ఇతర శాస్త్రీయ రంగాలను కవర్ చేసే ప్రశ్నలు మరియు సమస్యలు, తరచుగా బహుళ-దశల రీజనింగ్ మరియు సూత్రాల అనువర్తనం అవసరం.
  • కోడింగ్: అల్గోరిథం డిజైన్, కోడ్ జనరేషన్, డీబగ్గింగ్ మరియు వివిధ భాషలలో సంక్లిష్ట ప్రోగ్రామింగ్ లాజిక్‌ను అర్థం చేసుకోవడం.

కీలకంగా, ఈ డేటా గ్రౌండ్-ట్రూత్ రియల్ ఫీడ్‌బ్యాక్తో కలపబడింది. ఈ ఫీడ్‌బ్యాక్ లూప్ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌కు అవసరం, ఏ రీజనింగ్ మార్గాలు సరైన లేదా ఇష్టపడే ఫలితాలకు దారితీస్తాయో అర్థం చేసుకోవడానికి మోడల్‌కు అవసరమైన సిగ్నల్‌ను అందిస్తుంది. ఈ కఠినమైన గ్రౌండింగ్ వాస్తవ-ప్రపంచ దృశ్యాలలో ఎదురయ్యే విస్తృత శ్రేణి సవాలు రీజనింగ్ పనులతో ఎదుర్కొన్నప్పుడు Hunyuan-T1 ప్రదర్శించదగిన నైపుణ్యాన్ని అభివృద్ధి చేస్తుందని నిర్ధారిస్తుంది.

అధునాతన శిక్షణా పద్ధతులు

గణన పెట్టుబడి మరియు డేటా సేకరణ యొక్క పూర్తి స్థాయి అభ్యాస సామర్థ్యం మరియు మోడల్ స్థిరత్వాన్ని పెంచడానికి రూపొందించిన అధునాతన శిక్షణా వ్యూహాలతో జత చేయబడింది.

  • కరికులం లెర్నింగ్: మోడల్‌ను అత్యంత సంక్లిష్టమైన సమస్యలతో వెంటనే ముంచెత్తడానికి బదులుగా, కరికులం లెర్నింగ్ విధానం అవలంబించబడింది. శిక్షణ సరళమైన పనులతో ప్రారంభమైంది మరియు క్రమంగా మరింత కష్టమైన సమస్యలను పరిచయం చేసింది. ఏకకాలంలో, మోడల్ యొక్క సమర్థవంతమైన కాంటెక్స్ట్ పొడవు క్రమంగా విస్తరించబడింది. ఈ దశలవారీ విధానం మోడల్ మరింత అధునాతన సవాళ్లను పరిష్కరించడానికి ముందు పునాది రీజనింగ్ నైపుణ్యాలను నిర్మించడానికి అనుమతిస్తుంది, మరింత స్థిరమైన మరియు సమర్థవంతమైన అభ్యాసాన్ని ప్రోత్సహిస్తుంది. ఇది సమర్థవంతమైన రీజనింగ్ కోసం దాని టోకెన్ సామర్థ్యాన్ని వివేకంతో ఉపయోగించుకోవడానికి మోడల్‌కు శిక్షణ ఇస్తుంది, దాని ఆలోచనా ప్రక్రియలో గణన సామర్థ్యం యొక్క రూపాన్ని అభివృద్ధి చేస్తుంది.
  • అధునాతన రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ టెక్నిక్స్: సుదీర్ఘమైన RL శిక్షణ సమయంలో బలమైన మరియు స్థిరమైన పురోగతిని నిర్ధారించడానికి, క్లాసిక్ ఇంకా శక్తివంతమైన వ్యూహాలు ఉపయోగించబడ్డాయి. డేటా రీప్లే (అభ్యాసాన్ని బలోపేతం చేయడానికి గత అనుభవాలను తిరిగి ఉపయోగించడం) మరియు ఆవర్తన పాలసీ రీసెట్టింగ్ (విభేదాలను నివారించడానికి అప్పుడప్పుడు మునుపటి, స్థిరమైన మోడల్ స్థితులకు తిరిగి రావడం) వంటి పద్ధతులు విలీనం చేయబడ్డాయి. ఈ పద్ధతులు అత్యంత ప్రభావవంతంగా నిరూపించబడ్డాయి, పెద్ద-స్థాయి RL ప్రయత్నాలను పీడించే విపత్తు మతిమరుపు లేదా పాలసీ పతనం వంటి సమస్యలను తగ్గించడం ద్వారా మోడల్ శిక్షణా ప్రక్రియ యొక్క దీర్ఘకాలిక స్థిరత్వాన్ని 50% కంటే ఎక్కువ గణనీయంగా పెంచాయి.
  • యూనిఫైడ్ రివార్డ్ సిస్టమ్: మానవ ప్రాధాన్యతలతో మోడల్‌ను సమలేఖనం చేయడం సంక్లిష్టమైన పని. Hunyuan-T1 ఒక నవల యూనిఫైడ్ రివార్డ్ సిస్టమ్ను ఉపయోగించింది. ఈ వ్యవస్థ రెండు మూలాల నుండి అభిప్రాయాన్ని విలీనం చేసింది:
    • సెల్ఫ్-రివార్డింగ్: శిక్షణ పొందుతున్న మోడల్ యొక్క అవుట్‌పుట్‌లను సమగ్రంగా మూల్యాంకనం చేయడానికి మరియు స్కోర్ చేయడానికి T1-ప్రివ్యూ మోడల్ యొక్క మునుపటి సంస్కరణ ఆటోమేటెడ్ జడ్జిగా ఉపయోగించబడింది. ఇది ముందే నిర్వచించిన ప్రమాణాల ఆధారంగా వేగవంతమైన, పెద్ద-స్థాయి ఫీడ్‌బ్యాక్ ఉత్పత్తిని అనుమతిస్తుంది.
    • రివార్డ్ మోడల్: మానవ ప్రాధాన్యతలను అంచనా వేయడానికి ప్రత్యేకంగా శిక్షణ పొందిన ఒక ప్రత్యేక మోడల్ నాణ్యత, సహాయకత మరియు భద్రత యొక్క మరింత సూక్ష్మ అంశాలను సంగ్రహిస్తూ అదనపు మార్గదర్శక పొరను అందించింది.
      ఈ మిశ్రమ ఫీడ్‌బ్యాక్ మెకానిజం స్వీయ-అభివృద్ధి ప్రక్రియ ద్వారా మోడల్‌కు మార్గనిర్దేశం చేసింది, ధనిక కంటెంట్ వివరాలు, మరింత సమర్థవంతమైన సమాచార డెలివరీ మరియు కావలసిన ప్రతిస్పందన లక్షణాలతో మెరుగైన మొత్తం సమలేఖనంతో వర్గీకరించబడిన అవుట్‌పుట్‌లను ప్రోత్సహిస్తుంది.

పనితీరు బెంచ్‌మార్క్‌లు: ఉన్నత వర్గాలలో ఉన్నతంగా నిలవడం

ఒక పెద్ద భాషా నమూనా యొక్క అంతిమ కొలత దాని పనితీరులో ఉంటుంది. Hunyuan-T1 పబ్లిక్ బెంచ్‌మార్క్‌లు మరియు అంతర్గత డేటాసెట్‌ల బ్యాటరీకి వ్యతిరేకంగా కఠినంగా మూల్యాంకనం చేయబడింది, సమకాలీన AI మోడళ్ల యొక్క అగ్ర శ్రేణిలో దానిని దృఢంగా ఉంచే సామర్థ్యాలను ప్రదర్శిస్తుంది.

మరొక అత్యంత గౌరవనీయమైన రీజనింగ్-ఫోకస్డ్ మోడల్ అయిన DeepSeek R1తో పోల్చినప్పుడు, Hunyuan-T1 వివిధ భాషలు మరియు డొమైన్‌లలో జ్ఞానం మరియు రీజనింగ్‌ను అంచనా వేసే అనేక కీలక పబ్లిక్ బెంచ్‌మార్క్‌లలో పోల్చదగిన లేదా కొద్దిగా ఉన్నతమైన ఫలితాలను సాధిస్తుంది:

  • MMLU-pro: విభిన్న వృత్తిపరమైన మరియు విద్యా విషయాలలో సమగ్ర జ్ఞానం మరియు రీజనింగ్‌ను మూల్యాంకనం చేయడానికి రూపొందించిన సవాలు బెంచ్‌మార్క్.
  • CEval: ఒక బహుళ-క్రమశిక్షణా చైనీస్ భాషా మూల్యాంకన సూట్.
  • AIME: అధునాతన రీజనింగ్ అవసరమయ్యే పోటీ-స్థాయి గణిత సమస్యలపై దృష్టి సారించడం.
  • Zebra Logic: సంక్లిష్ట తార్కిక తగ్గింపు పజిల్స్‌ను ప్రత్యేకంగా లక్ష్యంగా చేసుకునే బెంచ్‌మార్క్.

ఈ నిర్దిష్ట పరీక్షలకు మించి, అంతర్గత మానవ మూల్యాంకన డేటాసెట్‌లు మరిన్ని అంతర్దృష్టులను అందిస్తాయి. అనేక రంగాలలో R1తో సమానంగా పని చేస్తున్నప్పుడు, Hunyuan-T1 దీనికి సంబంధించిన పనులలో కొద్దిపాటి ప్రయోజనాన్ని ప్రదర్శిస్తుంది:

  • సాంస్కృతిక మరియు సృజనాత్మక సూచనల అనుసరణ: సృజనాత్మక టెక్స్ట్ ఫార్మాట్‌లను రూపొందించడం, సాంస్కృతిక సూక్ష్మ నైపుణ్యాలతో నిర్దిష్ట శైలీకృత అభ్యర్థనలకు అనుగుణంగా మారడం.
  • టెక్స్ట్ సారాంశం: కీలక సమాచారాన్ని సంరక్షిస్తూ సుదీర్ఘ పత్రాల సంక్షిప్త మరియు ఖచ్చితమైన సారాంశాలను రూపొందించడం.
  • ఏజెంట్ సామర్థ్యాలు: ప్రణాళిక, సాధన వినియోగం మరియు బాహ్య వ్యవస్థలతో పరస్పర చర్య అవసరమయ్యే పనులలో నైపుణ్యాన్ని ప్రదర్శించడం.

మొత్తం సామర్థ్యాన్ని అంచనా వేయడానికి రూపొందించిన సమగ్ర మూల్యాంకన కొలమానాలను చూస్తే, Hunyuan-T1 ఉన్నత అనుమితి నమూనాలలో తన స్థానాన్ని పటిష్టం చేసుకుంటుంది.

  • MMLU-PROలో, T1 87.2 యొక్క అద్భుతమైన స్కోర్‌ను సాధించింది, మూల్యాంకన సమయంలో OpenAI యొక్క O1 మోడల్ తర్వాత రెండవ స్థానంలో ఉంది. ఈ బెంచ్‌మార్క్ మానవీయ శాస్త్రాలు, సామాజిక శాస్త్రాలు మరియు STEM సబ్జెక్టులతో సహా 14 రంగాలను విస్తరించింది, విస్తృత జ్ఞాన రీకాల్ మరియు అవగాహన రెండింటినీ పరీక్షిస్తుంది.
  • GPQA-diamondపై పనితీరు కూడా గుర్తించదగినది. ఈ బెంచ్‌మార్క్ నిపుణుల-స్థాయి జ్ఞానం మరియు క్లిష్టమైన శాస్త్రీయ రీజనింగ్‌పై దృష్టి పెడుతుంది, ప్రధానంగా భౌతిక శాస్త్రం, రసాయన శాస్త్రం మరియు జీవశాస్త్రంలో డాక్టోరల్-స్థాయి సమస్యలను కలిగి ఉంటుంది. Hunyuan-T1 69.3 స్కోర్‌ను సాధించింది, ఇది అత్యంత ప్రత్యేకమైన మరియు సంక్లిష్టమైన శాస్త్రీయ ప్రశ్నలను నిర్వహించడంలో బలమైన సామర్థ్యాలను సూచిస్తుంది.

సైన్స్, ఇంజనీరింగ్ మరియు అలైన్‌మెంట్‌లో రాణించడం

మరిన్ని మూల్యాంకనాలు బలమైన రీజనింగ్ సామర్థ్యాలు అవసరమయ్యే నిర్దిష్ట ప్రాంతాలలోకి ప్రవేశించాయి:

  • కోడింగ్: ఆచరణాత్మక కోడింగ్ సమస్య-పరిష్కారాన్ని పరీక్షించే LiveCodeBench కోడ్ మూల్యాంకనంలో, T1 64.9 స్కోర్‌ను చేరుకుంది, ఇది ఘన ప్రోగ్రామింగ్ లాజిక్ మరియు కోడ్ జనరేషన్ నైపుణ్యాలను ప్రదర్శిస్తుంది.
  • గణితం: మోడల్ గణితంలో అసాధారణ బలాన్ని చూపుతుంది. సవాలు గణిత సమస్యల డేటాసెట్ అయిన MATH-500పై దాని పనితీరు 96.2 యొక్క అత్యుత్తమ స్కోర్‌ను ఇచ్చింది. ఈ ఫలితం దానిని DeepSeek R1తో సమానంగా ఉంచుతుంది, సంక్లిష్ట గణిత రీజనింగ్‌ను పరిష్కరించడంలో Hunyuan-T1 యొక్క లోతైన సామర్థ్యాన్ని హైలైట్ చేస్తుంది.
  • అలైన్‌మెంట్ మరియు ఇన్‌స్ట్రక్షన్ ఫాలోయింగ్: స్వచ్ఛమైన సమస్య-పరిష్కారానికి మించి, T1 వివిధ అలైన్‌మెంట్ పనులలో బలమైన అనుకూలతను ప్రదర్శిస్తుంది. ఇది ఇన్‌స్ట్రక్షన్-ఫాలోయింగ్ దృశ్యాలలో రాణిస్తుంది మరియు అవసరమైనప్పుడు సాధనాలను ఉపయోగించడంలో నైపుణ్యాన్ని ప్రదర్శిస్తుంది. ఉదాహరణకు, సవాలుగా ఉండే, వినియోగదారు-సృష్టించిన ప్రాంప్ట్‌లపై పనితీరును మూల్యాంకనం చేయడానికి రూపొందించిన ArenaHard టాస్క్‌లో, T1 91.9 అధిక స్కోర్‌ను సాధించింది.

ఈ ఫలితాలు సమిష్టిగా అత్యంత సామర్థ్యం గల, బహుముఖ మరియు బాగా సమలేఖనం చేయబడిన పెద్ద భాషా నమూనా చిత్రాన్ని చిత్రించాయి. హైబ్రిడ్-ట్రాన్స్‌ఫార్మర్-మాంబా ఆర్కిటెక్చర్ యొక్క వ్యూహాత్మక ఏకీకరణ, ఇంటెన్సివ్, RL-ఫోకస్డ్ పోస్ట్-ట్రైనింగ్ నియమావళితో పాటు, Hunyuan-T1లో ముగిసింది - ఇది అసాధారణమైన రీజనింగ్ పరాక్రమాన్ని ప్రదర్శించే మోడల్, ముఖ్యంగా సంక్లిష్టమైన, లాంగ్-కాంటెక్స్ట్ దృశ్యాలు మరియు డిమాండ్ చేసే శాస్త్రీయ మరియు గణిత డొమైన్‌లలో.