Tencent ਦਾ Hunyuan-T1: Mamba ਨਾਲ AI ਤਰਕ ਦਾ ਨਵਾਂ ਯੁੱਗ

ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ ਅਨੁਕੂਲਨ ਦਾ ਵਿਕਾਸਸ਼ੀਲ ਦ੍ਰਿਸ਼

ਆਰਟੀਫਿਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਦਾ ਖੇਤਰ ਇੱਕ ਪੈਰਾਡਾਈਮ ਸ਼ਿਫਟ ਦੇਖ ਰਿਹਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ (LLMs) ਦੀ ਸ਼ੁਰੂਆਤੀ ਸਿਖਲਾਈ ਤੋਂ ਬਾਅਦ ਦੇ ਸੁਧਾਰ ਪੜਾਵਾਂ ਵਿੱਚ। ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL), ਇੱਕ ਉੱਨਤ ਤਕਨੀਕ ਜਿੱਥੇ ਮਾਡਲ ਇਨਾਮਾਂ ਦੁਆਰਾ ਨਿਰਦੇਸ਼ਿਤ ਅਜ਼ਮਾਇਸ਼ ਅਤੇ ਗਲਤੀ ਦੁਆਰਾ ਸਿੱਖਦੇ ਹਨ, ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਦਰਸ਼ਨ ਲਾਭਾਂ ਨੂੰ ਚਲਾਉਣ ਵਾਲੀ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਸ਼ਕਤੀ ਵਜੋਂ ਉੱਭਰੀ ਹੈ। ਇਹ ਪਹੁੰਚ ਅਕਾਦਮਿਕ ਉਤਸੁਕਤਾ ਤੋਂ ਪ੍ਰਮੁੱਖ AI ਡਿਵੈਲਪਰਾਂ ਲਈ ਇੱਕ ਮੁੱਖ ਰਣਨੀਤੀ ਬਣ ਗਈ ਹੈ। OpenAI ਦੇ O-series ਅਤੇ ਮਹੱਤਵਪੂਰਨ DeepSeek R1 ਵਰਗੇ ਮਾਡਲਾਂ ਦੁਆਰਾ ਪ੍ਰਦਰਸ਼ਿਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਮਰੱਥਾਵਾਂ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਸਬੂਤ ਵਜੋਂ ਕੰਮ ਕਰਦੀਆਂ ਹਨ, ਮਾਡਲ ਆਉਟਪੁੱਟ ਨੂੰ ਸੁਧਾਰਨ, ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੇ ਹੁਨਰਾਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ, ਅਤੇ AI ਵਿਵਹਾਰ ਨੂੰ ਮਨੁੱਖੀ ਉਮੀਦਾਂ ਅਤੇ ਤਰਜੀਹਾਂ ਨਾਲ ਵਧੇਰੇ ਨੇੜਿਓਂ ਇਕਸਾਰ ਕਰਨ ਵਿੱਚ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਮਹੱਤਵਪੂਰਨ ਕਾਰਜ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀਆਂ ਹਨ। ਇਹ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪੜਾਅ ਹੁਣ ਸਿਰਫ਼ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਬਾਰੇ ਨਹੀਂ ਹੈ; ਇਹ ਮਾਡਲ ਦੀ ਬੋਧਾਤਮਕ ਸ਼ਕਤੀ ਨੂੰ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਵਧਾਉਣ ਬਾਰੇ ਹੈ।

Hunyuan-T1 ਪੇਸ਼ ਕਰ ਰਿਹਾ ਹਾਂ: ਡੂੰਘੀ ਸੋਚ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਇੱਕ ਛਾਲ

ਤੇਜ਼ੀ ਨਾਲ ਤਰੱਕੀ ਦੇ ਇਸ ਪਿਛੋਕੜ ਦੇ ਵਿਰੁੱਧ, Tencent ਦੀ Hunyuan ਟੀਮ ਨੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮੀਲ ਪੱਥਰ ਦਰਜ ਕੀਤਾ ਹੈ। ਇਸ ਸਾਲ ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ, ਫਰਵਰੀ ਦੇ ਅੱਧ ਵਿੱਚ, ਟੀਮ ਨੇ Hunyuan T1-Preview (Hunyuan-Thinker-1-Preview) ਨਾਲ ਆਪਣੀ ਤਰੱਕੀ ਦੀ ਇੱਕ ਝਲਕ ਪ੍ਰਦਾਨ ਕੀਤੀ। Tencent Yuanbao ਐਪਲੀਕੇਸ਼ਨ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ, ਇਹ ਸ਼ੁਰੂਆਤੀ ਤਰਕ ਮਾਡਲ, ਮੱਧਮ-ਪੈਮਾਨੇ ਦੇ Hunyuan ਬੇਸ ‘ਤੇ ਬਣਾਇਆ ਗਿਆ, ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਤੇਜ਼ ਅਤੇ ਡੂੰਘੀ ਵਿਸ਼ਲੇਸ਼ਣਾਤਮਕ ਸਮਰੱਥਾਵਾਂ ਦਾ ਸੁਆਦ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਉਸ ਨੀਂਹ ‘ਤੇ ਨਿਰਮਾਣ ਕਰਦੇ ਹੋਏ, ਅਸੀਂ ਹੁਣ Hunyuan-T1 ਦੀ ਅਧਿਕਾਰਤ ਸ਼ੁਰੂਆਤ ਦੀ ਘੋਸ਼ਣਾ ਕਰਦੇ ਹੋਏ ਮਾਣ ਮਹਿਸੂਸ ਕਰਦੇ ਹਾਂ, Hunyuan ਵੱਡੇ ਮਾਡਲ ਪਰਿਵਾਰ ਦੇ ਅੰਦਰ ਡੂੰਘਾਈ ਨਾਲ ਸੋਚਣ ਵਾਲੇ ਮਾਡਲ ਦਾ ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਨੁਭਵ ਕੀਤਾ ਸੰਸਕਰਣ। ਇਹ ਸਿਰਫ਼ ਇੱਕ ਵਾਧਾਤਮਕ ਅੱਪਡੇਟ ਨਹੀਂ ਹੈ; ਇਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਵਿਕਾਸ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। Hunyuan-T1 TurboS ਫਾਸਟ-ਥਿੰਕਿੰਗ ਬੇਸ ਦਾ ਲਾਭ ਉਠਾਉਂਦਾ ਹੈ, ਇੱਕ ਸ਼ਾਨਦਾਰ ਆਰਕੀਟੈਕਚਰ ਜੋ Tencent ਦੁਆਰਾ ਮਾਰਚ ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਸੀ। TurboS ਨੂੰ ਖਾਸ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਬਣਾਉਣ ਵਾਲੀ ਚੀਜ਼ ਦੁਨੀਆ ਦਾ ਪ੍ਰਮੁੱਖ ਅਤਿ-ਵੱਡੇ-ਪੈਮਾਨੇ ਦਾ Hybrid-Transformer-Mamba Mixture of Experts (MoE) ਵੱਡਾ ਮਾਡਲ ਹੋਣ ਦਾ ਇਸਦਾ ਅੰਤਰ ਹੈ। ਇਹ ਨਵੀਨਤਾਕਾਰੀ ਹਾਈਬ੍ਰਿਡ ਬਣਤਰ ਸਥਾਪਿਤ Transformer ਆਰਕੀਟੈਕਚਰ ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਨੂੰ ਨਵੇਂ Mamba ਸਟੇਟ ਸਪੇਸ ਮਾਡਲ ਦੀ ਕੁਸ਼ਲਤਾ ਅਤੇ ਕ੍ਰਮ-ਸੰਭਾਲਣ ਦੀ ਸ਼ਕਤੀ ਨਾਲ ਜੋੜਦਾ ਹੈ। ਇੱਕ ਵਿਆਪਕ ਅਤੇ ਸਾਵਧਾਨੀ ਨਾਲ ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪ੍ਰੋਗਰਾਮ ਦੁਆਰਾ, Hunyuan-T1 ਦੀਆਂ ਤਰਕ ਸ਼ਕਤੀਆਂ ਨੂੰ ਨਾਟਕੀ ਢੰਗ ਨਾਲ ਵਧਾਇਆ ਗਿਆ ਹੈ, ਅਤੇ ਸੂਖਮ ਮਨੁੱਖੀ ਤਰਜੀਹਾਂ ਨਾਲ ਇਸਦੀ ਇਕਸਾਰਤਾ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਸੁਧਾਰਿਆ ਗਿਆ ਹੈ। ਇਸਦੇ ਪੂਰਵਦਰਸ਼ਨ ਪੂਰਵਜ ਦੀ ਤੁਲਨਾ ਵਿੱਚ, ਅਧਿਕਾਰਤ Hunyuan-T1 ਬੋਰਡ ਭਰ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਨੂੰ ਉਦਯੋਗ ਦੇ ਪ੍ਰਮੁੱਖ, ਉੱਚ-ਤਰਕ ਵਾਲੇ ਵੱਡੇ ਮਾਡਲਾਂ ਵਿੱਚ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਦਾਅਵੇਦਾਰ ਵਜੋਂ ਸਥਾਪਤ ਕਰਦਾ ਹੈ।

ਆਰਕੀਟੈਕਚਰਲ ਫਾਇਦੇ: TurboS ਅਤੇ Mamba ਦੀ ਸ਼ਕਤੀ

Hunyuan-T1 ਲਈ ਬੁਨਿਆਦ ਵਜੋਂ TurboS ਦੀ ਚੋਣ ਵੱਖਰੇ ਫਾਇਦੇ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਜਦੋਂ ਡੂੰਘੇ, ਬਹੁ-ਪੜਾਵੀ ਤਰਕ ਦੀ ਮੰਗ ਕਰਨ ਵਾਲੇ ਕਾਰਜਾਂ ਨਾਲ ਨਜਿੱਠਣਾ ਹੁੰਦਾ ਹੈ। ਬਹੁਤ ਸਾਰੇ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਵਿੱਚ ਇੱਕ ਨਾਜ਼ੁਕ ਰੁਕਾਵਟ ਉਦੋਂ ਪੈਦਾ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਵਿਆਪਕ ਦਸਤਾਵੇਜ਼ਾਂ ਜਾਂ ਲੰਬੀਆਂ ਗੱਲਬਾਤਾਂ ਨਾਲ ਨਜਿੱਠਣਾ ਹੁੰਦਾ ਹੈ। ਸ਼ੁਰੂ ਵਿੱਚ ਪੇਸ਼ ਕੀਤੀ ਗਈ ਜਾਣਕਾਰੀ ਪਤਲੀ ਹੋ ਸਕਦੀ ਹੈ ਜਾਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਗੁਆਚ ਸਕਦੀ ਹੈ ਕਿਉਂਕਿ ਮਾਡਲ ਬਾਅਦ ਦੇ ਟੈਕਸਟ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਸੰਦਰਭ ਨੁਕਸਾਨ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਟੈਕਸਟ ਦੇ ਵੱਡੇ ਹਿੱਸਿਆਂ ਦੁਆਰਾ ਵੱਖ ਕੀਤੇ ਬਿੰਦੂਆਂ ਵਿਚਕਾਰ ਸਬੰਧ ਸਥਾਪਤ ਕਰਨਾ - ਲੰਬੀ-ਦੂਰੀ ਦੀ ਜਾਣਕਾਰੀ ਨਿਰਭਰਤਾ - ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਗਣਨਾਤਮਕ ਚੁਣੌਤੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ।

Hunyuan-T1 ਨੂੰ ਆਧਾਰ ਬਣਾਉਣ ਵਾਲਾ ਆਰਕੀਟੈਕਚਰ, TurboS ਤੋਂ ਵਿਰਾਸਤ ਵਿੱਚ ਮਿਲਿਆ, ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਇਹਨਾਂ ਸੀਮਾਵਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਦਾ ਹੈ। ਇਸਦਾ ਅੰਦਰੂਨੀ ਡਿਜ਼ਾਈਨ ਮਜ਼ਬੂਤ ਲੰਬੇ-ਟੈਕਸਟ ਕੈਪਚਰ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਾ ਹੈ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਪੂਰੇ ਇਨਪੁਟ ‘ਤੇ ਇੱਕ ਮਜ਼ਬੂਤ ਪਕੜ ਬਣਾਈ ਰੱਖਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਸੰਦਰਭ ਨੁਕਸਾਨ ਨੂੰ ਘੱਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਵਿਸਤ੍ਰਿਤ ਕ੍ਰਮਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸਬੰਧਾਂ ਦੀ ਵਧੇਰੇ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਪਛਾਣ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਹ ਸਮਰੱਥਾ ਗੁੰਝਲਦਾਰ ਤਰਕ ਕਾਰਜਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਅਕਸਰ ਟੈਕਸਟ ਦੇ ਇੱਕ ਵੱਡੇ ਭੰਡਾਰ ਵਿੱਚ ਖਿੰਡੀ ਹੋਈ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਸ਼ਲੇਸ਼ਿਤ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਇਸ ਵਧੀ ਹੋਈ ਸਮਰੱਥਾ ਦਾ ਕੇਂਦਰ Mamba ਆਰਕੀਟੈਕਚਰ ਕੰਪੋਨੈਂਟ ਹੈ। Mamba ਬਹੁਤ ਸਾਰੇ Transformer ਮਾਡਲਾਂ ਵਿੱਚ ਪ੍ਰਭਾਵੀ ਪੂਰੀ ਤਰ੍ਹਾਂ ਧਿਆਨ-ਅਧਾਰਤ ਵਿਧੀਆਂ ਤੋਂ ਇੱਕ ਵਿਦਾਇਗੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਇੱਕ ਸਟੇਟ ਸਪੇਸ ਮਾਡਲ (SSM) ਪਹੁੰਚ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਕਮਾਲ ਦੀ ਕੁਸ਼ਲਤਾ ਨਾਲ ਲੰਬੇ ਕ੍ਰਮਾਂ ਦੀ ਪ੍ਰਕਿਰਿਆ ਲਈ ਅਨੁਕੂਲਿਤ। ਮੁੱਖ ਲਾਭਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਲੀਨੀਅਰ ਟਾਈਮ ਕੰਪਲੈਕਸਿਟੀ: ਕ੍ਰਮ ਦੀ ਲੰਬਾਈ ਦੇ ਸਬੰਧ ਵਿੱਚ ਮਿਆਰੀ ਧਿਆਨ ਵਿਧੀਆਂ ਦੀ ਕੁਆਡ੍ਰੈਟਿਕ ਜਟਿਲਤਾ ਦੇ ਉਲਟ, Mamba ਰੇਖਿਕ ਤੌਰ ‘ਤੇ ਸਕੇਲ ਕਰਦਾ ਹੈ। ਇਹ ਬਹੁਤ ਲੰਬੇ ਟੈਕਸਟ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਮਨਾਹੀ ਵਾਲੇ ਸਰੋਤਾਂ ਦੀਆਂ ਮੰਗਾਂ ਤੋਂ ਬਿਨਾਂ ਗਣਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਸੰਭਵ ਬਣਾਉਂਦਾ ਹੈ।
  • ਕੁਸ਼ਲ ਗਣਨਾ: Mamba ਡਿਜ਼ਾਈਨ ਸਿਖਲਾਈ ਦੌਰਾਨ ਸਮਾਨਾਂਤਰ ਗਣਨਾਵਾਂ ਅਤੇ ਅਨੁਮਾਨ ਦੌਰਾਨ ਕੁਸ਼ਲ ਆਵਰਤੀ ਕਾਰਜਾਂ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਹ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਤੇਜ਼ ਪ੍ਰੋਸੈਸਿੰਗ ਸਪੀਡ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਦਾ ਹੈ।
  • ਚੋਣਵੀਂ ਸਟੇਟ ਮੈਨੇਜਮੈਂਟ: Mamba ਮਾਡਲ ਚੋਣਵੇਂ ਤੌਰ ‘ਤੇ ਜਾਣਕਾਰੀ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖ ਸਕਦੇ ਹਨ ਜਾਂ ਭੁੱਲ ਸਕਦੇ ਹਨ ਕਿਉਂਕਿ ਉਹ ਇੱਕ ਕ੍ਰਮ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹਨ, ਸੰਦਰਭ ਪ੍ਰਬੰਧਨ ਲਈ ਵਧੇਰੇ ਕੇਂਦ੍ਰਿਤ ਪਹੁੰਚ ਦੀ ਨਕਲ ਕਰਦੇ ਹਨ, ਜੋ ਲੰਬੀ ਦੂਰੀ ‘ਤੇ ਸੰਬੰਧਿਤ ਜਾਣਕਾਰੀ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਸਿੱਟੇ ਵਜੋਂ, TurboS, ਅਤੇ ਵਿਸਥਾਰ ਦੁਆਰਾ Hunyuan-T1, ਸਮਾਨ ਪੈਮਾਨੇ ਦੇ ਰਵਾਇਤੀ Transformer ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਘੱਟ ਗਣਨਾਤਮਕ ਸਰੋਤਾਂ ਦੀ ਖਪਤ ਕਰਦੇ ਹੋਏ ਲੰਬੇ ਇਨਪੁਟਸ ਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦਾ ਹੈ। ਅੰਦਰੂਨੀ ਬੈਂਚਮਾਰਕ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਸਮਾਨ ਤੈਨਾਤੀ ਦੀਆਂ ਸਥਿਤੀਆਂ ਦੇ ਤਹਿਤ, Hunyuan-T1 Mamba ਅਨੁਕੂਲਨ ਤੋਂ ਬਿਨਾਂ ਤੁਲਨਾਤਮਕ ਮਾਡਲਾਂ ਨਾਲੋਂ ਦੁੱਗਣੀ ਤੇਜ਼ ਡੀਕੋਡਿੰਗ ਸਪੀਡ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਅਸਲ-ਸੰਸਾਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਾਰਕ ਜਿਸ ਲਈ ਸਮੇਂ ਸਿਰ ਜਵਾਬਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਕਰੂਸੀਬਲ: ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨਾਲ ਤਰਕ ਸ਼ਕਤੀ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨਾ

ਬੇਸ TurboS ਮਾਡਲ ਤੋਂ ਉੱਚ ਸਮਰੱਥਾ ਵਾਲੇ Hunyuan-T1 ਵਿੱਚ ਤਬਦੀਲੀ ਵਿੱਚ ਇੱਕ ਵਿਸ਼ਾਲ ਅਤੇ ਰਣਨੀਤਕ ਤੌਰ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਪੜਾਅ ਸ਼ਾਮਲ ਸੀ। ਉੱਨਤ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਦੀ ਨਾਜ਼ੁਕ ਭੂਮਿਕਾ ਨੂੰ ਪਛਾਣਦੇ ਹੋਏ, Tencent ਨੇ ਇਸ ਪੜਾਅ ਲਈ ਨਿਰਧਾਰਤ ਗਣਨਾਤਮਕ ਸਰੋਤਾਂ ਦਾ ਇੱਕ ਅਸਾਧਾਰਨ 96.7% ਖਾਸ ਤੌਰ ‘ਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਸਿਖਲਾਈ ਲਈ ਸਮਰਪਿਤ ਕੀਤਾ। ਇਹ ਭਾਰੀ ਨਿਵੇਸ਼ ਇੱਕ ਸਪੱਸ਼ਟ ਰਣਨੀਤਕ ਤਰਜੀਹ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ: ਮਾਡਲ ਦੀਆਂ ਸ਼ੁੱਧ ਤਰਕ ਯੋਗਤਾਵਾਂ ਨੂੰ ਉੱਚਾ ਚੁੱਕਣਾ ਅਤੇ ਇਸਦੇ ਆਉਟਪੁੱਟ ਨੂੰ ਗੁੰਝਲਦਾਰ ਮਨੁੱਖੀ ਨਿਰਣਿਆਂ ਅਤੇ ਤਰਜੀਹਾਂ ਨਾਲ ਸਾਵਧਾਨੀ ਨਾਲ ਇਕਸਾਰ ਕਰਨਾ।

ਇਹ ਸਿਰਫ਼ ਮਾਡਲ ਨੂੰ ਹੋਰ ਡੇਟਾ ਫੀਡ ਕਰਨ ਬਾਰੇ ਨਹੀਂ ਸੀ; ਇਹ ਇਸਨੂੰ ਸਿਖਾਉਣ ਬਾਰੇ ਸੀ ਕਿ ਕਿਵੇਂ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੋਚਣਾ ਹੈ। ਇਸ RL-ਤੀਬਰ ਪੜਾਅ ਦੇ ਮੁੱਖ ਉਦੇਸ਼ ਦੋ-ਗੁਣਾ ਸਨ:

  1. ਸ਼ੁੱਧ ਤਰਕ ਨੂੰ ਵਧਾਉਣਾ: ਵਿਭਿੰਨ ਡੋਮੇਨਾਂ ਵਿੱਚ ਲਾਜ਼ੀਕਲ ਕਟੌਤੀ, ਗਣਿਤਿਕ ਗਣਨਾ, ਕਾਰਣ ਅਨੁਮਾਨ, ਅਤੇ ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣਾ।
  2. ਮਨੁੱਖੀ ਅਲਾਈਨਮੈਂਟ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣਾ: ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਮਾਡਲ ਦੇ ਜਵਾਬ ਨਾ ਸਿਰਫ਼ ਸਹੀ ਹਨ, ਸਗੋਂ ਮਦਦਗਾਰ, ਨੁਕਸਾਨ ਰਹਿਤ, ਇਮਾਨਦਾਰ, ਅਤੇ ਇੱਕ ਅਜਿਹੇ ਤਰੀਕੇ ਨਾਲ ਸੂਖਮ ਹਨ ਜੋ ਮਨੁੱਖੀ ਉਪਭੋਗਤਾਵਾਂ ਨਾਲ ਗੂੰਜਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਅਪ੍ਰਤੱਖ ਇਰਾਦੇ ਨੂੰ ਸਮਝਣਾ, ਇਕਸਾਰ ਅਤੇ ਪ੍ਰਸੰਗਿਕ ਤੌਰ ‘ਤੇ ਉਚਿਤ ਆਉਟਪੁੱਟ ਤਿਆਰ ਕਰਨਾ, ਅਤੇ ਸੁਰੱਖਿਆ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ।

ਇਸ ਮੰਗ ਵਾਲੀ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਬਾਲਣ ਲਈ, ਇੱਕ ਵਿਸ਼ਾਲ ਅਤੇ ਵਿਭਿੰਨ ਡੇਟਾਸੈਟ ਨੂੰ ਸਾਵਧਾਨੀ ਨਾਲ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਸ ਸੰਗ੍ਰਹਿ ਵਿੱਚ ਵਿਸ਼ਵ ਵਿਗਿਆਨ ਅਤੇ ਤਰਕ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਸ਼ਾਮਲ ਸਨ, ਜੋ ਅਨੁਸ਼ਾਸਨਾਂ ਦੇ ਇੱਕ ਵਿਸ਼ਾਲ ਸਪੈਕਟ੍ਰਮ ਨੂੰ ਕਵਰ ਕਰਦੀਆਂ ਹਨ:

  • ਗਣਿਤ: ਬੁਨਿਆਦੀ ਅੰਕਗਣਿਤ ਅਤੇ ਅਲਜਬਰਾ ਤੋਂ ਲੈ ਕੇ ਕੈਲਕੂਲਸ, ਸੰਖਿਆ ਸਿਧਾਂਤ, ਅਤੇ ਉੱਨਤ ਮੁਕਾਬਲੇ-ਪੱਧਰ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਤੱਕ।
  • ਲਾਜ਼ੀਕਲ ਤਰਕ: ਪਹੇਲੀਆਂ, ਕਟੌਤੀ ਤਰਕ ਕਾਰਜ, ਆਲੋਚਨਾਤਮਕ ਸੋਚ ਦੀਆਂ ਚੁਣੌਤੀਆਂ, ਅਤੇ ਰਸਮੀ ਤਰਕ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ।
  • ਵਿਗਿਆਨ: ਭੌਤਿਕ ਵਿਗਿਆਨ, ਰਸਾਇਣ ਵਿਗਿਆਨ, ਜੀਵ ਵਿਗਿਆਨ, ਅਤੇ ਹੋਰ ਵਿਗਿਆਨਕ ਖੇਤਰਾਂ ਨੂੰ ਕਵਰ ਕਰਨ ਵਾਲੇ ਸਵਾਲ ਅਤੇ ਸਮੱਸਿਆਵਾਂ, ਜਿਨ੍ਹਾਂ ਲਈ ਅਕਸਰ ਬਹੁ-ਪੜਾਵੀ ਤਰਕ ਅਤੇ ਸਿਧਾਂਤਾਂ ਦੀ ਵਰਤੋਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
  • ਕੋਡਿੰਗ: ਐਲਗੋਰਿਦਮ ਡਿਜ਼ਾਈਨ, ਕੋਡ ਜਨਰੇਸ਼ਨ, ਡੀਬੱਗਿੰਗ, ਅਤੇ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਗੁੰਝਲਦਾਰ ਪ੍ਰੋਗਰਾਮਿੰਗ ਤਰਕ ਨੂੰ ਸਮਝਣਾ।

ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਇਸ ਡੇਟਾ ਨੂੰ ਜ਼ਮੀਨੀ-ਸੱਚਾਈ ਅਸਲ ਫੀਡਬੈਕ ਨਾਲ ਜੋੜਿਆ ਗਿਆ ਸੀ। ਇਹ ਫੀਡਬੈਕ ਲੂਪ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਲਈ ਜ਼ਰੂਰੀ ਹੈ, ਉਹ ਸਿਗਨਲ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜਿਸਦੀ ਮਾਡਲ ਨੂੰ ਇਹ ਸਮਝਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਕਿ ਕਿਹੜੇ ਤਰਕ ਮਾਰਗ ਸਹੀ ਜਾਂ ਤਰਜੀਹੀ ਨਤੀਜਿਆਂ ਵੱਲ ਲੈ ਜਾਂਦੇ ਹਨ। ਇਹ ਸਖ਼ਤ ਆਧਾਰ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ Hunyuan-T1 ਅਸਲ-ਸੰਸਾਰ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਆਉਣ ਵਾਲੀਆਂ ਚੁਣੌਤੀਪੂਰਨ ਤਰਕ ਕਾਰਜਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਵੇਲੇ ਪ੍ਰਦਰਸ਼ਿਤ ਮੁਹਾਰਤ ਵਿਕਸਿਤ ਕਰਦਾ ਹੈ।

ਉੱਨਤ ਸਿਖਲਾਈ ਵਿਧੀਆਂ

ਗਣਨਾਤਮਕ ਨਿਵੇਸ਼ ਅਤੇ ਡੇਟਾ ਸੰਗ੍ਰਹਿ ਦੇ ਪੂਰੇ ਪੈਮਾਨੇ ਨੂੰ ਸਿਖਲਾਈ ਕੁਸ਼ਲਤਾ ਅਤੇ ਮਾਡਲ ਸਥਿਰਤਾ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀਆਂ ਗਈਆਂ ਉੱਨਤ ਸਿਖਲਾਈ ਰਣਨੀਤੀਆਂ ਨਾਲ ਜੋੜਿਆ ਗਿਆ ਸੀ।

  • ਪਾਠਕ੍ਰਮ ਸਿਖਲਾਈ (Curriculum Learning): ਮਾਡਲ ਨੂੰ ਤੁਰੰਤ ਸਭ ਤੋਂ ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆਵਾਂ ਨਾਲ ਭਰਨ ਦੀ ਬਜਾਏ, ਇੱਕ ਪਾਠਕ੍ਰਮ ਸਿਖਲਾਈ ਪਹੁੰਚ ਅਪਣਾਈ ਗਈ ਸੀ। ਸਿਖਲਾਈ ਸਧਾਰਨ ਕਾਰਜਾਂ ਨਾਲ ਸ਼ੁਰੂ ਹੋਈ ਅਤੇ ਹੌਲੀ-ਹੌਲੀ ਹੋਰ ਮੁਸ਼ਕਲ ਸਮੱਸਿਆਵਾਂ ਪੇਸ਼ ਕੀਤੀਆਂ ਗਈਆਂ। ਇਸਦੇ ਨਾਲ ਹੀ, ਮਾਡਲ ਦੀ ਪ੍ਰਭਾਵੀ ਸੰਦਰਭ ਲੰਬਾਈ ਨੂੰ ਹੌਲੀ-ਹੌਲੀ ਵਧਾਇਆ ਗਿਆ ਸੀ। ਇਹ ਪੜਾਅਵਾਰ ਪਹੁੰਚ ਮਾਡਲ ਨੂੰ ਹੋਰ ਉੱਨਤ ਚੁਣੌਤੀਆਂ ਨਾਲ ਨਜਿੱਠਣ ਤੋਂ ਪਹਿਲਾਂ ਬੁਨਿਆਦੀ ਤਰਕ ਦੇ ਹੁਨਰ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਵਧੇਰੇ ਸਥਿਰ ਅਤੇ ਕੁਸ਼ਲ ਸਿਖਲਾਈ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦੀ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰਕ ਲਈ ਆਪਣੀ ਟੋਕਨ ਸਮਰੱਥਾ ਦੀ ਸਮਝਦਾਰੀ ਨਾਲ ਵਰਤੋਂ ਕਰਨ ਲਈ ਵੀ ਸਿਖਲਾਈ ਦਿੰਦਾ ਹੈ, ਇਸਦੀ ਸੋਚ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਗਣਨਾਤਮਕ ਕੁਸ਼ਲਤਾ ਦਾ ਇੱਕ ਰੂਪ ਵਿਕਸਿਤ ਕਰਦਾ ਹੈ।
  • ਉੱਨਤ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਤਕਨੀਕਾਂ: ਲੰਬੀ RL ਸਿਖਲਾਈ ਦੌਰਾਨ ਮਜ਼ਬੂਤ ਅਤੇ ਇਕਸਾਰ ਤਰੱਕੀ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, ਕਲਾਸਿਕ ਪਰ ਸ਼ਕਤੀਸ਼ਾਲੀ ਰਣਨੀਤੀਆਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਸੀ। ਡੇਟਾ ਰੀਪਲੇ (ਸਿੱਖਣ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਪਿਛਲੇ ਤਜ਼ਰਬਿਆਂ ਦੀ ਮੁੜ ਵਰਤੋਂ ਕਰਨਾ) ਅਤੇ ਪੀਰੀਅਡਿਕ ਪਾਲਿਸੀ ਰੀਸੈਟਿੰਗ (ਵਖਰੇਵੇਂ ਨੂੰ ਰੋਕਣ ਲਈ ਕਦੇ-ਕਦਾਈਂ ਪਹਿਲਾਂ ਦੀਆਂ, ਸਥਿਰ ਮਾਡਲ ਸਥਿਤੀਆਂ ‘ਤੇ ਵਾਪਸ ਜਾਣਾ) ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਹਨਾਂ ਤਰੀਕਿਆਂ ਨੇ ਬਹੁਤ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਾਬਤ ਕੀਤਾ, ਮਾਡਲ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੀ ਲੰਬੇ ਸਮੇਂ ਦੀ ਸਥਿਰਤਾ ਨੂੰ 50% ਤੋਂ ਵੱਧ ਵਧਾ ਦਿੱਤਾ, ਵਿਨਾਸ਼ਕਾਰੀ ਭੁੱਲਣ ਜਾਂ ਨੀਤੀ ਦੇ ਢਹਿ ਜਾਣ ਵਰਗੇ ਮੁੱਦਿਆਂ ਨੂੰ ਘੱਟ ਕੀਤਾ ਜੋ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ RL ਯਤਨਾਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰ ਸਕਦੇ ਹਨ।
  • ਏਕੀਕ੍ਰਿਤ ਇਨਾਮ ਪ੍ਰਣਾਲੀ (Unified Reward System): ਮਾਡਲ ਨੂੰ ਮਨੁੱਖੀ ਤਰਜੀਹਾਂ ਨਾਲ ਇਕਸਾਰ ਕਰਨਾ ਇੱਕ ਗੁੰਝਲਦਾਰ ਕੰਮ ਹੈ। Hunyuan-T1 ਨੇ ਇੱਕ ਨਵੀਨਤਾਕਾਰੀ ਏਕੀਕ੍ਰਿਤ ਇਨਾਮ ਪ੍ਰਣਾਲੀ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇਸ ਪ੍ਰਣਾਲੀ ਨੇ ਦੋ ਸਰੋਤਾਂ ਤੋਂ ਫੀਡਬੈਕ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕੀਤਾ:
    • ਸਵੈ-ਇਨਾਮ (Self-Rewarding): T1-ਪ੍ਰੀਵਿਊ ਮਾਡਲ ਦੇ ਇੱਕ ਪੁਰਾਣੇ ਸੰਸਕਰਣ ਨੂੰ ਸਿਖਲਾਈ ਅਧੀਨ ਮਾਡਲ ਦੇ ਆਉਟਪੁੱਟ ਦਾ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਅਤੇ ਸਕੋਰ ਕਰਨ ਲਈ ਇੱਕ ਸਵੈਚਾਲਤ ਜੱਜ ਵਜੋਂ ਨਿਯੁਕਤ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਹ ਪੂਰਵ-ਪ੍ਰਭਾਸ਼ਿਤ ਮਾਪਦੰਡਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਤੇਜ਼, ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਫੀਡਬੈਕ ਉਤਪਾਦਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
    • ਇਨਾਮ ਮਾਡਲ (Reward Model): ਇੱਕ ਵੱਖਰਾ ਮਾਡਲ ਖਾਸ ਤੌਰ ‘ਤੇ ਮਨੁੱਖੀ ਤਰਜੀਹਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ, ਗੁਣਵੱਤਾ, ਮਦਦਗਾਰਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਦੇ ਵਧੇਰੇ ਸੂਖਮ ਪਹਿਲੂਆਂ ਨੂੰ ਕੈਪਚਰ ਕਰਦੇ ਹੋਏ ਮਾਰਗਦਰਸ਼ਨ ਦੀ ਇੱਕ ਵਾਧੂ ਪਰਤ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
      ਇਸ ਸੰਯੁਕਤ ਫੀਡਬੈਕ ਵਿਧੀ ਨੇ ਮਾਡਲ ਨੂੰ ਸਵੈ-ਸੁਧਾਰ ਦੀ ਪ੍ਰਕਿਰਿਆ ਦੁਆਰਾ ਮਾਰਗਦਰਸ਼ਨ ਕੀਤਾ, ਵਧੇਰੇ ਅਮੀਰ ਸਮੱਗਰੀ ਵੇਰਵਿਆਂ, ਵਧੇਰੇ ਕੁਸ਼ਲ ਜਾਣਕਾਰੀ ਡਿਲੀਵਰੀ, ਅਤੇ ਲੋੜੀਂਦੀਆਂ ਜਵਾਬ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨਾਲ ਬਿਹਤਰ ਸਮੁੱਚੀ ਇਕਸਾਰਤਾ ਦੁਆਰਾ ਦਰਸਾਏ ਗਏ ਆਉਟਪੁੱਟ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ।

ਪ੍ਰਦਰਸ਼ਨ ਬੈਂਚਮਾਰਕ: ਉੱਚ ਵਰਗ ਵਿੱਚ ਮਜ਼ਬੂਤੀ ਨਾਲ ਖੜ੍ਹਾ

ਇੱਕ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ ਦਾ ਅੰਤਮ ਮਾਪ ਇਸਦੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਹੁੰਦਾ ਹੈ। Hunyuan-T1 ਦਾ ਜਨਤਕ ਬੈਂਚਮਾਰਕਾਂ ਅਤੇ ਅੰਦਰੂਨੀ ਡੇਟਾਸੈਟਾਂ ਦੀ ਇੱਕ ਬੈਟਰੀ ਦੇ ਵਿਰੁੱਧ ਸਖਤੀ ਨਾਲ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਸਮਕਾਲੀ AI ਮਾਡਲਾਂ ਦੇ ਸਿਖਰਲੇ ਦਰਜੇ ਵਿੱਚ ਇਸਨੂੰ ਮਜ਼ਬੂਤੀ ਨਾਲ ਰੱਖਣ ਵਾਲੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।

ਜਦੋਂ DeepSeek R1, ਇੱਕ ਹੋਰ ਉੱਚ-ਸਨਮਾਨਿਤ ਤਰਕ-ਕੇਂਦ੍ਰਿਤ ਮਾਡਲ ਦੇ ਵਿਰੁੱਧ ਤੁਲਨਾ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ Hunyuan-T1 ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਡੋਮੇਨਾਂ ਵਿੱਚ ਗਿਆਨ ਅਤੇ ਤਰਕ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਵਾਲੇ ਕਈ ਮੁੱਖ ਜਨਤਕ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ ਤੁਲਨਾਤਮਕ ਜਾਂ ਥੋੜ੍ਹਾ ਵਧੀਆ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ:

  • MMLU-pro: ਵਿਭਿੰਨ ਪੇਸ਼ੇਵਰ ਅਤੇ ਅਕਾਦਮਿਕ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਵਿਆਪਕ ਗਿਆਨ ਅਤੇ ਤਰਕ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਇੱਕ ਚੁਣੌਤੀਪੂਰਨ ਬੈਂਚਮਾਰਕ।
  • CEval: ਇੱਕ ਬਹੁ-ਅਨੁਸ਼ਾਸਨੀ ਚੀਨੀ ਭਾਸ਼ਾ ਮੁਲਾਂਕਣ ਸੂਟ।
  • AIME: ਮੁਕਾਬਲੇ-ਪੱਧਰ ਦੀਆਂ ਗਣਿਤ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨਾ ਜਿਨ੍ਹਾਂ ਲਈ ਉੱਨਤ ਤਰਕ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
  • Zebra Logic: ਇੱਕ ਬੈਂਚਮਾਰਕ ਖਾਸ ਤੌਰ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਲਾਜ਼ੀਕਲ ਕਟੌਤੀ ਪਹੇਲੀਆਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦਾ ਹੈ।

ਇਹਨਾਂ ਖਾਸ ਟੈਸਟਾਂ ਤੋਂ ਪਰੇ, ਅੰਦਰੂਨੀ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ ਡੇਟਾਸੈਟ ਹੋਰ ਸੂਝ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਬਹੁਤ ਸਾਰੇ ਖੇਤਰਾਂ ਵਿੱਚ R1 ਦੇ ਬਰਾਬਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹੋਏ, Hunyuan-T1 ਇਹਨਾਂ ਨਾਲ ਸਬੰਧਤ ਕਾਰਜਾਂ ਵਿੱਚ ਥੋੜ੍ਹਾ ਫਾਇਦਾ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ:

  • ਸੱਭਿਆਚਾਰਕ ਅਤੇ ਰਚਨਾਤਮਕ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ: ਰਚਨਾਤਮਕ ਟੈਕਸਟ ਫਾਰਮੈਟ ਤਿਆਰ ਕਰਨਾ, ਸੱਭਿਆਚਾਰਕ ਸੂਖਮਤਾਵਾਂ ਨਾਲ ਖਾਸ ਸ਼ੈਲੀਗਤ ਬੇਨਤੀਆਂ ਨੂੰ ਅਪਣਾਉਣਾ।
  • ਟੈਕਸਟ ਸੰਖੇਪ: ਮੁੱਖ ਜਾਣਕਾਰੀ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦੇ ਹੋਏ ਲੰਬੇ ਦਸਤਾਵੇਜ਼ਾਂ ਦੇ ਸੰਖੇਪ ਅਤੇ ਸਹੀ ਸੰਖੇਪ ਤਿਆਰ ਕਰਨਾ।
  • ਏਜੰਟ ਸਮਰੱਥਾਵਾਂ: ਯੋਜਨਾਬੰਦੀ, ਟੂਲ ਦੀ ਵਰਤੋਂ, ਅਤੇ ਬਾਹਰੀ ਪ੍ਰਣਾਲੀਆਂ ਨਾਲ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੀ ਲੋੜ ਵਾਲੇ ਕਾਰਜਾਂ ਵਿੱਚ ਮੁਹਾਰਤ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਾ।

ਸਮੁੱਚੀ ਸਮਰੱਥਾ ਨੂੰ ਮਾਪਣ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਮੈਟ੍ਰਿਕਸ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, Hunyuan-T1 ਉੱਚ ਪੱਧਰੀ ਅਨੁਮਾਨ ਮਾਡਲਾਂ ਵਿੱਚ ਆਪਣੀ ਸਥਿਤੀ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਦਾ ਹੈ।

  • MMLU-PRO ‘ਤੇ, T1 ਨੇ 87.2 ਦਾ ਕਮਾਲ ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਮੁਲਾਂਕਣ ਦੇ ਸਮੇਂ OpenAI ਦੇ O1 ਮਾਡਲ ਤੋਂ ਬਾਅਦ ਦੂਜਾ। ਇਹ ਬੈਂਚਮਾਰਕ ਮਾਨਵਤਾ, ਸਮਾਜਿਕ ਵਿਗਿਆਨ, ਅਤੇ STEM ਵਿਸ਼ਿਆਂ ਸਮੇਤ 14 ਖੇਤਰਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ, ਵਿਆਪਕ ਗਿਆਨ ਯਾਦ ਅਤੇ ਸਮਝ ਦੋਵਾਂ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ।
  • GPQA-diamond ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਵੀ ਕਮਾਲ ਦਾ ਹੈ। ਇਹ ਬੈਂਚਮਾਰਕ ਮਾਹਰ-ਪੱਧਰ ਦੇ ਗਿਆਨ ਅਤੇ ਗੁੰਝਲਦਾਰ ਵਿਗਿਆਨਕ ਤਰਕ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਭੌਤਿਕ ਵਿਗਿਆਨ, ਰਸਾਇਣ ਵਿਗਿਆਨ ਅਤੇ ਜੀਵ ਵਿਗਿਆਨ ਵਿੱਚ ਡਾਕਟਰੇਟ-ਪੱਧਰ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਸ਼ਾਮਲ ਹਨ। Hunyuan-T1 ਨੇ 69.3 ਦਾ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਉੱਚ ਵਿਸ਼ੇਸ਼ ਅਤੇ ਗੁੰਝਲਦਾਰ ਵਿਗਿਆਨਕ ਸਵਾਲਾਂ ਨੂੰ ਸੰਭਾਲਣ ਵਿੱਚ ਮਜ਼ਬੂਤ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਵਿਗਿਆਨ, ਇੰਜੀਨੀਅਰਿੰਗ, ਅਤੇ ਅਲਾਈਨਮੈਂਟ ਵਿੱਚ ਉੱਤਮਤਾ

ਹੋਰ ਮੁਲਾਂਕਣਾਂ ਨੇ ਮਜ਼ਬੂਤ ਤਰਕ ਯੋਗਤਾਵਾਂ ਦੀ ਮੰਗ ਕਰਨ ਵਾਲੇ ਖਾਸ ਖੇਤਰਾਂ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਖੋਜ ਕੀਤੀ:

  • ਕੋਡਿੰਗ: LiveCodeBench ਕੋਡ ਮੁਲਾਂਕਣ ਵਿੱਚ, ਜੋ ਵਿਹਾਰਕ ਕੋਡਿੰਗ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, T1 64.9 ਦੇ ਸਕੋਰ ‘ਤੇ ਪਹੁੰਚ ਗਿਆ, ਠੋਸ ਪ੍ਰੋਗਰਾਮਿੰਗ ਤਰਕ ਅਤੇ ਕੋਡ ਜਨਰੇਸ਼ਨ ਹੁਨਰਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
  • ਗਣਿਤ: ਮਾਡਲ ਗਣਿਤ ਵਿੱਚ ਬੇਮਿਸਾਲ ਤਾਕਤ ਦਿਖਾਉਂਦਾ ਹੈ। MATH-500, ਚੁਣੌਤੀਪੂਰਨ ਗਣਿਤ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਦਾ ਇੱਕ ਡੇਟਾਸੈਟ, ‘ਤੇ ਇਸਦੇ