ਭਰੋਸੇਯੋਗ AI ਏਜੰਟਾਂ ਲਈ ਨਵਾਂ ਤਰੀਕਾ: RAGEN

ਏਆਈ ਏਜੰਟਾਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਉਮੀਦ ਸਾਲਾਂ ਤੋਂ ਵੱਧ ਰਹੀ ਹੈ, ਬਹੁਤ ਸਾਰੇ ਮਾਹਰਾਂ ਨੇ ਭਵਿੱਖਬਾਣੀ ਕੀਤੀ ਹੈ ਕਿ 2025 ਉਹ ਸਾਲ ਹੋਵੇਗਾ ਜਦੋਂ ਇਹ ਕਾਰਜ-ਵਿਸ਼ੇਸ਼ ਏਆਈ ਲਾਗੂਕਰਨ, ਐਡਵਾਂਸਡ ਵੱਡੇ ਭਾਸ਼ਾ ਅਤੇ ਮਲਟੀਮੋਡਲ ਮਾਡਲਾਂ (LLMs) ਦੁਆਰਾ ਸੰਚਾਲਿਤ, ਸੱਚਮੁੱਚ ਉਤਾਰਨਗੇ। ਹਾਲਾਂਕਿ, ਅਸਲੀਅਤ ਇਹ ਹੈ ਕਿ ਜ਼ਿਆਦਾਤਰ ਏਆਈ ਏਜੰਟ ਪ੍ਰਯੋਗਾਤਮਕ ਲਿਮਬੋ ਦੀ ਸਥਿਤੀ ਵਿੱਚ ਹਨ, ਜੋ ਖੋਜ ਲੈਬਾਂ ਤੋਂ ਅਸਲ-ਸੰਸਾਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਤਬਦੀਲੀ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਕਰ ਰਹੇ ਹਨ।

ਹੁਣ, ਨਾਰਥਵੈਸਟਰਨ ਯੂਨੀਵਰਸਿਟੀ, ਮਾਈਕ੍ਰੋਸਾਫਟ, ਸਟੈਨਫੋਰਡ, ਅਤੇ ਵਾਸ਼ਿੰਗਟਨ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਦੇ ਇੱਕ ਸਹਿਯੋਗੀ ਯਤਨ, ਜਿਸ ਵਿੱਚ ਜ਼ੀਹਾਨ ਵਾਂਗ ਨਾਮਕ ਇੱਕ ਸਾਬਕਾ ਡੀਪਸੀਕ ਖੋਜਕਰਤਾ ਵੀ ਸ਼ਾਮਲ ਹੈ, ਨੇ ਇੱਕ ਨਵੀਂ ਪ੍ਰਣਾਲੀ ਪੇਸ਼ ਕੀਤੀ ਹੈ ਜਿਸਨੂੰ RAGEN ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਇਸ ਨਵੇਂ ਫਰੇਮਵਰਕ ਦਾ ਉਦੇਸ਼ ਏਆਈ ਏਜੰਟਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣਾ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਨਾ ਹੈ, ਜਿਸ ਨਾਲ ਉਹਨਾਂ ਨੂੰ ਵਿਹਾਰਕ, ਉੱਦਮ-ਪੱਧਰ ਦੀ ਵਰਤੋਂ ਲਈ ਵਧੇਰੇ ਭਰੋਸੇਯੋਗ ਅਤੇ ਲਚਕੀਲਾ ਬਣਾਇਆ ਜਾ ਸਕੇ।

ਮੈਥ ਜਾਂ ਕੋਡਿੰਗ ਵਰਗੀਆਂ ਸਥਿਰ ਸਮੱਸਿਆਵਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਰਵਾਇਤੀ ਏਆਈ ਕਾਰਜਾਂ ਦੇ ਉਲਟ, RAGEN ਮਲਟੀ-ਟਰਨ, ਇੰਟਰਐਕਟਿਵ ਦ੍ਰਿਸ਼ਾਂ ਨਾਲ ਨਜਿੱਠਦਾ ਹੈ ਜਿੱਥੇ ਏਜੰਟਾਂ ਨੂੰ ਅਨਿਸ਼ਚਿਤ ਵਾਤਾਵਰਣਾਂ ਵਿੱਚ ਅਨੁਕੂਲ ਹੋਣਾ, ਸਿੱਖਣਾ ਅਤੇ ਤਰਕ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਇਹ ਪਹੁੰਚ ਏਆਈ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜੋ ਅਸਲ-ਸੰਸਾਰ ਸਥਿਤੀਆਂ ਦੀਆਂ ਜਟਿਲਤਾਵਾਂ ਨੂੰ ਸੰਭਾਲ ਸਕਦੀ ਹੈ।

RAGEN ਦੇ ਦਿਲ ਵਿੱਚ ਇੱਕ ਕਸਟਮ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RL) ਫਰੇਮਵਰਕ ਹੈ ਜਿਸਨੂੰ StarPO (ਸਟੇਟ-ਥਿੰਕਿੰਗ-ਐਕਸ਼ਨਜ਼-ਰਿਵਾਰਡ ਪਾਲਿਸੀ ਔਪਟੀਮਾਈਜ਼ੇਸ਼ਨ) ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ। ਇਹ ਸਿਸਟਮ ਖੋਜ ਕਰਦਾ ਹੈ ਕਿ ਕਿਵੇਂ LLMs ਸਿਰਫ਼ ਯਾਦ ਰੱਖਣ ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੀ ਬਜਾਏ ਤਜਰਬੇ ਦੁਆਰਾ ਸਿੱਖ ਸਕਦੇ ਹਨ। StarPO ਪੂਰੀ ਫੈਸਲੇ ਲੈਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ, ਨਾ ਸਿਰਫ਼ ਵਿਅਕਤੀਗਤ ਜਵਾਬਾਂ ‘ਤੇ, ਸਗੋਂ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਦੇ ਪੂਰੇ ਮਾਰਗ ‘ਤੇ ਵੀ ਵਿਚਾਰ ਕਰਦਾ ਹੈ।

StarPO ਦੋ ਵੱਖਰੇ ਪੜਾਵਾਂ ਦੁਆਰਾ ਕੰਮ ਕਰਦਾ ਹੈ ਜੋ ਇਕੱਠੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਪਹਿਲਾ ਪੜਾਅ, ਜਿਸਨੂੰ ਰੋਲਆਊਟ ਪੜਾਅ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਵਿੱਚ LLM ਤਰਕ ਦੁਆਰਾ ਨਿਰਦੇਸ਼ਤ ਸੰਪੂਰਨ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਲੜੀ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਦੂਜਾ ਪੜਾਅ, ਅੱਪਡੇਟ ਪੜਾਅ, ਸਧਾਰਣ ਸੰਚਤ ਇਨਾਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਡਲ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਢਾਂਚਾ ਮਿਆਰੀ ਨੀਤੀ ਅਨੁਕੂਲਤਾ ਵਿਧੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਇੱਕ ਵਧੇਰੇ ਸਥਿਰ ਅਤੇ ਪਾਰਦਰਸ਼ੀ ਸਿੱਖਣ ਲੂਪ ਬਣਾਉਂਦਾ ਹੈ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਅਲੀਬਾਬਾ ਦੇ Qwen ਮਾਡਲਾਂ ਦੇ ਵਧੀਆ-ਟਿਊਨ ਕੀਤੇ ਸੰਸਕਰਣਾਂ, ਖਾਸ ਤੌਰ ‘ਤੇ Qwen 1.5 ਅਤੇ Qwen 2.5 ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਫਰੇਮਵਰਕ ਨੂੰ ਲਾਗੂ ਕੀਤਾ ਅਤੇ ਸਖਤੀ ਨਾਲ ਟੈਸਟ ਕੀਤਾ। ਇਹ ਮਾਡਲ ਉਹਨਾਂ ਦੇ ਖੁੱਲੇ ਭਾਰਾਂ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਉਹਨਾਂ ਦੀ ਯੋਗਤਾ ਲਈ ਚੁਣੇ ਗਏ ਸਨ, ਜਿਸ ਨੇ ਵੱਖ-ਵੱਖ ਪ੍ਰਤੀਕਾਤਮਕ ਕਾਰਜਾਂ ਵਿੱਚ ਪ੍ਰਜਨਨਯੋਗਤਾ ਅਤੇ ਇਕਸਾਰ ਬੇਸਲਾਈਨ ਤੁਲਨਾਵਾਂ ਦੀ ਆਗਿਆ ਦਿੱਤੀ।

“ਈਕੋ ਟ੍ਰੈਪ” ‘ਤੇ ਕਾਬੂ ਪਾਉਣਾ: ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਲੌਸ

ਜ਼ੀਹਾਨ ਵਾਂਗ ਨੇ ਇੱਕ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਸਾਂਝੇ ਕੀਤੇ X ਥ੍ਰੈੱਡ ਵਿੱਚ ਇੱਕ ਮੁੱਖ ਚੁਣੌਤੀ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ: ‘ਤੁਹਾਡੀ RL ਸਿਖਲਾਈ ਹਮੇਸ਼ਾ ਕਿਉਂ ਡਿੱਗਦੀ ਹੈ?’ ਟੀਮ ਦੇ ਅਨੁਸਾਰ, LLM ਏਜੰਟ ਸ਼ੁਰੂ ਵਿੱਚ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੋਚੇ-ਸਮਝੇ, ਪ੍ਰਤੀਕਾਤਮਕ ਜਵਾਬ ਪੈਦਾ ਕਰਦੇ ਹਨ। ਹਾਲਾਂਕਿ, ਆਰਐਲ ਸਿਸਟਮ ਸਮੇਂ ਦੇ ਨਾਲ ਸ਼ਾਰਟਕੱਟਾਂ ਨੂੰ ਇਨਾਮ ਦਿੰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਦੁਹਰਾਉਣ ਵਾਲੇ ਵਿਵਹਾਰ ਹੁੰਦੇ ਹਨ ਜੋ ਅੰਤ ਵਿੱਚ ਸਮੁੱਚੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਘਟਾਉਂਦੇ ਹਨ। ਇਸ ਵਰਤਾਰੇ ਨੂੰ ਉਹ ‘ਈਕੋ ਟ੍ਰੈਪ’ ਕਹਿੰਦੇ ਹਨ।

ਇਹ ਪ੍ਰਤੀਕਿਰਿਆ ਫੀਡਬੈਕ ਲੂਪਾਂ ਦੇ ਕਾਰਨ ਹੁੰਦੀ ਹੈ ਜਿੱਥੇ ਕੁਝ ਵਾਕਾਂਸ਼ ਜਾਂ ਰਣਨੀਤੀਆਂ ਸ਼ੁਰੂ ਵਿੱਚ ਉੱਚ ਇਨਾਮ ਦਿੰਦੀਆਂ ਹਨ, ਜਿਸ ਨਾਲ ਉਹਨਾਂ ਦੀ ਜ਼ਿਆਦਾ ਵਰਤੋਂ ਹੁੰਦੀ ਹੈ ਅਤੇ ਨਵੇਂ ਪਹੁੰਚਾਂ ਦੀ ਖੋਜ ਵਿੱਚ ਰੁਕਾਵਟ ਆਉਂਦੀ ਹੈ। ਵਾਂਗ ਦੱਸਦਾ ਹੈ ਕਿ ਇਹ ਗਿਣਾਤਮਕ ਹੈ, ਮਾਪਣਯੋਗ ਇਨਾਮ ਪਰਿਵਰਤਨ ਖੜ੍ਹੀਆਂ, ਗਰੇਡੀਐਂਟ ਸਪਾਈਕਸ, ਅਤੇ ਤਰਕ ਟਰੇਸ ਦਾ ਅਲੋਪ ਹੋਣਾ।

ਇਹਨਾਂ ਵਿਵਹਾਰਾਂ ਦੀ ਇੱਕ ਨਿਯੰਤਰਿਤ ਸੈਟਿੰਗ ਵਿੱਚ ਜਾਂਚ ਕਰਨ ਲਈ, RAGEN ਤਿੰਨ ਪ੍ਰਤੀਕਾਤਮਕ ਵਾਤਾਵਰਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ:

  • ਬੈਂਡਿਟ: ਇਹ ਇੱਕ ਸਿੰਗਲ-ਟਰਨ, ਸਟੋਕਾਸਟਿਕ ਟਾਸਕ ਹੈ ਜੋ ਪ੍ਰਤੀਕਾਤਮਕ ਜੋਖਮ-ਇਨਾਮ ਤਰਕ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ।
  • ਸੋਕੋਬਾਨ: ਇੱਕ ਮਲਟੀ-ਟਰਨ, ਨਿਰਣਾਇਕ ਬੁਝਾਰਤ ਜਿਸ ਵਿੱਚ ਅਟੱਲ ਫੈਸਲੇ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ।
  • ਫ੍ਰੋਜ਼ਨ ਲੇਕ: ਇਹ ਇੱਕ ਸਟੋਕਾਸਟਿਕ, ਮਲਟੀ-ਟਰਨ ਟਾਸਕ ਹੈ ਜਿਸ ਵਿੱਚ ਅਨੁਕੂਲ ਯੋਜਨਾਬੰਦੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਹਰੇਕ ਵਾਤਾਵਰਣ ਨੂੰ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਪੱਖਪਾਤਾਂ ਨੂੰ ਘੱਟ ਕਰਨ ਲਈ ਧਿਆਨ ਨਾਲ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਇਸਦੀ ਬਜਾਏ ਸਿਖਲਾਈ ਦੌਰਾਨ ਉੱਭਰਨ ਵਾਲੀਆਂ ਫੈਸਲਾ ਲੈਣ ਦੀਆਂ ਰਣਨੀਤੀਆਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ ਗਿਆ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਬੈਂਡਿਟ ਵਾਤਾਵਰਣ ਵਿੱਚ, ਏਜੰਟਾਂ ਨੂੰ ਸੂਚਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ‘ਡ੍ਰੈਗਨ’ ਅਤੇ ‘ਫੀਨਿਕਸ’ ਹਥਿਆਰ ਵੱਖ-ਵੱਖ ਇਨਾਮ ਵੰਡਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਬਜਾਏ, ਏਜੰਟਾਂ ਨੂੰ ਪ੍ਰਤੀਕਾਤਮਕ ਤੌਰ ‘ਤੇ ਤਰਕ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ, ‘ਡ੍ਰੈਗਨ’ ਨੂੰ ‘ਤਾਕਤ’ ਅਤੇ ‘ਫੀਨਿਕਸ’ ਨੂੰ ‘ਉਮੀਦ’ ਵਜੋਂ ਨਤੀਜਿਆਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਸਮਝਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਸ ਕਿਸਮ ਦੀ ਸਥਾਪਨਾ ਮਾਡਲ ਨੂੰ ਵਿਆਖਿਆਯੋਗ, ਸਮਾਨ ਤਰਕ ਪੈਦਾ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਦੀ ਹੈ।

StarPO-S ਨਾਲ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨੂੰ ਸਥਿਰ ਕਰਨਾ

ਸਿਖਲਾਈ ਦੇ ਢਹਿ ਜਾਣ ਦੇ ਮੁੱਦੇ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ StarPO-S ਵਿਕਸਤ ਕੀਤਾ, ਜੋ ਕਿ ਅਸਲ ਫਰੇਮਵਰਕ ਦਾ ਇੱਕ ਸਥਿਰ ਸੰਸਕਰਣ ਹੈ। StarPO-S ਵਿੱਚ ਤਿੰਨ ਮੁੱਖ ਦਖਲਅੰਦਾਜ਼ੀ ਸ਼ਾਮਲ ਹਨ:

  1. ਅਨਿਸ਼ਚਿਤਤਾ-ਅਧਾਰਤ ਰੋਲਆਊਟ ਫਿਲਟਰਿੰਗ: ਇਹ ਰੋਲਆਊਟਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਾ ਹੈ ਜਿੱਥੇ ਏਜੰਟ ਨਤੀਜੇ ਬਾਰੇ ਅਨਿਸ਼ਚਿਤਤਾ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦਾ ਹੈ।
  2. KL ਜੁਰਮਾਨਾ ਹਟਾਉਣਾ: ਮਾਡਲ ਨੂੰ ਆਪਣੀ ਅਸਲ ਨੀਤੀ ਤੋਂ ਵਧੇਰੇ ਸੁਤੰਤਰ ਰੂਪ ਵਿੱਚ ਭਟਕਣ ਅਤੇ ਨਵੇਂ ਵਿਵਹਾਰਾਂ ਦੀ ਖੋਜ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਣਾ।
  3. ਅਸਮਿਤ PPO ਕਲਿੱਪਿੰਗ: ਇਹ ਘੱਟ-ਇਨਾਮ ਵਾਲੇ ਲੋਕਾਂ ਨਾਲੋਂ ਉੱਚ-ਇਨਾਮ ਵਾਲੇ ਮਾਰਗਾਂ ਨੂੰ ਵਧੇਰੇ ਵਧਾਉਂਦਾ ਹੈ ਤਾਂ ਜੋ ਸਿੱਖਣ ਨੂੰ ਵਧਾਇਆ ਜਾ ਸਕੇ।

ਇਹ ਵਿਵਸਥਾਵਾਂ ਸਿਖਲਾਈ ਦੇ ਢਹਿ ਜਾਣ ਨੂੰ ਦੇਰੀ ਜਾਂ ਖਤਮ ਕਰਦੀਆਂ ਹਨ, ਜਿਸ ਨਾਲ ਤਿੰਨਾਂ ਕੰਮਾਂ ਵਿੱਚ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ। ਵਾਂਗ ਦੇ ਅਨੁਸਾਰ, ‘StarPO-S… ਤਿੰਨਾਂ ਕੰਮਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ। ਢਹਿ ਜਾਣ ਤੋਂ ਰਾਹਤ ਮਿਲਦੀ ਹੈ। ਬਿਹਤਰ ਇਨਾਮ।’

ਆਰਐਲ ਸਿਖਲਾਈ ਦੀ ਸਫਲਤਾ ਨਾ ਸਿਰਫ ਆਰਕੀਟੈਕਚਰ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ, ਸਗੋਂ ਏਜੰਟਾਂ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ‘ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਟੀਮ ਨੇ ਤਿੰਨ ਨਾਜ਼ੁਕ ਪਹਿਲੂਆਂ ਦੀ ਪਛਾਣ ਕੀਤੀ ਜੋ ਸਿਖਲਾਈ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਪ੍ਰਭਾਵਤ ਕਰਦੇ ਹਨ:

  • ਟਾਸਕ ਵਿਭਿੰਨਤਾ: ਮਾਡਲ ਨੂੰ ਸ਼ੁਰੂਆਤੀ ਦ੍ਰਿਸ਼ਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਲਿਆਉਣਾ ਆਮਕਰਨ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ।
  • ਪਰਸਪਰ ਕ੍ਰਿਆ ਦੀ ਬਾਰੀਕੀ: ਪ੍ਰਤੀ ਟਰਨ ਕਈ ਕਾਰਵਾਈਆਂ ਦੀ ਆਗਿਆ ਦੇਣਾ ਵਧੇਰੇ ਅਰਥਪੂਰਨ ਯੋਜਨਾਬੰਦੀ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ।
  • ਰੋਲਆਊਟ ਤਾਜ਼ਗੀ: ਸਿਖਲਾਈ ਡੇਟਾ ਨੂੰ ਮੌਜੂਦਾ ਮਾਡਲ ਨੀਤੀ ਨਾਲ ਇਕਸਾਰ ਰੱਖਣਾ ਪੁਰਾਣੇ ਸਿੱਖਣ ਦੇ ਸੰਕੇਤਾਂ ਤੋਂ ਬਚਦਾ ਹੈ।

ਇਕੱਠੇ ਮਿਲ ਕੇ, ਇਹ ਕਾਰਕ ਇੱਕ ਵਧੇਰੇ ਸਥਿਰ ਅਤੇ ਪ੍ਰਭਾਵੀ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ।

ਏਜੰਟ ਵਿਚਾਰ ਪ੍ਰਕਿਰਿਆਵਾਂ ਦਾ ਪਰਦਾਫਾਸ਼ ਕਰਨਾ

ਗਿੱਟਹੱਬ ‘ਤੇ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਇੱਕ ਇੰਟਰਐਕਟਿਵ ਡੈਮੋ ਸਾਈਟ ਏਜੰਟ ਰੋਲਆਊਟਾਂ ਨੂੰ ਪੂਰੇ ਸੰਵਾਦ ਮੋੜਾਂ ਵਜੋਂ ਦ੍ਰਿਸ਼ਟੀਗਤ ਰੂਪ ਵਿੱਚ ਦਰਸਾਉਂਦੀ ਹੈ, ਸਿਰਫ ਲਈਆਂ ਗਈਆਂ ਕਾਰਵਾਈਆਂ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਉਹਨਾਂ ਦੇ ਪਿੱਛੇ ਦੀ ਕਦਮ-ਦਰ-ਕਦਮ ਵਿਚਾਰ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਵੀ ਦਰਸਾਉਂਦੀ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਗਣਿਤ ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਦੇ ਸਮੇਂ, ਇੱਕ ਏਜੰਟ ਜਵਾਬ ਜਿਵੇਂ ਕਿ ‘x = 5’ ਜਮ੍ਹਾਂ ਕਰਾਉਣ ਤੋਂ ਪਹਿਲਾਂ ਪਹਿਲਾਂ ਇੱਕ ਵੇਰੀਏਬਲ ਨੂੰ ਅਲੱਗ ਕਰਨ ਬਾਰੇ ‘ਸੋਚ’ ਸਕਦਾ ਹੈ। ਇਹ ਵਿਚਕਾਰਲੇ ਵਿਚਾਰ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ ਅਤੇ ਟਰੇਸ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਏਜੰਟ ਫੈਸਲਿਆਂ ‘ਤੇ ਕਿਵੇਂ ਪਹੁੰਚਦੇ ਹਨ ਇਸ ਬਾਰੇ ਪਾਰਦਰਸ਼ਤਾ ਪ੍ਰਦਾਨ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।

ਜਦੋਂ ਕਿ ਸਪੱਸ਼ਟ ਤਰਕ ਬੈਂਡਿਟ ਵਰਗੇ ਸਧਾਰਨ, ਸਿੰਗਲ-ਟਰਨ ਕੰਮਾਂ ਵਿੱਚ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ, ਇਹ ਮਲਟੀ-ਟਰਨ ਸਿਖਲਾਈ ਦੌਰਾਨ ਵਿਗੜਦਾ ਹੈ। ਢਾਂਚਾਗਤ ਪ੍ਰੋਂਪਟਾਂ ਅਤੇ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਬਾਵਜੂਦ, ਤਰਕ ਟਰੇਸ ਅਕਸਰ ਸੁੰਗੜ ਜਾਂਦੇ ਹਨ ਜਾਂ ਅਲੋਪ ਹੋ ਜਾਂਦੇ ਹਨ ਜਦੋਂ ਤੱਕ ਕਿ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਇਨਾਮ ਨਾ ਦਿੱਤਾ ਜਾਵੇ।

ਇਹ ਰਵਾਇਤੀ ਇਨਾਮ ਡਿਜ਼ਾਈਨ ਵਿੱਚ ਇੱਕ ਸੀਮਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: ਕੰਮ ਨੂੰ ਪੂਰਾ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨ ਨਾਲ ਪ੍ਰਕਿਰਿਆ ਦੀ ਗੁਣਵੱਤਾ ਨਜ਼ਰਅੰਦਾਜ਼ ਹੋ ਸਕਦੀ ਹੈ। ਟੀਮ ਨੇ ਬਿਹਤਰ-ਢਾਂਚਾਗਤ ਤਰਕ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਲਈ ਫਾਰਮੈਟ-ਅਧਾਰਤ ਜੁਰਮਾਨਿਆਂ ਨਾਲ ਪ੍ਰਯੋਗ ਕੀਤਾ, ਪਰ ਮੰਨਦਾ ਹੈ ਕਿ ਵਧੇਰੇ ਸੁਧਾਰੇ ਗਏ ਇਨਾਮ ਸ਼ੇਪਿੰਗ ਦੀ ਸੰਭਾਵਨਾ ਹੈ।

ਏਆਈ ਏਜੰਟ ਵਿਕਾਸ ਲਈ ਓਪਨ-ਸੋਰਸ ਟੂਲ

RAGEN, ਇਸਦੇ StarPO ਅਤੇ StarPO-S ਫਰੇਮਵਰਕ ਦੇ ਨਾਲ, ਹੁਣ ਇੱਕ ਓਪਨ-ਸੋਰਸ ਪ੍ਰੋਜੈਕਟ ਦੇ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਹੈ। ਇਹ ਉਹਨਾਂ ਲੋਕਾਂ ਲਈ ਇੱਕ ਕੀਮਤੀ ਨੀਂਹ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਏਆਈ ਏਜੰਟਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹਨ ਜੋ ਨਾ ਸਿਰਫ਼ ਕੰਮ ਪੂਰੇ ਕਰਦੇ ਹਨ, ਸਗੋਂ ਸੋਚਦੇ, ਯੋਜਨਾ ਬਣਾਉਂਦੇ ਅਤੇ ਵਿਕਸਤ ਹੁੰਦੇ ਹਨ।

ਜਿਵੇਂ ਕਿ ਏਆਈ ਵਧੇਰੇ ਖੁਦਮੁਖਤਿਆਰੀ ਵੱਲ ਵਧਦਾ ਹੈ, RAGEN ਵਰਗੇ ਪ੍ਰੋਜੈਕਟ ਇਸ ਗੱਲ ‘ਤੇ ਰੋਸ਼ਨੀ ਪਾਉਂਦੇ ਹਨ ਕਿ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕੀ ਕਰਨਾ ਪੈਂਦਾ ਹੈ ਜੋ ਡੇਟਾ ਅਤੇ ਆਪਣੀਆਂ ਕਾਰਵਾਈਆਂ ਦੇ ਨਤੀਜਿਆਂ ਦੋਵਾਂ ਤੋਂ ਸਿੱਖਦੇ ਹਨ।

ਅਸਲ-ਸੰਸਾਰ ਲਾਗੂਕਰਨ ਲਈ ਮੁੱਖ ਸਵਾਲ

ਜਦੋਂ ਕਿ RAGEN ਪੇਪਰ ਇੱਕ ਵਿਸਤ੍ਰਿਤ ਤਕਨੀਕੀ ਢਾਂਚਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਕਾਰਪੋਰੇਟ ਵਾਤਾਵਰਣ ਵਿੱਚ ਇਸਦੀ ਵਰਤੋਂ ‘ਤੇ ਵਿਚਾਰ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਕਈ ਵਿਹਾਰਕ ਸਵਾਲ ਬਾਕੀ ਹਨ। ਉਦਾਹਰਨ ਲਈ, RAGEN ਦੀ ਪਹੁੰਚ ਇਹਨਾਂ ਸਟਾਈਲਾਈਜ਼ਡ, ਪ੍ਰਤੀਕਾਤਮਕ ਕਾਰਜਾਂ ਤੋਂ ਪਰੇ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਅਨੁਵਾਦ ਕਰਦੀ ਹੈ? ਕੀ ਕੰਪਨੀਆਂ ਨੂੰ ਇਨਵੌਇਸ ਪ੍ਰੋਸੈਸਿੰਗ ਜਾਂ ਗਾਹਕ ਸਹਾਇਤਾ ਵਰਗੇ ਵਰਕਫਲੋ ਵਿੱਚ ਇਸ ਸਿਸਟਮ ਦੀ ਵਰਤੋਂ ਕਰਨ ਲਈ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੇਂ ਵਾਤਾਵਰਣ ਅਤੇ ਇਨਾਮ ਫੰਕਸ਼ਨ ਬਣਾਉਣ ਦੀ ਜ਼ਰੂਰਤ ਹੋਏਗੀ?

ਇੱਕ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਵਿਚਾਰ ਸਕੇਲੇਬਿਲਟੀ ਹੈ। StarPO-S ਦੁਆਰਾ ਪੇਸ਼ ਕੀਤੀਆਂ ਗਈਆਂ ਸੁਧਾਰਾਂ ਦੇ ਨਾਲ ਵੀ, ਪੇਪਰ ਮੰਨਦਾ ਹੈ ਕਿ ਸਿਖਲਾਈ ਲੰਬੇ ਸਮੇਂ ਤੱਕ ਢਹਿ ਸਕਦੀ ਹੈ। ਇਹ ਸਵਾਲ ਉਠਾਉਂਦਾ ਹੈ ਕਿ ਕੀ ਖੁੱਲ੍ਹੇ-ਅੰਤ ਵਾਲੇ ਜਾਂ ਲਗਾਤਾਰ ਵਿਕਸਤ ਹੋ ਰਹੇ ਕਾਰਜ ਲੜੀਵਾਂ ‘ਤੇ ਤਰਕ ਨੂੰ ਕਾਇਮ ਰੱਖਣ ਲਈ ਕੋਈ ਸਿਧਾਂਤਕ ਜਾਂ ਵਿਹਾਰਕ ਮਾਰਗ ਹੈ।

RAGEN ਵਧੇਰੇ ਖੁਦਮੁਖਤਿਆਰੀ, ਤਰਕ ਕਰਨ ਦੇ ਸਮਰੱਥ ਏਆਈ ਏਜੰਟਾਂ ਨੂੰ ਬਣਾਉਣ ਵੱਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਸਿਰਫ਼ ਤਕਨੀਕੀ ਯੋਗਦਾਨਾਂ ਤੋਂ ਪਰੇ ਭਵਿੱਖ ਦੇ ਵਿਕਾਸ ਲਈ ਇੱਕ ਸੰਕਲਪਿਕ ਢਾਂਚਾ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਭਾਵੇਂ ਇਹ ਕਾਰਪੋਰੇਟ ਏਆਈ ਟੂਲਕਿੱਟ ਦਾ ਇੱਕ ਮਿਆਰੀ ਹਿੱਸਾ ਬਣ ਜਾਂਦਾ ਹੈ, ਇਹ ਦੇਖਣਾ ਬਾਕੀ ਹੈ, ਪਰ ਏਜੰਟ ਸਿੱਖਣ ਦੀ ਗਤੀਸ਼ੀਲਤਾ ਵਿੱਚ ਇਸਦੀਆਂ ਸਮਝਾਂ ਪਹਿਲਾਂ ਹੀ LLM ਸਿਖਲਾਈ ਦੇ ਭਵਿੱਖ ਨੂੰ ਆਕਾਰ ਦੇ ਰਹੀਆਂ ਹਨ।

ਇਹ ਨਵਾਂ ਤਰੀਕਾ ਭਰੋਸੇਯੋਗ ਅਤੇ ਅਨੁਕੂਲ ਏਆਈ ਏਜੰਟਾਂ ਦੀ ਨਾਜ਼ੁਕ ਲੋੜ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ, ਅਸਲ-ਸੰਸਾਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਇੱਕ ਵਾਅਦਾ ਕਰਨ ਵਾਲਾ ਮਾਰਗ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਤਜਰਬੇ ਦੁਆਰਾ ਸਿੱਖਣ ਅਤੇ ਫੈਸਲੇ ਲੈਣ ਦੇ ਮਾਰਗਾਂ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਕੇ, RAGEN ਸਿਧਾਂਤਕ ਮਾਡਲਾਂ ਅਤੇ ਵਿਹਾਰਕ ਲਾਗੂਕਰਨਾਂ ਵਿਚਕਾਰ ਪਾੜੇ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਫਰੇਮਵਰਕ ਦੀ ਓਪਨ-ਸੋਰਸ ਉਪਲਬਧਤਾ ਖੇਤਰ ਵਿੱਚ ਨਵੀਨਤਾ ਨੂੰ ਹੋਰ ਤੇਜ਼ ਕਰਦੀ ਹੈ, ਖੋਜਕਰਤਾਵਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਇਸਦੀਆਂ ਨੀਂਹਾਂ ‘ਤੇ ਬਣਾਉਣ ਅਤੇ ਏਆਈ ਏਜੰਟ ਤਕਨਾਲੋਜੀ ਵਿੱਚ ਨਵੇਂ ਸਰਹੱਦਾਂ ਦੀ ਖੋਜ ਕਰਨ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ।