ਮੇਲਮ: ਤੁਹਾਡੇ ਐਡੀਟਰ ਵਿੱਚ ਕੋਡ ਪੂਰਾ ਕਰਨ ਲਈ ਇੱਕ ਤੇਜ਼, ਛੋਟਾ ਮਾਡਲ
ਇੰਟੀਗਰੇਟਿਡ ਡਿਵੈਲਪਮੈਂਟ ਈਨਵਾਇਰਨਮੈਂਟਸ (ਆਈਡੀਈ) ਦਾ ਖੇਤਰ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਆਟੋਕੰਪਲੀਸ਼ਨ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਸ਼ਕਤੀ ਅਤੇ ਸ਼ੁੱਧਤਾ ਦੁਆਰਾ ਮਜ਼ਬੂਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਹਾਲਾਂਕਿ, ਇੱਕ ਨਵਾਂ ਮੁਕਾਬਲੇਬਾਜ਼ ਅਖਾੜੇ ਵਿੱਚ ਦਾਖਲ ਹੋਇਆ ਹੈ: ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (ਏਆਈ)। ਆਈਡੀਈ ਵਿੱਚ ਏਆਈ ਦਾ ਏਕੀਕਰਨ ਵੱਧ ਤੋਂ ਵੱਧ ਆਮ ਹੁੰਦਾ ਜਾ ਰਿਹਾ ਹੈ, ਜਿਸ ਨਾਲ ਰਵਾਇਤੀ ਸਾਧਨਾਂ ਦਾ ਮੁੜ ਮੁਲਾਂਕਣ ਹੋ ਰਿਹਾ ਹੈ। ਹਾਲਾਂਕਿ ਇਹ ਪੁਰਾਣੇ ਤਰੀਕੇ ਅਜੇ ਵੀ ਕੰਮ ਕਰਦੇ ਹਨ, ਪਰ ਉਹ ਹੁਣ ਉਹ ਅਤਿ-ਆਧੁਨਿਕ ਸਹਾਇਤਾ ਪ੍ਰਦਾਨ ਨਹੀਂ ਕਰ ਸਕਦੇ ਜਿਸਦੀ ਡਿਵੈਲਪਰ ਹੁਣ ਉਮੀਦ ਕਰਦੇ ਹਨ।
ਇਹ ਲੇਖ ਜੇਟਬ੍ਰੇਨਜ਼ ਦੁਆਰਾ ਇੱਕ ਬਲੌਗ ਪੋਸਟ ਤੋਂ ਲਿਆ ਗਿਆ ਹੈ, ਅਤੇ ਮੇਲਮ ਦੀ ਸਿਖਲਾਈ ਅਤੇ ਸਮਰੱਥਾਵਾਂ ਦੀ ਡੂੰਘਾਈ ਨਾਲ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਕਲਾਉਡ-ਅਧਾਰਤ ਆਟੋਕੰਪਲੀਸ਼ਨ ਨੂੰ ਅੰਡਰਪਿੰਨ ਕਰਨ ਵਾਲਾ ਇੱਕ ਮਾਡਲ ਹੈ। ਜੇਟਬ੍ਰੇਨਜ਼, ਆਪਣੇ ਆਈਡੀਈ ਅਤੇ ਕੋਡ ਸੰਪਾਦਕਾਂ ਲਈ ਮਸ਼ਹੂਰ ਹੈ ਜੋ ਪ੍ਰੋਗਰਾਮਰਾਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ, ਨੇ ਤੇਜ਼ ਅਤੇ ਕੁਸ਼ਲ ਕੋਡ ਆਟੋਕੰਪਲੀਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਮੇਲਮ ਨੂੰ ਵਿਕਸਤ ਕੀਤਾ ਹੈ। ਮੇਲਮ ਨੂੰ ਸਥਾਨਕ ਡਿਵਾਈਸ ‘ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਇਸਨੂੰ ਆਪਣੀ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਸਭ ਤੋਂ ਤੇਜ਼ ਅਤੇ ਸਭ ਤੋਂ ਸੰਖੇਪ ਮਾਡਲਾਂ ਵਿੱਚੋਂ ਇੱਕ ਵਜੋਂ ਵੱਖਰਾ ਕਰਦਾ ਹੈ। ਸੰਕਲਪਿਕ ਤੌਰ ‘ਤੇ ਸਮਾਨ ਪ੍ਰੋਜੈਕਟ ਮਾਈਕਰੋਸਾਫਟ ਫਾਈ ਹੈ।
ਸਪੱਸ਼ਟ ਚੁਣੌਤੀਆਂ ਨੂੰ ਸੰਬੋਧਿਤ ਕਰਨਾ
ਜੇਟਬ੍ਰੇਨਜ਼ ਇੰਜੀਨੀਅਰਾਂ ਨੂੰ ਏਆਈ-ਸੰਚਾਲਿਤ ਆਟੋਕੰਪਲੀਸ਼ਨ ਦੀ ਆਪਣੀ ਕੋਸ਼ਿਸ਼ ਵਿੱਚ ਕਈ ਨਾਜ਼ੁਕ ਚੁਣੌਤੀਆਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਿਆ:
- ਗਤੀ ਅਤੇ ਲਾਗਤ: ਰਵਾਇਤੀ ਚੈਟ ਮਾਡਲ ਆਪਣੀ ਉੱਚ ਗਣਨਾਤਮਕ ਲਾਗਤਾਂ ਅਤੇ ਹੌਲੀ ਜਵਾਬ ਸਮੇਂ ਕਾਰਨ ਅਵਿਵਹਾਰਕ ਸਾਬਤ ਹੋਏ। ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਵਿੱਚ ਕੋਡ-ਵਿਸ਼ੇਸ਼ ਤਕਨੀਕਾਂ ਜਿਵੇਂ ਕਿ ਫਿਲ-ਇਨ-ਦ-ਮਿਡਲ (ਐਫਆਈਐਮ) ਜਾਂ ਟੋਕਨ ਹੀਲਿੰਗ ਬਾਰੇ ਵੀ ਜਾਣਕਾਰੀ ਦੀ ਘਾਟ ਸੀ।
- ਆਉਟਪੁੱਟ ਫਾਰਮੈਟਿੰਗ: ਫਲੈਗਸ਼ਿਪ ਚੈਟ ਮਾਡਲ ਅਕਸਰ ਅਸੰਗਤ ਫਾਰਮੈਟਾਂ ਵਿੱਚ ਡੇਟਾ ਤਿਆਰ ਕਰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਜਵਾਬਾਂ ਨੂੰ ਪਾਰਸ ਕਰਨਾ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਸੰਪਾਦਕ ਵਿੱਚ ਸਹਿਜੇ ਹੀ ਏਕੀਕ੍ਰਿਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ।
- ਡੇਟਾ ਉਤਪੱਤੀ: ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਸ਼ੁਰੂਆਤ ਦਾ ਪਤਾ ਲਗਾਉਣਾ ਅਤੇ ਸੰਭਾਵੀ ਕਾਪੀਰਾਈਟ ਉਲੰਘਣਾ ਦੇ ਮੁੱਦਿਆਂ ਨੂੰ ਘਟਾਉਣਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰੁਕਾਵਟ ਪੇਸ਼ ਕਰਦਾ ਹੈ।
ਮੇਲਮ: ਇੱਕ ਸੰਖੇਪ ਜਾਣਕਾਰੀ
ਜੇਟਬ੍ਰੇਨਜ਼ ਦੀ ਵਿਕਾਸ ਟੀਮ ਨੇ ਮਹਿਸੂਸ ਕੀਤਾ ਕਿ ਆਪਣਾ ਮਾਡਲ ਬਣਾਉਣਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਸੀ। ਉਨ੍ਹਾਂ ਦਾ ਟੀਚਾ ਇੱਕ ਅਜਿਹਾ ਮਾਡਲ ਡਿਜ਼ਾਈਨ ਕਰਨਾ ਸੀ ਜੋ ਗੁਣਵੱਤਾ, ਅਨੁਮਾਨ ਲਾਗਤਾਂ, ਅਤੇ ਲੇਟੈਂਸੀ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਦਾ ਹੈ ਜਦੋਂ ਕਿ ਸਪੱਸ਼ਟ ਉਤਪੱਤੀ ਵਾਲੇ ਡੇਟਾ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਸ਼ੁਰੂਆਤੀ ਖੋਜ ਨੇ ਸੁਝਾਅ ਦਿੱਤਾ ਕਿ ਲਗਭਗ 4 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਇੱਕ ਮਾਡਲ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਅਤੇ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਸਮਰੱਥ ਆਟੋਕੰਪਲੀਸ਼ਨ ਸਮਰੱਥਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸਿਰਫ਼ ਕੋਡ ‘ਤੇ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇ ਕੇ, ਉਹ ਟੋਕਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਸ਼ਬਦਾਵਲੀ ਸਥਾਪਤ ਕਰ ਸਕਦੇ ਹਨ, ਜੋ ਕਿ ਅਣਉਚਿਤ ਡੇਟਾ ਤੋਂ ਮੁਕਤ ਹੈ।
ਮੇਲਮ ਮਾਡਲ ਲਈ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਤਿੰਨ ਵੱਖ-ਵੱਖ ਪੜਾਅ ਹੁੰਦੇ ਹਨ, ਹਰ ਇੱਕ ਨਵਾਂ ਗਿਆਨ ਦਿੰਦਾ ਹੈ ਅਤੇ ਤਿਆਰ ਕੀਤੇ ਕੋਡ ਦੀ ਗੁਣਵੱਤਾ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ। ਸ਼ੁਰੂਆਤੀ ਪੜਾਅ ਵਿੱਚ ਵਿਅਕਤੀਗਤ ਫਾਈਲਾਂ ਦੇ ਇੱਕ ਵੱਡੇ ਕਾਰਪਸ ‘ਤੇ ਬੁਨਿਆਦੀ ਪ੍ਰੀ-ਸਿਖਲਾਈ ਸ਼ਾਮਲ ਹੁੰਦੀ ਹੈ। ਦੂਜੇ ਪੜਾਅ ਵਿੱਚ ਵਿਸ਼ੇਸ਼ ਉਦਾਹਰਣਾਂ ਦੇ ਇੱਕ ਛੋਟੇ ਸਮੂਹ ਨਾਲ ਮਾਡਲ ਨੂੰ ਸੁਧਾਰਨਾ ਸ਼ਾਮਲ ਹੈ। ਆਈਡੀਈ-ਵਿਸ਼ੇਸ਼ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਅਨੁਕੂਲ ਹੋਣ ਅਤੇ ਅਣਚਾਹੇ ਆਉਟਪੁੱਟ ਨੂੰ ਖਤਮ ਕਰਨ ਲਈ ਤੀਜੇ ਪੜਾਅ ਵਿੱਚ ਏਆਈ ਫੀਡਬੈਕ (ਆਰਐਲਏਆਈਐਫ) ਨਾਲ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਵਰਤੀ ਜਾਂਦੀ ਹੈ।
ਪੂਰਵ-ਸਿਖਲਾਈ
ਅਸਪਸ਼ਟ ਡੇਟਾ ਮੂਲ ਨਾਲ ਜੁੜੇ ਸੰਭਾਵੀ ਮੁੱਦਿਆਂ ਤੋਂ ਬਚਣ ਲਈ, ਮਾਡਲ ਨੂੰ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਜਿਸ ਲਈ ਬਹੁਤ ਸਾਰੀਆਂ ਭਾਸ਼ਾਵਾਂ, ਪ੍ਰੋਗਰਾਮਿੰਗ ਸੰਟੈਕਸ, ਪੈਟਰਨਾਂ ਅਤੇ ਮੁੱਖ ਸੰਕਲਪਾਂ ਦੀ ਵਿਆਪਕ ਜਾਣ-ਪਛਾਣ ਦੀ ਲੋੜ ਸੀ।
ਡੇਟਾਸੈੱਟ
ਪੂਰਵ-ਸਿਖਲਾਈ ਲਈ ਪ੍ਰਾਇਮਰੀ ਡੇਟਾ ਸਰੋਤ ਦ ਸਟੈਕ ਸੀ। ਇਹ ਡੇਟਾਸੈੱਟ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਡੇਟਾ ਕਾਨੂੰਨੀ ਤੌਰ ‘ਤੇ ਸਹੀ ਅਤੇ ਅਮਲੀ ਤੌਰ ‘ਤੇ ਲਾਭਦਾਇਕ ਦੋਵੇਂ ਹੈ।
ਪੂਰਵ-ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ
ਪੂਰਵ-ਸਿਖਲਾਈ ਦੇ ਦੌਰਾਨ, ਡੇਟਾਸੈੱਟ ਨੂੰ ਲਗਭਗ 3 ਟ੍ਰਿਲੀਅਨ ਟੋਕਨਾਂ ਤੱਕ ਪਹੁੰਚਣ ਲਈ ਕਈ ਵਾਰ ਸੈਂਪਲ ਕੀਤਾ ਗਿਆ ਸੀ। 8192 ਟੋਕਨਾਂ ਦੀ ਇੱਕ ਸੰਦਰਭ ਵਿੰਡੋ ਵਰਤੀ ਗਈ ਸੀ, ਜਿਸ ਵਿੱਚ ਡੇਟਾਸੈੱਟ ਨੂੰ ਇਸ ਆਕਾਰ ਦੇ ਟੁਕੜਿਆਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਸੀ। ਫਿਲ-ਇਨ-ਦ-ਮਿਡਲ (ਐਫਆਈਐਮ) ਪਰਿਵਰਤਨ ਨੂੰ ਹਰੇਕ ਟੁਕੜੇ ਵਿੱਚ ਅੱਧੀਆਂ ਫਾਈਲਾਂ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਨਾਲ ਮਾਡਲ ਨੂੰ ਪਿਛਲੇ ਅਤੇ ਬਾਅਦ ਦੇ ਕੋਡ ਦੋਵਾਂ ‘ਤੇ ਵਿਚਾਰ ਕਰਨ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਹ ਤਕਨੀਕ ਅਸਲ-ਸੰਸਾਰ ਕੋਡ ਉਤਪਾਦਨ ਦ੍ਰਿਸ਼ਾਂ ਦੀ ਨੇੜਿਓਂ ਨਕਲ ਕਰਦੀ ਹੈ।
ਪੂਰਵ-ਸਿਖਲਾਈ ਪੜਾਅ ਸੋਲਾਂ ਨੋਡਾਂ ਦੇ ਇੱਕ ਕਲੱਸਟਰ ‘ਤੇ ਕੀਤਾ ਗਿਆ ਸੀ, ਹਰੇਕ ਵਿੱਚ ਅੱਠ H100 ਜੀਪੀਯੂ ਹਨ। ਇਸ ਪੜਾਅ ਨੂੰ ਪੂਰਾ ਹੋਣ ਵਿੱਚ ਲਗਭਗ 15 ਦਿਨ ਲੱਗੇ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ 4-ਬਿਲੀਅਨ-ਪੈਰਾਮੀਟਰ ਮੇਲਮ-ਅਧਾਰ ਮਾਡਲ ਬਣਿਆ।
ਪੂਰਵ-ਸਿਖਲਾਈ ਇੱਕ ਆਮ-ਮਕਸਦ ਕੋਡ ਆਟੋਕੰਪਲੀਸ਼ਨ ਮਾਡਲ ਬਣਾਉਂਦੀ ਹੈ ਜਿਸ ਵਿੱਚ ਬਹੁਤ ਸਾਰੀਆਂ ਪ੍ਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾਵਾਂ ਦਾ ਵਿਆਪਕ ਗਿਆਨ ਹੁੰਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਇਸ ਪੜਾਅ ‘ਤੇ, ਮਾਡਲ ਨੂੰ ਸਿਰਫ਼ ਬੇਤਰਤੀਬ ਢੰਗ ਨਾਲ ਚੁਣੇ ਗਏ ਫਾਈਲ ਹਿੱਸੇ ਵਿੱਚ ਅਗਲਾ ਟੋਕਨ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਵਾਧੂ ਸੰਦਰਭ ਤੋਂ ਬਿਨਾਂ, ਮਾਡਲ ਨੂੰ ਕੋਡ ਢਾਂਚੇ ਬਾਰੇ ਕੋਈ ਜਾਣਕਾਰੀ ਨਹੀਂ ਹੁੰਦੀ ਅਤੇ ਇਸ ਕੋਲ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨ ਦਾ ਕੋਈ ਤਰੀਕਾ ਨਹੀਂ ਹੁੰਦਾ ਕਿ ਕਦੋਂ ਕੋਡ ਤਿਆਰ ਕਰਨਾ ਬੰਦ ਕਰਨਾ ਹੈ।
ਵਧੀਆ-ਟਿਊਨਿੰਗ ਪੜਾਅ ਇਹਨਾਂ ਸੀਮਾਵਾਂ ਨੂੰ ਦੂਰ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।
ਸੰਦਰਭ-ਜਾਗਰੂਕ ਵਧੀਆ-ਟਿਊਨਿੰਗ
ਵਧਿਆ ਹੋਇਆ ਫਿਲ-ਇਨ-ਦ-ਮਿਡਲ
ਪੂਰਵ-ਸਿਖਲਾਈ ਦੇ ਉਲਟ, ਜਿੱਥੇ ਭਵਿੱਖਬਾਣੀ ਲਈ ਕੋਡ ਫ੍ਰੈਗਮੈਂਟ ਬੇਤਰਤੀਬ ਢੰਗ ਨਾਲ ਚੁਣੇ ਜਾਂਦੇ ਹਨ, ਵਧੀਆ-ਟਿਊਨਿੰਗ ਕੋਡ ਨੂੰ ਵਧੇਰੇ ਅਰਥਪੂਰਨ ਢੰਗ ਨਾਲ ਵੰਡਣ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਤ ਕਰਦੀ ਹੈ, ਮਾਡਲ ਨੂੰ ਕੋਡ ਫ੍ਰੈਗਮੈਂਟ ਕੱਢਣ ਲਈ ਸਿਖਲਾਈ ਦਿੰਦੀ ਹੈ ਜੋ “ਜੰਗਲੀ ਵਿੱਚ” ਹੁੰਦੇ ਹਨ।
ਵਿਸ਼ੇਸ਼ ਉਦਾਹਰਣਾਂ
ਅਭਿਆਸ ਵਿੱਚ, ਕੋਡ ਆਟੋਕੰਪਲੀਸ਼ਨ ਲਈ ਆਲੇ ਦੁਆਲੇ ਦੀਆਂ ਫਾਈਲਾਂ ਅਤੇ ਵਿਆਪਕ ਸੰਦਰਭਾਂ ਨੂੰ ਸਮਝਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਸੰਭਵ ਤੌਰ ‘ਤੇ ਪੂਰੇ ਪ੍ਰੋਜੈਕਟਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ।
ਡੇਟਾ ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਲਈ, ਕੰਪਨੀ ਨੇ ਕੋਡ ਇੰਜਣ ਨਾਮ ਦਾ ਇੱਕ ਅੰਦਰੂਨੀ ਪ੍ਰੋਜੈਕਟ ਸ਼ੁਰੂ ਕੀਤਾ: ਇੱਕ ਕਰਾਸ-ਪਲੇਟਫਾਰਮ ਐਸਡੀਕੇ ਅਤੇ ਕੰਸੋਲ ਉਪਯੋਗਤਾਵਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਜੋ ਪੂਰੀ ਪ੍ਰੋਜੈਕਟ ਇੰਡੈਕਸਿੰਗ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਸਿੱਧੇ ਆਮ ਫਾਈਲਾਂ ਤੋਂ ਸੰਦਰਭ ਬਣਾਉਣ ਲਈ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ SDK ਨੂੰ ਇੱਕ ਅੰਦਰੂਨੀ MapReduce ਕਲੱਸਟਰ ‘ਤੇ ਤਾਇਨਾਤ ਕੀਤਾ ਗਿਆ ਸੀ ਅਤੇ ਇੱਕ ਵਾਜਬ ਸਮਾਂ ਸੀਮਾ ਦੇ ਅੰਦਰ ਸਿਖਲਾਈ ਲਈ ਬਹੁਤ ਸਾਰੀਆਂ ਉਪਯੋਗੀ ਉਦਾਹਰਣਾਂ ਤਿਆਰ ਕਰਨ ਲਈ ਹਜ਼ਾਰਾਂ ਜਨਤਕ ਰਿਪੋਜ਼ਟਰੀਆਂ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਲਈ ਵਰਤਿਆ ਗਿਆ ਸੀ।
ਸਹੀ ਐਲਗੋਰਿਦਮ ਲੱਭਣ ਲਈ ਕੁਝ ਅਜ਼ਮਾਇਸ਼ ਅਤੇ ਗਲਤੀ ਦੀ ਲੋੜ ਸੀ।
ਖਾਸ ਭਾਸ਼ਾਵਾਂ ਲਈ ਟਿਊਨਿੰਗ
ਛੋਟੇ ਮਾਡਲ ਖਾਸ ਭਾਸ਼ਾਵਾਂ ਲਈ ਵਿਸ਼ੇਸ਼ਤਾ ਤੋਂ ਬਹੁਤ ਲਾਭ ਲੈ ਸਕਦੇ ਹਨ। ਜਦੋਂ ਕਿ ਬੇਸ ਮਾਡਲ ਨੂੰ 80 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਜ਼ਿਆਦਾਤਰ ਉਪਭੋਗਤਾ ਆਮ ਤੌਰ ‘ਤੇ ਸਿਰਫ਼ ਇੱਕ ਜਾਂ ਦੋ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ। ਇਸ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, ਜੇਟਬ੍ਰੇਨਜ਼ ਨੇ ਕਈ ਵਿਸ਼ੇਸ਼ ਮਾਡਲ ਬਣਾਏ:
- ਮੇਲਮ-ਆਲ: ਜੇਟਬ੍ਰੇਨਜ਼ ਆਈਡੀਈ ਵਿੱਚ ਉਪਲਬਧ ਜ਼ਿਆਦਾਤਰ ਭਾਸ਼ਾਵਾਂ ਅਤੇ ਉਪਭਾਸ਼ਾਵਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ, ਪਰ ਆਟੋਕੰਪਲੀਸ਼ਨ ਗੁਣਵੱਤਾ ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਨਾਲੋਂ ਘੱਟ ਹੈ।
- ਮੇਲਮ-ਪਾਈਥਨ: ਪਾਈਥਨ ਅਤੇ ਜੁਪੀਟਰ ਵਿੱਚ ਮੁਹਾਰਤ ਰੱਖਦਾ ਹੈ।
- ਮੇਲਮ-ਕੋਟਲਿਨ: ਜਾਵਾ ਅਤੇ ਕੋਟਲਿਨ ਵਿੱਚ ਮੁਹਾਰਤ ਰੱਖਦਾ ਹੈ।
- ਮੇਲਮ-ਵੈੱਬ: ਵੈੱਬ ਤਕਨਾਲੋਜੀਆਂ ਵਿੱਚ ਮੁਹਾਰਤ ਰੱਖਦਾ ਹੈ।
ਆਖਰੀ ਕਦਮ: RLAIF
ਅੰਤ ਵਿੱਚ, ਉਹ ਕੇਸ ਜਿੱਥੇ ਸਿੱਖਣ ਦੇ ਟੀਚੇ ਉਪਭੋਗਤਾ ਦੀਆਂ ਉਮੀਦਾਂ ਨਾਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦੇ, ਹੱਲ ਕੀਤੇ ਜਾਣੇ ਚਾਹੀਦੇ ਹਨ। ਇੱਕ ਵਾਧੂ ਸਿਖਲਾਈ ਪੜਾਅ, RLAIF - ਏਆਈ ਫੀਡਬੈਕ ਨਾਲ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ, ਅਜਿਹੀਆਂ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ।
ਮਾਡਲ ਉਪਭੋਗਤਾ ਦੀਆਂ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ਤੋਂ ਸਿੱਖਦਾ ਹੈ ਅਤੇ ਸਮਝਦਾ ਹੈ ਕਿ ਉਪਭੋਗਤਾ ਦੀਆਂ ਤਰਜੀਹਾਂ ਨੂੰ ਬਿਹਤਰ ਢੰਗ ਨਾਲ ਕਿਵੇਂ ਦਰਸਾਉਣਾ ਹੈ।
ਇਹ ਪਹੁੰਚ ਨਾ ਸਿਰਫ਼ ਸਮੁੱਚੇ ਗੁਣਵੱਤਾ ਸਕੋਰ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦੀ ਹੈ, ਸਗੋਂ ਤੰਗ ਕਰਨ ਵਾਲੀਆਂ ਉਤਪਾਦਨ ਕਲਾਕ੍ਰਿਤੀਆਂ ਦੀ ਗਿਣਤੀ ਨੂੰ ਵੀ ਘਟਾਉਂਦੀ ਹੈ।
ਮੇਲਮ ਕਿੰਨਾ ਚੰਗਾ ਹੈ?
ਮਾਡਲ ਆਪਣੇ ਆਕਾਰ ਲਈ ਬਹੁਤ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾਹੈ। ਇੱਥੇ ਇਹ ਕਿਵੇਂ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਸੀ:
- ਪਹਿਲਾਂ, ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਇੱਕ ਅੰਦਰੂਨੀ ਬੈਂਚਮਾਰਕ ਕੋਡਨਾਮ “ਜੇਟਬ੍ਰੇਨਜ਼ ਬਿਗਕੋਡ” ‘ਤੇ ਕੀਤਾ ਗਿਆ ਸੀ।
- ਫਿਰ ਇਸਦੀ ਜਾਂਚ ਮਸ਼ਹੂਰ ਜਨਤਕ ਬੈਂਚਮਾਰਕਾਂ ਜਿਵੇਂ ਕਿ SAFIM ‘ਤੇ ਕੀਤੀ ਗਈ।
- ਅੰਤ ਵਿੱਚ, ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਲਈ ਵਰਤੋਂ ਦੇ ਅੰਕੜੇ ਇਕੱਠੇ ਕੀਤੇ ਗਏ, ਅਤੇ ਉਪਭੋਗਤਾ ਮੈਟ੍ਰਿਕਸ ਦੀ ਗਣਨਾ ਕੀਤੀ ਗਈ।
ਔਫਲਾਈਨ ਮੁਲਾਂਕਣ
ਡੇਟਾ ਇਕੱਠਾ ਕਰਨਾ ਇੱਕ ਗੁੰਝਲਦਾਰ ਕੰਮ ਹੈ, ਪਰ ਇੱਕ ਚੰਗਾ ਮੈਟ੍ਰਿਕ ਬਣਾਉਣਾ ਜੋ ਅਸਲ ਸੁਝਾਅ ਦੀ ਨਿਊਰਲ ਨੈਟਵਰਕ ਦੁਆਰਾ ਪ੍ਰਸਤਾਵਿਤ ਨਵੇਂ ਨਾਲ ਤੁਲਨਾ ਕਰਦਾ ਹੈ, ਹੋਰ ਵੀ ਚੁਣੌਤੀਪੂਰਨ ਹੈ। ਅਸੀਂ ਇੱਕ ਛੋਟਾ ਜਿਹਾ ਅਧਿਐਨ ਕੀਤਾ ਅਤੇ ਅੰਤ ਵਿੱਚ ਦੋ ਪ੍ਰਾਇਮਰੀ ਮੈਟ੍ਰਿਕਸ ਦੇ ਸੁਮੇਲ ‘ਤੇ ਸੈਟਲ ਹੋ ਗਏ:
ਈਐਮ:
- ਐਗਜੈਕਟ ਮੈਚ ਇੱਕ ਬਹੁਤ ਮਸ਼ਹੂਰ ਵਿਚਾਰ ਹੈ।
- ਇੱਕ ਭਵਿੱਖਬਾਣੀ ਨੂੰ ਚੰਗਾ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ ਜੇਕਰ ਪੂਰਤੀ ਦੀ ਪਹਿਲੀ ਲਾਈਨ ਘੱਟੋ-ਘੱਟ ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਨਾਲ ਅਸਲ ਦੀ ਪਹਿਲੀ ਲਾਈਨ ਨਾਲ ਮੇਲ ਖਾਂਦੀ ਹੈ।
ਕੇਕੇ:
- ਮੈਟ੍ਰਿਕ ਦਾ ਨਾਮ ਇਸਦੇ ਲੇਖਕਾਂ ਦੇ ਨਾਮ ‘ਤੇ ਰੱਖਿਆ ਗਿਆ ਸੀ।
- ਪ੍ਰਸਤਾਵਿਤ ਪੂਰਤੀ ਵਿੱਚ ਲਾਈਨਾਂ ਦੀ ਸੰਖਿਆ ਦੁਆਰਾ ਵੰਡੀਆਂ ਗਈਆਂ ਅਸਲ ਵਿੱਚੋਂ ਪ੍ਰਸਤਾਵਿਤ ਲਾਈਨਾਂ ਦੀ ਸੰਖਿਆ।
ਜੇਟਬ੍ਰੇਨਜ਼ ਬਿਗਕੋਡ
ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਅੰਦਰੂਨੀ ਜੇਟਬ੍ਰੇਨਜ਼ ਬਿਗਕੋਡ ਟੂਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰਾਪਤ ਕੀਤੇ ਇੱਕ ਬੈਂਚਮਾਰਕ ਡੇਟਾਸੈੱਟ ਦੇ ਵਿਰੁੱਧ ਕੀਤਾ ਗਿਆ ਸੀ।
ਜਨਤਕ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੀ ਬਜਾਏ ਆਪਣੇ ਡੇਟਾਸੈੱਟ ‘ਤੇ ਪੂਰਾ ਕੰਟਰੋਲ ਬਣਾਈ ਰੱਖ ਕੇ, ਇਹ ਵੱਖ-ਵੱਖ ਕੋਡਿੰਗ ਸਟਾਈਲ ਅਤੇ ਅਭਿਆਸਾਂ ਲਈ ਮਾਡਲ ਗੁਣਵੱਤਾ ਦਾ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਮੁਲਾਂਕਣ ਕਰਨਾ ਸੰਭਵ ਹੋ ਜਾਂਦਾ ਹੈ।
ਸਾਡੇ ਜੇਟਬ੍ਰੇਨਜ਼ ਬਿਗਕੋਡ ਮੁਲਾਂਕਣ ਦੇ ਨਤੀਜੇ ਪ੍ਰਸਿੱਧ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਗੁਣਵੱਤਾ ਦਿਖਾਉਂਦੇ ਹਨ, ਪਰ ਮੇਲਮ ਛੋਟਾ ਅਤੇ ਵਧੇਰੇ ਕੁਸ਼ਲ ਹੈ।
ਸਿੰਗਲ-ਲਾਈਨ ਸੁਝਾਵਾਂ ਦੀ ਗੁਣਵੱਤਾ (EM ਮੈਟ੍ਰਿਕ)
ਜਨਤਕ ਬੈਂਚਮਾਰਕ
ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਨਾ ਸਿਰਫ਼ ਅੰਦਰੂਨੀ ਡੇਟਾਸੈੱਟ ‘ਤੇ ਕੀਤਾ ਗਿਆ, ਸਗੋਂ ਵੱਖ-ਵੱਖ ਜਨਤਕ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ ਵੀ ਕੀਤਾ ਗਿਆ, ਜਿਵੇਂ ਕਿ ਬਹੁ-ਭਾਸ਼ਾਈ ਬੈਂਚਮਾਰਕ SAFIM (ਸਿੰਟੈਕਸ-ਜਾਗਰੂਕ ਫਿਲ ਇਨ ਦ ਮਿਡਲ)।
ਔਨਲਾਈਨ ਮੁਲਾਂਕਣ
ਮੁੱਖ ਮੈਟ੍ਰਿਕ ਨੂੰ ਪੂਰਾ ਕੀਤੇ ਕੋਡ ਦਾ ਅਨੁਪਾਤ (RoCC) ਕਿਹਾ ਜਾਂਦਾ ਹੈ। ਇਸਨੂੰ ਕੋਡ ਆਟੋਕੰਪਲੀਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਲਿਖੇ ਗਏ ਕੋਡ ਅੱਖਰਾਂ ਦੇ ਸੰਪਾਦਕ ਵਿੱਚ ਕੋਡ ਦੀ ਕੁੱਲ ਮਾਤਰਾ ਦੇ ਅਨੁਪਾਤ ਵਜੋਂ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਗਿਆ ਹੈ।
ਇੱਕ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਮੈਟ੍ਰਿਕ ਸਵੀਕ੍ਰਿਤੀ ਦਰ (AR) ਹੈ, ਜਿਸਦੀ ਗਣਨਾ ਦਿਖਾਏ ਗਏ ਸਾਰੇ ਸੁਝਾਵਾਂ ਦੀ ਗਿਣਤੀ ਦੁਆਰਾ ਵੰਡੇ ਗਏ ਸਵੀਕਾਰ ਕੀਤੇ ਸੁਝਾਵਾਂ ਦੀ ਗਿਣਤੀ ਵਜੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਇਹ ਇੱਕ ਗੁੰਝਲਦਾਰ ਯਾਤਰਾ ਸੀ, ਪਰ ਜੇਟਬ੍ਰੇਨਜ਼ ਮਾਹਿਰਾਂ ਨੇ ਇਸਨੂੰ ਸਨਮਾਨ ਨਾਲ ਪੂਰਾ ਕੀਤਾ। ਅੰਤ ਵਿੱਚ, ਇੱਕ ਆਮ ਅਤੇ ਕਈ ਵਿਸ਼ੇਸ਼ ਮਾਡਲ ਪ੍ਰਾਪਤ ਕੀਤੇ ਗਏ, ਜੋ ਜੇਟਬ੍ਰੇਨਜ਼ ਏਆਈ ਪਲੇਟਫਾਰਮ ਦੁਆਰਾ ਉਪਲਬਧ ਹਨ। ਉਹ ਹੁਣ ਜੇਟਬ੍ਰੇਨਜ਼ ਏਆਈ ਸਹਾਇਕ ਵਿੱਚ ਸਫਲਤਾਪੂਰਵਕ ਕੰਮ ਕਰ ਰਹੇ ਹਨ।
ਅੱਗੇ ਕੀ ਹੈ?
- ਜੇਟਬ੍ਰੇਨਜ਼ ਇੰਜੀਨੀਅਰ ਇਸ ਸਮੇਂ ਵੈੱਬ ਡਿਵੈਲਪਮੈਂਟ ਭਾਸ਼ਾਵਾਂ ਲਈ ਇੱਕ ਮਾਡਲ ‘ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਹਨ। ਇਹ ਨੇੜਲੇ ਭਵਿੱਖ ਵਿੱਚ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਹੋ ਸਕਦਾ ਹੈ।
- ਇੱਕੋ ਸਮੇਂ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਗਿਣਤੀ ਅਤੇ ਡੇਟਾ ਦੀ ਵਿਭਿੰਨਤਾ ਦੋਵਾਂ ਨੂੰ ਵਧਾਉਣ ਦੀਆਂ ਯੋਜਨਾਵਾਂ ਹਨ। ਕੋਡਿੰਗ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਵੱਖ-ਵੱਖ ਕੰਮ ਹਨ — ਮੇਲਮ ਉਹਨਾਂ ਨੂੰ ਵੀ ਕਰਨ ਦੇ ਯੋਗ ਹੋਵੇਗਾ। ਸੇਵਾ ਪ੍ਰਦਰਸ਼ਨ ਅਜੇ ਵੀ ਇੱਕ ਮੁੱਖ ਮੈਟ੍ਰਿਕ ਹੈ, ਇਸ ਲਈ ਮਾਡਲ ਦਾ ਵਿਸਤਾਰ ਵਾਜਬ ਸੀਮਾਵਾਂ ਦੇ ਅੰਦਰ ਹੋਵੇਗਾ।