ਉੱਨਤ OCR ਤੇ ਓਪਨ-ਸੋਰਸ AI: ਦਸਤਾਵੇਜ਼ੀ ਸਮਝ ਦਾ ਨਵਾਂ ਰੂਪ

ਡਿਜੀਟਲ ਖੇਤਰ ਦਸਤਾਵੇਜ਼ਾਂ ਨਾਲ ਭਰਿਆ ਪਿਆ ਹੈ - ਇਕਰਾਰਨਾਮੇ, ਰਿਪੋਰਟਾਂ, ਪੇਸ਼ਕਾਰੀਆਂ, ਇਨਵੌਇਸ, ਖੋਜ ਪੱਤਰ - ਬਹੁਤ ਸਾਰੇ ਸਥਿਰ ਚਿੱਤਰਾਂ ਜਾਂ ਗੁੰਝਲਦਾਰ PDF ਵਜੋਂ ਮੌਜੂਦ ਹਨ। ਦਹਾਕਿਆਂ ਤੋਂ, ਚੁਣੌਤੀ ਸਿਰਫ਼ ਇਹਨਾਂ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਡਿਜੀਟਾਈਜ਼ ਕਰਨਾ ਹੀ ਨਹੀਂ ਰਹੀ, ਸਗੋਂ ਉਹਨਾਂ ਨੂੰ ਸੱਚਮੁੱਚ ਸਮਝਣਾ ਰਹੀ ਹੈ। ਰਵਾਇਤੀ ਆਪਟੀਕਲ ਕਰੈਕਟਰ ਰਿਕਗਨੀਸ਼ਨ (OCR) ਅਕਸਰ ਗੁੰਝਲਦਾਰ ਲੇਆਉਟ, ਮਿਸ਼ਰਤ ਮੀਡੀਆ, ਜਾਂ ਵਿਸ਼ੇਸ਼ ਸੰਕੇਤਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਦੇ ਹੋਏ ਠੋਕਰ ਖਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਤਕਨਾਲੋਜੀ ਦੀ ਇੱਕ ਨਵੀਂ ਲਹਿਰ ਇਸ ਦ੍ਰਿਸ਼ ਨੂੰ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਬਦਲਣ ਦਾ ਵਾਅਦਾ ਕਰਦੀ ਹੈ, ਦਸਤਾਵੇਜ਼ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਬੇਮਿਸਾਲ ਸ਼ੁੱਧਤਾ ਅਤੇ ਪ੍ਰਸੰਗਿਕ ਜਾਗਰੂਕਤਾ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੀ ਹੈ। ਸਭ ਤੋਂ ਅੱਗੇ Mistral OCR ਅਤੇ Google ਦੇ Gemma ਮਾਡਲਾਂ ਦੇ ਨਵੀਨਤਮ ਸੰਸਕਰਣ ਵਰਗੀਆਂ ਕਾਢਾਂ ਹਨ, ਜੋ ਇੱਕ ਅਜਿਹੇ ਭਵਿੱਖ ਦਾ ਸੰਕੇਤ ਦਿੰਦੀਆਂ ਹਨ ਜਿੱਥੇ AI ਏਜੰਟ ਗੁੰਝਲਦਾਰ ਦਸਤਾਵੇਜ਼ਾਂ ਨਾਲ ਮਨੁੱਖਾਂ ਵਾਂਗ ਰਵਾਨਗੀ ਨਾਲ ਗੱਲਬਾਤ ਕਰ ਸਕਦੇ ਹਨ।

Mistral OCR: ਸਧਾਰਨ ਟੈਕਸਟ ਪਛਾਣ ਤੋਂ ਪਰੇ

Mistral AI ਨੇ ਇੱਕ OCR ਐਪਲੀਕੇਸ਼ਨ ਪ੍ਰੋਗਰਾਮਿੰਗ ਇੰਟਰਫੇਸ (API) ਪੇਸ਼ ਕੀਤਾ ਹੈ ਜੋ ਰਵਾਇਤੀ ਟੈਕਸਟ ਐਕਸਟਰੈਕਸ਼ਨ ਟੂਲਸ ਤੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਵਿਦਾਇਗੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। Mistral OCR ਸਿਰਫ਼ ਪਿਕਸਲ ਨੂੰ ਅੱਖਰਾਂ ਵਿੱਚ ਬਦਲਣ ਬਾਰੇ ਨਹੀਂ ਹੈ; ਇਹ ਡੂੰਘੀ ਦਸਤਾਵੇਜ਼ ਸਮਝ ਲਈ ਇੰਜੀਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਆਧੁਨਿਕ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਅਕਸਰ ਆਪਸ ਵਿੱਚ ਜੁੜੇ ਹੋਏ ਤੱਤਾਂ ਦੀ ਇੱਕ ਵਿਭਿੰਨ ਲੜੀ ਦੀ ਸਹੀ ਪਛਾਣ ਕਰਨ ਅਤੇ ਵਿਆਖਿਆ ਕਰਨ ਤੱਕ ਫੈਲੀਆਂ ਹੋਈਆਂ ਹਨ।

ਇੱਕ ਆਮ ਕਾਰਪੋਰੇਟ ਪੇਸ਼ਕਾਰੀ ਜਾਂ ਇੱਕ ਵਿਗਿਆਨਕ ਪੇਪਰ ਦੀ ਜਟਿਲਤਾ ‘ਤੇ ਗੌਰ ਕਰੋ। ਇਹ ਦਸਤਾਵੇਜ਼ ਘੱਟ ਹੀ ਇਕਸਾਰ ਟੈਕਸਟ ਬਲਾਕਾਂ ਦੇ ਬਣੇ ਹੁੰਦੇ ਹਨ। ਉਹਨਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਏਮਬੈਡਡ ਮੀਡੀਆ: ਚਿੱਤਰ, ਚਾਰਟ ਅਤੇ ਡਾਇਗ੍ਰਾਮ ਜਾਣਕਾਰੀ ਪਹੁੰਚਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹਨ। Mistral OCR ਨੂੰ ਇਹਨਾਂ ਵਿਜ਼ੂਅਲ ਤੱਤਾਂ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਆਲੇ ਦੁਆਲੇ ਦੇ ਟੈਕਸਟ ਦੇ ਸਬੰਧ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਸਥਿਤੀ ਨੂੰ ਸਮਝਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।
  • ਸੰਰਚਿਤ ਡੇਟਾ: ਟੇਬਲ ਡੇਟਾ ਨੂੰ ਸੰਖੇਪ ਰੂਪ ਵਿੱਚ ਪੇਸ਼ ਕਰਨ ਦਾ ਇੱਕ ਆਮ ਤਰੀਕਾ ਹਨ। ਟੇਬਲਾਂ ਤੋਂ ਸਹੀ ਢੰਗ ਨਾਲ ਜਾਣਕਾਰੀ ਕੱਢਣਾ, ਕਤਾਰ ਅਤੇ ਕਾਲਮ ਸਬੰਧਾਂ ਨੂੰ ਬਣਾਈ ਰੱਖਣਾ, ਪੁਰਾਣੇ OCR ਸਿਸਟਮਾਂ ਲਈ ਇੱਕ ਬਦਨਾਮ ਚੁਣੌਤੀ ਹੈ। Mistral OCR ਇਸ ਨੂੰ ਵਧੀ ਹੋਈ ਸ਼ੁੱਧਤਾ ਨਾਲ ਨਜਿੱਠਦਾ ਹੈ।
  • ਵਿਸ਼ੇਸ਼ ਸੰਕੇਤ: ਗਣਿਤ, ਇੰਜੀਨੀਅਰਿੰਗ ਅਤੇ ਵਿੱਤ ਵਰਗੇ ਖੇਤਰ ਫਾਰਮੂਲਿਆਂ ਅਤੇ ਖਾਸ ਚਿੰਨ੍ਹਾਂ ‘ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਇਹਨਾਂ ਗੁੰਝਲਦਾਰ ਸਮੀਕਰਨਾਂ ਦੀ ਸਹੀ ਵਿਆਖਿਆ ਕਰਨ ਦੀ ਯੋਗਤਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਵਿਭਿੰਨਤਾ ਹੈ।
  • ਆਧੁਨਿਕ ਲੇਆਉਟ: ਪੇਸ਼ੇਵਰ ਦਸਤਾਵੇਜ਼ ਅਕਸਰ ਮਲਟੀ-ਕਾਲਮ ਲੇਆਉਟ, ਸਾਈਡਬਾਰ, ਫੁੱਟਨੋਟ ਅਤੇ ਵੱਖ-ਵੱਖ ਟਾਈਪੋਗ੍ਰਾਫੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। Mistral OCR ਇਹਨਾਂ ਉੱਨਤ ਟਾਈਪਸੈਟਿੰਗ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਨੈਵੀਗੇਟ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇੱਛਤ ਪੜ੍ਹਨ ਦੇ ਕ੍ਰਮ ਅਤੇ ਬਣਤਰ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਦਾ ਹੈ।

ਕ੍ਰਮਬੱਧ ਇੰਟਰਲੀਵਡ ਟੈਕਸਟ ਅਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਇਹ ਸਮਰੱਥਾ Mistral OCR ਨੂੰ ਖਾਸ ਤੌਰ ‘ਤੇ ਸ਼ਕਤੀਸ਼ਾਲੀ ਬਣਾਉਂਦੀ ਹੈ। ਇਹ ਸਿਰਫ਼ ਟੈਕਸਟ ਜਾਂ ਚਿੱਤਰਾਂ ਨੂੰ ਨਹੀਂ ਦੇਖਦਾ; ਇਹ ਸਮਝਦਾ ਹੈ ਕਿ ਉਹ ਦਸਤਾਵੇਜ਼ ਦੇ ਪ੍ਰਵਾਹ ਦੇ ਅੰਦਰ ਇਕੱਠੇ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਇਨਪੁਟ ਸਟੈਂਡਰਡ ਚਿੱਤਰ ਫਾਈਲਾਂ ਜਾਂ, ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਮਲਟੀ-ਪੇਜ PDF ਦਸਤਾਵੇਜ਼ ਹੋ ਸਕਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਇਹ ਮੌਜੂਦਾ ਦਸਤਾਵੇਜ਼ ਫਾਰਮੈਟਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰ ਸਕਦਾ ਹੈ।

ਦਸਤਾਵੇਜ਼ ਗ੍ਰਹਿਣ ‘ਤੇ ਨਿਰਭਰ ਪ੍ਰਣਾਲੀਆਂ ਲਈ ਪ੍ਰਭਾਵ ਡੂੰਘੇ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਰੀਟ੍ਰੀਵਲ-ਔਗਮੈਂਟੇਡ ਜਨਰੇਸ਼ਨ (RAG) ਸਿਸਟਮ, ਜੋ ਇੱਕ ਗਿਆਨ ਅਧਾਰ ਤੋਂ ਸੰਬੰਧਿਤ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਕੇ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) ਜਵਾਬਾਂ ਨੂੰ ਵਧਾਉਂਦੇ ਹਨ, ਨੂੰ ਬਹੁਤ ਲਾਭ ਹੋਵੇਗਾ। ਜਦੋਂ ਉਹ ਗਿਆਨ ਅਧਾਰ ਗੁੰਝਲਦਾਰ, ਮਲਟੀਮੋਡਲ ਦਸਤਾਵੇਜ਼ਾਂ ਜਿਵੇਂ ਕਿ ਸਲਾਈਡ ਡੇਕ ਜਾਂ ਤਕਨੀਕੀ ਮੈਨੂਅਲ ਦਾ ਬਣਿਆ ਹੁੰਦਾ ਹੈ, ਇੱਕ OCR ਇੰਜਣ ਜੋ ਸਮੱਗਰੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਪਾਰਸ ਅਤੇ ਸੰਰਚਿਤ ਕਰ ਸਕਦਾ ਹੈ, ਅਨਮੋਲ ਹੈ। Mistral OCR ਇਹਨਾਂ ਚੁਣੌਤੀਪੂਰਨ ਸਰੋਤਾਂ ਨਾਲ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ RAG ਸਿਸਟਮਾਂ ਲਈ ਲੋੜੀਂਦੀ ਉੱਚ-ਵਫ਼ਾਦਾਰੀ ਇਨਪੁਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

AI ਸਮਝ ਵਿੱਚ ਮਾਰਕਡਾਊਨ ਕ੍ਰਾਂਤੀ

ਸ਼ਾਇਦ Mistral OCR ਦੀਆਂ ਸਭ ਤੋਂ ਰਣਨੀਤਕ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਇਸਦੀ ਐਕਸਟਰੈਕਟ ਕੀਤੀ ਦਸਤਾਵੇਜ਼ ਸਮੱਗਰੀ ਨੂੰ Markdown ਫਾਰਮੈਟ ਵਿੱਚ ਬਦਲਣ ਦੀ ਯੋਗਤਾ ਹੈ। ਇਹ ਇੱਕ ਮਾਮੂਲੀ ਤਕਨੀਕੀ ਵੇਰਵੇ ਵਾਂਗ ਜਾਪਦਾ ਹੈ, ਪਰ AI ਮਾਡਲ ਦਸਤਾਵੇਜ਼ ਡੇਟਾ ਨਾਲ ਕਿਵੇਂ ਗੱਲਬਾਤ ਕਰਦੇ ਹਨ ਇਸ ‘ਤੇ ਇਸਦਾ ਪ੍ਰਭਾਵ ਪਰਿਵਰਤਨਸ਼ੀਲ ਹੈ।

Markdown ਪਲੇਨ-ਟੈਕਸਟ ਫਾਰਮੈਟਿੰਗ ਸਿੰਟੈਕਸ ਵਾਲੀ ਇੱਕ ਹਲਕਾ ਮਾਰਕਅੱਪ ਭਾਸ਼ਾ ਹੈ। ਇਹ ਸਿਰਲੇਖਾਂ, ਸੂਚੀਆਂ, ਬੋਲਡ/ਇਟਾਲਿਕ ਟੈਕਸਟ, ਕੋਡ ਬਲਾਕਾਂ, ਲਿੰਕਾਂ ਅਤੇ ਹੋਰ ਢਾਂਚਾਗਤ ਤੱਤਾਂ ਦੀ ਸਧਾਰਨ ਪਰਿਭਾਸ਼ਾ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, AI ਮਾਡਲ, ਖਾਸ ਤੌਰ ‘ਤੇ LLMs, Markdown ਨੂੰ ਪਾਰਸ ਕਰਨ ਅਤੇ ਸਮਝਣ ਵਿੱਚ ਬੇਮਿਸਾਲ ਆਸਾਨ ਪਾਉਂਦੇ ਹਨ

ਇੱਕ ਪੰਨੇ ਤੋਂ ਸਕ੍ਰੈਪ ਕੀਤੇ ਅੱਖਰਾਂ ਦੀ ਇੱਕ ਫਲੈਟ, ਅਭੇਦ ਧਾਰਾ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਬਜਾਏ, Mistral OCR ਤੋਂ Markdown ਆਉਟਪੁੱਟ ਨਾਲ ਫੀਡ ਕੀਤਾ ਗਿਆ ਇੱਕ AI ਮਾਡਲ ਢਾਂਚੇ ਨਾਲ ਭਰਪੂਰ ਟੈਕਸਟ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ ਜੋ ਮੂਲ ਦਸਤਾਵੇਜ਼ ਦੇ ਲੇਆਉਟ ਅਤੇ ਜ਼ੋਰ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਸਿਰਲੇਖ ਸਿਰਲੇਖ ਰਹਿੰਦੇ ਹਨ, ਸੂਚੀਆਂ ਸੂਚੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ, ਅਤੇ ਟੈਕਸਟ ਅਤੇ ਹੋਰ ਤੱਤਾਂ (ਜਿੱਥੇ Markdown ਵਿੱਚ ਦਰਸਾਇਆ ਜਾ ਸਕਦਾ ਹੈ) ਵਿਚਕਾਰ ਸਬੰਧ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਇਹ ਸੰਰਚਿਤ ਇਨਪੁਟ ਇੱਕ AI ਦੀ ਯੋਗਤਾ ਨੂੰ ਨਾਟਕੀ ਢੰਗ ਨਾਲ ਵਧਾਉਂਦਾ ਹੈ:

  1. ਪ੍ਰਸੰਗ ਨੂੰ ਸਮਝਣਾ: ਇਹ ਸਮਝਣਾ ਕਿ ਕਿਹੜਾ ਟੈਕਸਟ ਇੱਕ ਮਾਮੂਲੀ ਉਪ-ਸਿਰਲੇਖ ਜਾਂ ਇੱਕ ਕੈਪਸ਼ਨ ਦੇ ਮੁਕਾਬਲੇ ਇੱਕ ਮੁੱਖ ਸਿਰਲੇਖ ਦਾ ਗਠਨ ਕਰਦਾ ਹੈ, ਪ੍ਰਸੰਗਿਕ ਸਮਝ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।
  2. ਮੁੱਖ ਜਾਣਕਾਰੀ ਦੀ ਪਛਾਣ ਕਰਨਾ: ਮੂਲ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਬੋਲਡਿੰਗ ਜਾਂ ਇਟਾਲਿਕਸ ਨਾਲ ਅਕਸਰ ਜ਼ੋਰ ਦਿੱਤੇ ਗਏ ਮਹੱਤਵਪੂਰਨ ਸ਼ਬਦ Markdown ਆਉਟਪੁੱਟ ਵਿੱਚ ਉਸ ਜ਼ੋਰ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹਨ, AI ਨੂੰ ਉਹਨਾਂ ਦੀ ਮਹੱਤਤਾ ਦਾ ਸੰਕੇਤ ਦਿੰਦੇ ਹਨ।
  3. ਜਾਣਕਾਰੀ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਪ੍ਰੋਸੈਸ ਕਰਨਾ: ਸੰਰਚਿਤ ਡੇਟਾ ਅਸੰਗਠਿਤ ਟੈਕਸਟ ਨਾਲੋਂ ਐਲਗੋਰਿਦਮ ਲਈ ਪ੍ਰਕਿਰਿਆ ਕਰਨਾ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਆਸਾਨ ਹੁੰਦਾ ਹੈ। Markdown ਇੱਕ ਸਰਵ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਸਮਝਿਆ ਜਾਣ ਵਾਲਾ ਢਾਂਚਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਇਹ ਸਮਰੱਥਾ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਗੁੰਝਲਦਾਰ ਵਿਜ਼ੂਅਲ ਦਸਤਾਵੇਜ਼ ਲੇਆਉਟ ਅਤੇ ਟੈਕਸਟ-ਅਧਾਰਿਤ ਸੰਸਾਰ ਦੇ ਵਿਚਕਾਰ ਪਾੜੇ ਨੂੰ ਪੂਰਾ ਕਰਦੀ ਹੈ ਜਿੱਥੇ ਜ਼ਿਆਦਾਤਰ AI ਮਾਡਲ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ। ਇਹ AI ਨੂੰ ਦਸਤਾਵੇਜ਼ ਦੇ ਢਾਂਚੇ ਨੂੰ ‘ਦੇਖਣ’ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਸਦੀ ਸਮੱਗਰੀ ਦੀ ਬਹੁਤ ਡੂੰਘੀ ਅਤੇ ਵਧੇਰੇ ਸਹੀ ਸਮਝ ਹੁੰਦੀ ਹੈ।

ਪ੍ਰਦਰਸ਼ਨ, ਬਹੁ-ਭਾਸ਼ਾਈਵਾਦ, ਅਤੇ ਤੈਨਾਤੀ

ਇਸਦੀਆਂ ਸਮਝਣ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਤੋਂ ਇਲਾਵਾ, Mistral OCR ਨੂੰ ਕੁਸ਼ਲਤਾ ਅਤੇ ਲਚਕਤਾ ਲਈ ਇੰਜੀਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸਦੇ ਕਈ ਵਿਹਾਰਕ ਫਾਇਦੇ ਹਨ:

  • ਗਤੀ: ਹਲਕਾ ਹੋਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ, ਇਹ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪ੍ਰੋਸੈਸਿੰਗ ਸਪੀਡ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। Mistral AI ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਇੱਕ ਸਿੰਗਲ ਨੋਡ ਪ੍ਰਤੀ ਮਿੰਟ 2,000 ਪੰਨਿਆਂ ਤੱਕ ਪ੍ਰਕਿਰਿਆ ਕਰ ਸਕਦਾ ਹੈ, ਇੱਕ ਥ੍ਰੋਪੁੱਟ ਜੋ ਵੱਡੇ ਪੈਮਾਨੇ ਦੇ ਦਸਤਾਵੇਜ਼ ਹੈਂਡਲਿੰਗ ਕਾਰਜਾਂ ਲਈ ਢੁਕਵਾਂ ਹੈ।
  • ਬਹੁ-ਭਾਸ਼ਾਈਵਾਦ: ਮਾਡਲ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਬਹੁ-ਭਾਸ਼ਾਈ ਹੈ, ਹਰੇਕ ਲਈ ਵੱਖਰੀ ਸੰਰਚਨਾ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਟੈਕਸਟ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ। ਇਹ ਵਿਸ਼ਵ ਪੱਧਰ ‘ਤੇ ਕੰਮ ਕਰਨ ਵਾਲੀਆਂ ਸੰਸਥਾਵਾਂ ਜਾਂ ਵਿਭਿੰਨ ਦਸਤਾਵੇਜ਼ ਸੈੱਟਾਂ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।
  • ਮਲਟੀਮੋਡੈਲਿਟੀ: ਜਿਵੇਂ ਕਿ ਚਰਚਾ ਕੀਤੀ ਗਈ ਹੈ, ਇਸਦੀ ਮੁੱਖ ਤਾਕਤ ਟੈਕਸਟ ਅਤੇ ਗੈਰ-ਟੈਕਸਟ ਤੱਤਾਂ ਦੋਵਾਂ ਵਾਲੇ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਸਹਿਜੇ ਹੀ ਸੰਭਾਲਣ ਵਿੱਚ ਹੈ।
  • ਸਥਾਨਕ ਤੈਨਾਤੀ: ਡੇਟਾ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਬਾਰੇ ਚਿੰਤਤ ਬਹੁਤ ਸਾਰੇ ਉੱਦਮਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, Mistral OCR ਸਥਾਨਕ ਤੈਨਾਤੀ ਵਿਕਲਪਾਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ। ਇਹ ਸੰਸਥਾਵਾਂ ਨੂੰ ਸੰਵੇਦਨਸ਼ੀਲ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਆਪਣੇ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੇ ਅੰਦਰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਗੁਪਤ ਜਾਣਕਾਰੀ ਕਦੇ ਵੀ ਉਹਨਾਂ ਦੇ ਨਿਯੰਤਰਣ ਤੋਂ ਬਾਹਰ ਨਾ ਜਾਵੇ। ਇਹ ਸਿਰਫ਼ ਕਲਾਉਡ-ਅਧਾਰਿਤ OCR ਸੇਵਾਵਾਂ ਦੇ ਉਲਟ ਹੈ ਅਤੇ ਨਿਯੰਤ੍ਰਿਤ ਉਦਯੋਗਾਂ ਜਾਂ ਮਲਕੀਅਤ ਡੇਟਾ ਨੂੰ ਸੰਭਾਲਣ ਵਾਲਿਆਂ ਲਈ ਇੱਕ ਵੱਡੀ ਗੋਦ ਲੈਣ ਦੀ ਰੁਕਾਵਟ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ।

Google ਦਾ Gemma 3: AI ਸਮਝ ਦੀ ਅਗਲੀ ਪੀੜ੍ਹੀ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਨਾ

ਜਦੋਂ ਕਿ Mistral ਵਰਗਾ ਉੱਨਤ OCR ਉੱਚ-ਗੁਣਵੱਤਾ, ਸੰਰਚਿਤ ਇਨਪੁਟ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਅੰਤਮ ਟੀਚਾ AI ਪ੍ਰਣਾਲੀਆਂ ਲਈ ਇਸ ਜਾਣਕਾਰੀ ਬਾਰੇ ਤਰਕ ਕਰਨਾ ਅਤੇ ਕਾਰਵਾਈ ਕਰਨਾ ਹੈ। ਇਸ ਲਈ ਸ਼ਕਤੀਸ਼ਾਲੀ, ਬਹੁਮੁਖੀ AI ਮਾਡਲਾਂ ਦੀ ਲੋੜ ਹੈ। Google ਦੁਆਰਾ ਆਪਣੇ Gemma ਓਪਨ-ਸੋਰਸ ਮਾਡਲਾਂ ਦੇ ਪਰਿਵਾਰ ਵਿੱਚ ਹਾਲੀਆ ਅਪਡੇਟ, Gemma 3 ਦੀ ਸ਼ੁਰੂਆਤ ਦੇ ਨਾਲ, ਇਸ ਡੋਮੇਨ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਅੱਗੇ ਵਧਾਉਂਦਾ ਹੈ।

Google ਨੇ Gemma 3, ਖਾਸ ਤੌਰ ‘ਤੇ 27-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਸੰਸਕਰਣ ਨੂੰ, ਓਪਨ-ਸੋਰਸ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਚੋਟੀ ਦੇ ਦਾਅਵੇਦਾਰ ਵਜੋਂ ਸਥਾਨ ਦਿੱਤਾ ਹੈ, ਦਾਅਵਾ ਕੀਤਾ ਹੈ ਕਿ ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੁਝ ਸ਼ਰਤਾਂ ਅਧੀਨ ਉਹਨਾਂ ਦੇ ਆਪਣੇ ਸ਼ਕਤੀਸ਼ਾਲੀ, ਮਲਕੀਅਤ Gemini 1.5 Pro ਮਾਡਲ ਦੇ ਮੁਕਾਬਲੇ ਦਾ ਹੈ। ਉਹਨਾਂ ਨੇ ਖਾਸ ਤੌਰ ‘ਤੇ ਇਸਦੀ ਕੁਸ਼ਲਤਾ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ ਹੈ, ਇਸਨੂੰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ‘ਦੁਨੀਆ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਸਿੰਗਲ-ਐਕਸਲੇਟਰ ਮਾਡਲ’ ਕਿਹਾ ਹੈ। ਇਹ ਦਾਅਵਾ ਮੁਕਾਬਲਤਨ ਸੀਮਤ ਹਾਰਡਵੇਅਰ ‘ਤੇ ਚੱਲਦੇ ਹੋਏ ਵੀ ਉੱਚ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਸਿੰਗਲ GPU ਨਾਲ ਲੈਸ ਇੱਕ ਹੋਸਟ ਕੰਪਿਊਟਰ। ਕੁਸ਼ਲਤਾ ‘ਤੇ ਇਹ ਫੋਕਸ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਅਪਣਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਵਿਸ਼ਾਲ, ਊਰਜਾ-ਤੀਬਰ ਡੇਟਾ ਸੈਂਟਰਾਂ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ।

ਇੱਕ ਮਲਟੀਮੋਡਲ ਸੰਸਾਰ ਲਈ ਵਧੀਆਂ ਸਮਰੱਥਾਵਾਂ

Gemma 3 ਸਿਰਫ਼ ਇੱਕ ਵਾਧੇ ਵਾਲਾ ਅੱਪਡੇਟ ਨਹੀਂ ਹੈ; ਇਹ ਆਧੁਨਿਕ AI ਕਾਰਜਾਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਕਈ ਆਰਕੀਟੈਕਚਰਲ ਅਤੇ ਸਿਖਲਾਈ ਸੁਧਾਰਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ:

  • ਮਲਟੀਮੋਡੈਲਿਟੀ ਲਈ ਅਨੁਕੂਲਿਤ: ਇਹ ਪਛਾਣਦੇ ਹੋਏ ਕਿ ਜਾਣਕਾਰੀ ਅਕਸਰ ਕਈ ਫਾਰਮੈਟਾਂ ਵਿੱਚ ਆਉਂਦੀ ਹੈ, Gemma 3 ਵਿੱਚ ਇੱਕ ਵਧਿਆ ਹੋਇਆ ਵਿਜ਼ੂਅਲ ਏਨਕੋਡਰ ਹੈ। ਇਹ ਅੱਪਗਰੇਡ ਖਾਸ ਤੌਰ ‘ਤੇ ਉੱਚ-ਰੈਜ਼ੋਲੂਸ਼ਨ ਚਿੱਤਰਾਂ ਅਤੇ, ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਗੈਰ-ਵਰਗ ਚਿੱਤਰਾਂ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ। ਇਹ ਲਚਕਤਾ ਮਾਡਲ ਨੂੰ ਅਸਲ-ਸੰਸਾਰ ਦਸਤਾਵੇਜ਼ਾਂ ਅਤੇ ਡੇਟਾ ਸਟ੍ਰੀਮਾਂ ਵਿੱਚ ਆਮ ਵਿਭਿੰਨ ਵਿਜ਼ੂਅਲ ਇਨਪੁਟਸ ਦੀ ਵਧੇਰੇ ਸਹੀ ਵਿਆਖਿਆ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ। ਇਹ ਚਿੱਤਰਾਂ, ਟੈਕਸਟ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਛੋਟੇ ਵੀਡੀਓ ਕਲਿੱਪਾਂ ਦੇ ਸੰਜੋਗਾਂ ਦਾ ਸਹਿਜੇ ਹੀ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦਾ ਹੈ।
  • ਵਿਸ਼ਾਲ ਪ੍ਰਸੰਗ ਵਿੰਡੋ: Gemma 3 ਮਾਡਲ 128,000 ਟੋਕਨਾਂ ਤੱਕ ਦੀਆਂ ਪ੍ਰਸੰਗ ਵਿੰਡੋਜ਼ ਦਾ ਮਾਣ ਕਰਦੇ ਹਨ। ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੀ ਹੈ ਕਿ ਇੱਕ ਮਾਡਲ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਜਾਂ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਵੇਲੇ ਇੱਕ ਵਾਰ ਵਿੱਚ ਕਿੰਨੀ ਜਾਣਕਾਰੀ ‘ਤੇ ਵਿਚਾਰ ਕਰ ਸਕਦਾ ਹੈ। ਇੱਕ ਵੱਡੀ ਪ੍ਰਸੰਗ ਵਿੰਡੋ Gemma 3 ‘ਤੇ ਬਣੇ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਪਹਿਲਾਂ ਦੀ ਜਾਣਕਾਰੀ ਦਾ ਟਰੈਕ ਗੁਆਏ ਬਿਨਾਂ ਇੱਕੋ ਸਮੇਂ ਕਾਫ਼ੀ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਦੀ ਪ੍ਰਕਿਰਿਆ ਅਤੇ ਸਮਝਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ - ਪੂਰੇ ਲੰਬੇ ਦਸਤਾਵੇਜ਼, ਵਿਆਪਕ ਚੈਟ ਇਤਿਹਾਸ, ਜਾਂ ਗੁੰਝਲਦਾਰ ਕੋਡਬੇਸ। ਇਹ ਵਿਆਪਕ ਟੈਕਸਟ ਜਾਂ ਗੁੰਝਲਦਾਰ ਸੰਵਾਦਾਂ ਦੀ ਡੂੰਘੀ ਸਮਝ ਦੀ ਲੋੜ ਵਾਲੇ ਕਾਰਜਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।
  • ਵਿਆਪਕ ਭਾਸ਼ਾ ਸਹਾਇਤਾ: ਮਾਡਲਾਂ ਨੂੰ ਗਲੋਬਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖ ਕੇ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। Google ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ Gemma 3 ‘ਬਾਕਸ ਤੋਂ ਬਾਹਰ’ 35 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ ਅਤੇ 140 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਡੇਟਾ ‘ਤੇ ਪੂਰਵ-ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਹੈ। ਇਹ ਵਿਆਪਕ ਭਾਸ਼ਾਈ ਆਧਾਰ ਵਿਭਿੰਨ ਭੂਗੋਲਿਕ ਖੇਤਰਾਂ ਅਤੇ ਬਹੁ-ਭਾਸ਼ਾਈਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਾਰਜਾਂ ਲਈ ਇਸਦੀ ਵਰਤੋਂ ਦੀ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ।
  • ਅਤਿ-ਆਧੁਨਿਕ ਪ੍ਰਦਰਸ਼ਨ: Google ਦੁਆਰਾ ਸਾਂਝੇ ਕੀਤੇ ਗਏ ਸ਼ੁਰੂਆਤੀ ਮੁਲਾਂਕਣ Gemma 3 ਨੂੰ ਵੱਖ-ਵੱਖ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਇਸਦੇ ਆਕਾਰ ਦੇ ਮਾਡਲਾਂ ਲਈ ਸਭ ਤੋਂ ਅੱਗੇ ਰੱਖਦੇ ਹਨ। ਇਹ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰੋਫਾਈਲ ਇਸ ਨੂੰ ਇੱਕ ਓਪਨ-ਸੋਰਸ ਫਰੇਮਵਰਕ ਦੇ ਅੰਦਰ ਉੱਚ ਸਮਰੱਥਾ ਦੀ ਮੰਗ ਕਰਨ ਵਾਲੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਇੱਕ ਆਕਰਸ਼ਕ ਵਿਕਲਪ ਬਣਾਉਂਦਾ ਹੈ।

ਸਿਖਲਾਈ ਵਿਧੀ ਵਿੱਚ ਨਵੀਨਤਾਵਾਂ

Gemma 3 ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਛਾਲ ਸਿਰਫ਼ ਪੈਮਾਨੇ ਦੇ ਕਾਰਨ ਨਹੀਂ ਹੈ; ਇਹ ਪੂਰਵ-ਸਿਖਲਾਈ ਅਤੇ ਪੋਸਟ-ਸਿਖਲਾਈ ਦੋਵਾਂ ਪੜਾਵਾਂ ਦੌਰਾਨ ਲਾਗੂ ਕੀਤੀਆਂ ਗਈਆਂ ਆਧੁਨਿਕ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਦਾ ਨਤੀਜਾ ਵੀ ਹੈ:

  • ਉੱਨਤ ਪੂਰਵ-ਸਿਖਲਾਈ: Gemma 3 ਡਿਸਟਿਲੇਸ਼ਨ ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ ਇੱਕ ਵੱਡੇ, ਵਧੇਰੇ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲ ਤੋਂ ਗਿਆਨ ਛੋਟੇ Gemma ਮਾਡਲ ਵਿੱਚ ਤਬਦੀਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਪੂਰਵ-ਸਿਖਲਾਈ ਦੌਰਾਨ ਅਨੁਕੂਲਨ ਵਿੱਚ ਇੱਕ ਮਜ਼ਬੂਤ ਨੀਂਹ ਬਣਾਉਣ ਲਈ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਅਤੇ ਮਾਡਲ ਮਰਜਿੰਗ ਰਣਨੀਤੀਆਂ ਵੀ ਸ਼ਾਮਲ ਹੁੰਦੀਆਂ ਹਨ। ਮਾਡਲਾਂ ਨੂੰ Google ਦੇ ਵਿਸ਼ੇਸ਼ ਟੈਂਸਰ ਪ੍ਰੋਸੈਸਿੰਗ ਯੂਨਿਟਸ (TPUs) ‘ਤੇ JAX ਫਰੇਮਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਜਿਸ ਵਿੱਚ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਦੀ ਖਪਤ ਹੁੰਦੀ ਹੈ: 2-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਲਈ 2 ਟ੍ਰਿਲੀਅਨ ਟੋਕਨ, 4B ਲਈ 4T, 12B ਲਈ 12T, ਅਤੇ 27B ਵੇਰੀਐਂਟ ਲਈ 14T ਟੋਕਨ। Gemma 3 ਲਈ ਇੱਕ ਬਿਲਕੁਲ ਨਵਾਂ ਟੋਕਨਾਈਜ਼ਰ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਸੀ, ਜੋ ਇਸਦੀ ਵਿਸਤ੍ਰਿਤ ਭਾਸ਼ਾ ਸਹਾਇਤਾ (140 ਤੋਂ ਵੱਧ ਭਾਸ਼ਾਵਾਂ) ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦਾ ਹੈ।
  • ਸੁਧਰੀ ਹੋਈ ਪੋਸਟ-ਸਿਖਲਾਈ: ਸ਼ੁਰੂਆਤੀ ਪੂਰਵ-ਸਿਖਲਾਈ ਤੋਂ ਬਾਅਦ, Gemma 3 ਮਨੁੱਖੀ ਉਮੀਦਾਂ ਨਾਲ ਮਾਡਲ ਨੂੰ ਇਕਸਾਰ ਕਰਨ ਅਤੇ ਖਾਸ ਹੁਨਰਾਂ ਨੂੰ ਵਧਾਉਣ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਇੱਕ ਸਾਵਧਾਨ ਪੋਸਟ-ਸਿਖਲਾਈ ਪੜਾਅ ਵਿੱਚੋਂ ਗੁਜ਼ਰਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਚਾਰ ਮੁੱਖ ਭਾਗ ਸ਼ਾਮਲ ਹਨ:
    1. ਸੁਪਰਵਾਈਜ਼ਡ ਫਾਈਨ-ਟਿਊਨਿੰਗ (SFT): ਸ਼ੁਰੂਆਤੀ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ Gemma 3 ਪੂਰਵ-ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਚੈਕਪੁਆਇੰਟ ਵਿੱਚ ਇੱਕ ਵੱਡੇ ਹਦਾਇਤ-ਅਨੁਕੂਲ ਮਾਡਲ ਤੋਂ ਗਿਆਨ ਕੱਢ ਕੇ ਪੈਦਾ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।
    2. ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਤੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RLHF): ਇਹ ਮਿਆਰੀ ਤਕਨੀਕ ਮਾਡਲ ਦੇ ਜਵਾਬਾਂ ਨੂੰ ਮਦਦਗਾਰੀ, ਇਮਾਨਦਾਰੀ ਅਤੇ ਨੁਕਸਾਨ ਰਹਿਤਤਾ ਸੰਬੰਧੀ ਮਨੁੱਖੀ ਤਰਜੀਹਾਂ ਨਾਲ ਇਕਸਾਰ ਕਰਦੀ ਹੈ। ਮਨੁੱਖੀ ਸਮੀਖਿਅਕ ਵੱਖ-ਵੱਖ ਮਾਡਲ ਆਉਟਪੁੱਟ ਨੂੰ ਦਰਜਾ ਦਿੰਦੇ ਹਨ, AI ਨੂੰ ਵਧੇਰੇ ਲੋੜੀਂਦੇ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਦਿੰਦੇ ਹਨ।
    3. ਮਸ਼ੀਨ ਫੀਡਬੈਕ ਤੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (RLMF): ਖਾਸ ਤੌਰ ‘ਤੇ ਗਣਿਤਕ ਤਰਕ ਯ