இயந்திர மொழிபெயர்ப்பில் மொழியியல் பிளவை இணைத்தல்
போர்டோ பல்கலைக்கழகம், INESC TEC, ஹைடெல்பெர்க் பல்கலைக்கழகம், பெய்ரா இன்டீரியர் பல்கலைக்கழகம் மற்றும் Ci2 – ஸ்மார்ட் நகரங்கள் ஆராய்ச்சி மையம் ஆகியவற்றின் ஆராய்ச்சியாளர்கள் அடங்கிய ஒரு கூட்டுக்குழு, ஐரோப்பிய போர்த்துகீசிய மொழிக்காக கவனமாக வடிவமைக்கப்பட்ட முன்னோடியான திறந்த மூல AI மொழிபெயர்ப்பு மாதிரியான Tradutor-ஐ வெளியிட்டுள்ளது. இந்த புதுமையான திட்டம் இயந்திர மொழிபெயர்ப்புத் துறையில் உள்ள ஒரு குறிப்பிடத்தக்க வேறுபாட்டை நேரடியாக நிவர்த்தி செய்கிறது, அங்கு உலகளவில் போர்த்துகீசிய மொழி பேசுபவர்களில் பெரும்பான்மையானவர்களால் பேசப்படும் பிரேசிலிய போர்த்துகீசியம், அதன் ஐரோப்பிய இணையானதை அடிக்கடி பின்தள்ளுகிறது.
மொழியியல் புறக்கணிப்பின் சவால்
ஆராய்ச்சியாளர்கள் ஒரு முக்கியமான சிக்கலை அடிக்கோடிட்டுக் காட்டுகின்றனர்: தற்போதுள்ள பெரும்பாலான மொழிபெயர்ப்பு அமைப்புகள் பிரேசிலிய போர்த்துகீசிய மொழியில் முதன்மையாக கவனம் செலுத்துகின்றன. இந்த முன்னுரிமை போர்த்துக்கல் மற்றும் ஐரோப்பிய போர்த்துகீசியம் பரவலாக உள்ள பிற பகுதிகளிலிருந்து வரும் மொழி பேசுபவர்களை கவனக்குறைவாக ஓரங்கட்டுகிறது. இந்த மொழியியல் சார்புவின் விளைவுகள் குறிப்பாக சுகாதாரம் மற்றும் சட்ட சேவைகள் போன்ற முக்கியமான துறைகளில், துல்லியமான மற்றும் நுணுக்கமான மொழி புரிதல் மிக முக்கியமானது. ஐரோப்பிய போர்த்துகீசிய மொழியின் சொற்றொடர்கள் மற்றும் வெளிப்பாடுகளுடன் அமைப்புக்கு பரிச்சயமில்லாததால், ஒரு மருத்துவ ஆவணம் அல்லது சட்ட ஒப்பந்தம் நுட்பமான ஆனால் முக்கியமான பிழைகளுடன் மொழிபெயர்க்கப்பட்ட ஒரு சூழ்நிலையை கற்பனை செய்து பாருங்கள். தவறான விளக்கங்கள் மற்றும் பிழைகளுக்கான சாத்தியக்கூறுகள் குறிப்பிடத்தக்கவை.
PTradutor: மேம்படுத்தப்பட்ட துல்லியத்திற்கான ஒரு பெரிய இணையான கார்பஸ்
இந்த சவாலை நேருக்கு நேர் சமாளிக்க, ஆராய்ச்சிக் குழு PTradutor என்ற விதிவிலக்காக விரிவான இணையான கார்பஸை உருவாக்கியுள்ளது. இந்த விலைமதிப்பற்ற ஆதாரம் 1.7 மில்லியனுக்கும் அதிகமான ஆவணங்களைக் கொண்டுள்ளது, அவை ஆங்கிலம் மற்றும் ஐரோப்பிய போர்த்துகீசியம் ஆகிய இரண்டிலும் கவனமாக இணைக்கப்பட்டுள்ளன. இந்த தரவுத்தொகுப்பின் அளவு மற்றும் பன்முகத்தன்மை குறிப்பிடத்தக்கவை. இது பரந்த அளவிலான களங்களை உள்ளடக்கியது, அவற்றுள்:
- Journalism: சமகால மொழி பயன்பாடு மற்றும் அறிக்கையிடல் பாணிகளின் வளமான மூலத்தை வழங்குகிறது.
- Literature: முறையான மற்றும் ஆக்கப்பூர்வமான எழுத்தின் நுணுக்கங்களைப் படம்பிடிக்கிறது.
- Web Content: ஆன்லைன் தகவல்தொடர்புகளின் எப்போதும் மாறிவரும் நிலப்பரப்பை பிரதிபலிக்கிறது.
- Politics: உத்தியோகபூர்வ அறிக்கைகள் மற்றும் கொள்கை ஆவணங்களின் துல்லியமான மொழிபெயர்ப்பை உறுதி செய்கிறது.
- Legal Documents: சட்ட சொற்கள் மற்றும் சொற்றொடர்களில் துல்லியத்திற்கான முக்கியமான தேவையை நிவர்த்தி செய்கிறது.
- Social Media: ஆன்லைன் தொடர்புகளின் சிறப்பியல்பான முறைசாரா மற்றும் டைனமிக் மொழியை உள்ளடக்கியது.
இந்த பன்முக அணுகுமுறை, Tradutor பல்வேறு சூழல்களில் பயன்படுத்தப்படும் ஐரோப்பிய போர்த்துகீசிய மொழியின் அகலம் மற்றும் ஆழத்தை துல்லியமாக பிரதிபலிக்கும் ஒரு மொழியியல் அடித்தளத்தில் பயிற்சி அளிக்கப்படுவதை உறுதி செய்கிறது.
ஒரு கடுமையான தொகுப்பு செயல்முறை: தரவு ஒருமைப்பாட்டை உறுதி செய்தல்
PTradutor-இன் உருவாக்கம் ஒரு நுணுக்கமான மற்றும் பல-நிலை தொகுப்பு செயல்முறையை உள்ளடக்கியது. ஆராய்ச்சியாளர்கள் அதிக அளவு ஒருமொழி ஐரோப்பிய போர்த்துகீசிய உரைகளை சேகரிப்பதன் மூலம் தொடங்கினர். இந்த உரைகள் பின்னர் ஆங்கிலத்தில் மொழிபெயர்க்கப்பட்டன, Google Translate-இன் அணுகல் மற்றும் ஒப்பீட்டளவில் உயர் தரத்தைப் பயன்படுத்தி. இருப்பினும், எந்தவொரு தானியங்கி மொழிபெயர்ப்பு செயல்முறையிலும் குறைபாடுகள் இருப்பதற்கான சாத்தியக்கூறுகளை உணர்ந்து, குழு தொடர்ச்சியான கடுமையான தர சோதனைகளை செயல்படுத்தியது. இந்த சோதனைகள் தரவின் ஒருமைப்பாட்டைப் பேணுவதற்கும், இணையான கார்பஸ் முடிந்தவரை துல்லியமாகவும் நம்பகமானதாகவும் இருப்பதை உறுதி செய்வதற்கும் முக்கியமானவை.
அவர்கள் கூறியது போல், “ஐரோப்பிய போர்த்துகீசியம் மற்றும் ஆங்கிலத்திற்கான மிகப்பெரிய மொழிபெயர்ப்பு தரவுத்தொகுப்பை நாங்கள் சமூகத்திற்கு வழங்குகிறோம்.” இந்த அறிக்கை, ஒரு அதிநவீன மொழிபெயர்ப்பு மாதிரியை உருவாக்குவது மட்டுமல்லாமல், பரந்த ஆராய்ச்சி சமூகத்திற்கு ஒரு மதிப்புமிக்க ஆதாரத்தை வழங்குவதற்கும் குழுவின் அர்ப்பணிப்பை எடுத்துக்காட்டுகிறது.
Fine-Tuning Open-Source LLMs: ஒரு சக்திவாய்ந்த அணுகுமுறை
PTradutor தரவுத்தொகுப்பை தங்கள் அடித்தளமாகக் கொண்டு, ஆராய்ச்சியாளர்கள் மூன்று முக்கிய திறந்த மூல பெரிய மொழி மாதிரிகளை (LLMs) செம்மைப்படுத்தும் பணியை மேற்கொண்டனர்:
- Google’s Gemma-2 2B: அதன் செயல்திறன் மற்றும் செயல்பாட்டிற்காக அறியப்பட்ட ஒரு சக்திவாய்ந்த மாதிரி.
- Microsoft’s Phi-3 mini: ஒரு சிறிய ஆனால் ஆச்சரியமூட்டும் திறன் கொண்ட மாதிரி, வள-கட்டுப்படுத்தப்பட்ட சூழல்களுக்கு ஏற்றது.
- Meta’s LLaMA-3 8B: ஒரு பெரிய மற்றும் மிகவும் சிக்கலான மாதிரி, அதிக துல்லியத்தை வழங்கக்கூடியது.
செம்மைப்படுத்தும் செயல்முறை இரண்டு தனித்துவமான அணுகுமுறைகளை உள்ளடக்கியது:
- Full Model Training: இது LLM-இன் அனைத்து அளவுருக்களையும் சரிசெய்வதை உள்ளடக்குகிறது, இது ஆங்கிலத்தை ஐரோப்பிய போர்த்துகீசியமாக மொழிபெயர்க்கும் குறிப்பிட்ட பணிக்கு அதிகபட்ச தழுவலை அனுமதிக்கிறது.
- Parameter-Efficient Techniques (LoRA): Low-Rank Adaptation (LoRA) என்பது மாதிரியின் அளவுருக்களின் ஒரு சிறிய துணைக்குழுவை சரிசெய்வதில் கவனம் செலுத்தும் ஒரு மிகவும் திறமையான அணுகுமுறையாகும். இந்த நுட்பம் செம்மைப்படுத்துவதற்குத் தேவையான கணக்கீட்டு செலவு மற்றும் நேரத்தைக் குறைக்கிறது, இது வரையறுக்கப்பட்ட வளங்களைக் கொண்ட ஆராய்ச்சியாளர்களுக்கு குறிப்பாக கவர்ச்சிகரமானதாக அமைகிறது.
இந்த இரட்டை அணுகுமுறை செயல்திறன் மற்றும் திறனுக்கு இடையிலான சமரசங்களின் ஒப்பீட்டை அனுமதிக்கிறது, எதிர்கால ஆராய்ச்சிக்கான மதிப்புமிக்க நுண்ணறிவுகளை வழங்குகிறது.
ஈர்க்கக்கூடிய செயல்திறன்: தொழில்துறை தரநிலைகளுக்கு சவால் விடுதல்
Tradutor-இன் ஆரம்ப மதிப்பீடுகள் விதிவிலக்காக நம்பிக்கைக்குரிய முடிவுகளை அளித்துள்ளன. இந்த மாதிரி பல ஏற்கனவே உள்ள திறந்த மூல மொழிபெயர்ப்பு அமைப்புகளை விட சிறப்பாக செயல்படும் குறிப்பிடத்தக்க திறனை நிரூபிக்கிறது. இன்னும் சிறப்பாக, இது தொழில்துறையில் உள்ள சில முன்னணி மூடிய-மூல, வணிக ரீதியாக கிடைக்கக்கூடிய மாடல்களுடன் போட்டியிடும் செயல்திறன் நிலைகளை அடைகிறது.
குறிப்பாக, செம்மைப்படுத்தப்பட்ட LLaMA-3 8B மாதிரி தனித்து நிற்கிறது, ஏற்கனவே உள்ள திறந்த மூல அமைப்புகளின் செயல்திறனை விட அதிகமாக உள்ளது மற்றும் Google Translate மற்றும் DeepL போன்ற தொழில்துறை-தரமான மூடிய-மூல மாடல்களின் தரத்தை நெருங்குகிறது. இந்த சாதனை ஆராய்ச்சிக் குழுவின் அணுகுமுறையின் செயல்திறன் மற்றும் PTradutor தரவுத்தொகுப்பின் தரத்திற்கு ஒரு சான்றாகும்.
ஆராய்ச்சியாளர்கள் தங்கள் முதன்மை நோக்கம் வணிக மாதிரிகளை விஞ்சுவது அவசியமில்லை என்று வலியுறுத்துகின்றனர். அதற்கு பதிலாக, அவர்களின் கவனம் “சிறிய மொழி மாதிரிகளை குறிப்பிட்ட மொழி வகைகளை மொழிபெயர்க்க ஏற்ப, கணக்கீட்டு ரீதியாக திறமையான, தகவமைக்கக்கூடிய மற்றும் வள-திறனுள்ள முறையை முன்மொழிவதில்” இருந்தது. Tradutor தொழில்துறை-முன்னணி மாடல்களுடன் ஒப்பிடக்கூடிய முடிவுகளை அடைவது ஒரு “குறிப்பிடத்தக்க சாதனை” ஆகும், இது அவர்களின் வழிமுறையின் திறனை அடிக்கோடிட்டுக் காட்டுகிறது.
ஐரோப்பிய போர்த்துகீசியத்திற்கு அப்பால்: ஒரு அளவிடக்கூடிய தீர்வு
Tradutor குறிப்பாக ஐரோப்பிய போர்த்துகீசியத்திற்கான ஒரு வழக்கு ஆய்வாக உருவாக்கப்பட்டாலும், ஆராய்ச்சியாளர்கள் தங்கள் வழிமுறையின் பரந்த பயன்பாட்டை முன்னிலைப்படுத்துகின்றனர். இயந்திர மொழிபெயர்ப்பு நிலப்பரப்பில் குறைவான பிரதிநிதித்துவத்தின் இதேபோன்ற சவால்களை எதிர்கொள்ளும் பிற மொழிகளுக்கும் இதே நுட்பங்களையும் கொள்கைகளையும் எளிதாகப் பயன்படுத்தலாம். இந்த அளவிடுதல் திட்டத்தின் ஒரு முக்கிய பலமாகும், இது பரந்த அளவிலான மொழிகள் மற்றும் பேச்சுவழக்குகளுக்கான மொழிபெயர்ப்பு தரத்தை மேம்படுத்துவதற்கான சாத்தியமான பாதையை வழங்குகிறது.
AI-இல் மொழியியல் உள்ளடக்கத்தை வளர்ப்பது
PTradutor தரவுத்தொகுப்பு, அதை நகலெடுக்கப் பயன்படுத்தப்படும் குறியீடு மற்றும் Tradutor மாதிரி ஆகியவற்றை திறந்த மூலமாக்குவதன் மூலம், ஆராய்ச்சிக் குழு இயற்கை மொழி செயலாக்கத்தின் பரந்த துறைக்கு ஒரு குறிப்பிடத்தக்க பங்களிப்பை அளிக்கிறது. மொழி வகை-குறிப்பிட்ட இயந்திர மொழிபெயர்ப்பில் (MT) மேலும் ஆராய்ச்சி மற்றும் மேம்பாட்டை ஊக்குவிப்பதை அவர்கள் நோக்கமாகக் கொண்டுள்ளனர். திறந்த அறிவியல் மற்றும் ஒத்துழைப்புக்கான இந்த அர்ப்பணிப்பு AI-ஆற்றல் கொண்ட அமைப்புகளில் அதிக மொழியியல் உள்ளடக்கத்தை ஊக்குவிப்பதற்கு முக்கியமானது. குழுவின் முடிவு அறிக்கை அவர்களின் பார்வையை உள்ளடக்கியது: “குறைவாக பிரதிநிதித்துவப்படுத்தப்பட்ட மொழி வகைகளின் பிரதிநிதித்துவத்தில் முன்னேற்றங்களை வளர்ப்பதற்காக, மேலும் ஆராய்ச்சியை ஆதரிப்பதையும் ஊக்குவிப்பதையும் நோக்கமாகக் கொண்டுள்ளோம்.” இந்த அறிக்கை ஆராய்ச்சி சமூகத்திற்கான ஒரு செயலுக்கான அழைப்பாக செயல்படுகிறது, பல AI அமைப்புகளில் தொடரும் மொழியியல் சார்புகளை நிவர்த்தி செய்வதற்கான தொடர்ச்சியான முயற்சிகளை வலியுறுத்துகிறது.
தொழில்நுட்ப அம்சங்களை ஆழமாக ஆராய்தல்
Tradutor-இன் வெற்றிக்கு ஒரு முக்கியமான அங்கமான செம்மைப்படுத்தும் செயல்முறை, மேலும் ஆய்வுக்கு உத்தரவாதம் அளிக்கிறது. ஆராய்ச்சியாளர்கள் முழு செம்மைப்படுத்துதல் மற்றும் அளவுரு-திறனுள்ள செம்மைப்படுத்துதல் (PEFT) நுட்பங்கள், குறிப்பாக LoRA ஆகியவற்றின் கலவையைப் பயன்படுத்தினர். முழு செம்மைப்படுத்துதல், கணக்கீட்டு ரீதியாக தீவிரமானது என்றாலும், ஐரோப்பிய போர்த்துகீசிய மொழியின் குறிப்பிட்ட பண்புகளுக்கு ஏற்ப மாதிரியின் அனைத்து அளவுருக்களையும் மாற்றியமைக்க அனுமதிக்கிறது. இந்த விரிவான தழுவல், குறிப்பாக நுணுக்கமான மற்றும் சிக்கலான மொழி கட்டமைப்புகளுக்கு, மொழிபெயர்ப்பு தரத்தில் குறிப்பிடத்தக்க மேம்பாடுகளுக்கு வழிவகுக்கும்.
மறுபுறம், LoRA ஒரு மிகவும் வள-திறனுள்ள மாற்றீட்டை வழங்குகிறது. மாதிரியின் அளவுருக்களின் ஒரு சிறிய துணைக்குழுவை மட்டும் மாற்றியமைப்பதில் கவனம் செலுத்துவதன் மூலம், LoRA செம்மைப்படுத்துவதற்குத் தேவையான கணக்கீட்டு செலவு மற்றும் நேரத்தை கணிசமாகக் குறைக்கிறது. உயர்-செயல்திறன் கணினி வளங்களுக்கான அணுகல் இல்லாத ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்களுக்கு இந்த அணுகுமுறை குறிப்பாக மதிப்புமிக்கது. Tradutor திட்டத்தில் LoRA-இன் வெற்றி, வரையறுக்கப்பட்ட கணக்கீட்டு சக்தியுடன் கூட உயர்தர மொழிபெயர்ப்பு முடிவுகளை அடைய முடியும் என்பதை நிரூபிக்கிறது.
Gemma-2 2B, Phi-3 mini மற்றும் LLaMA-3 8B ஆகிய LLM-களின் தேர்வு ஒரு மூலோபாய அணுகுமுறையையும் பிரதிபலிக்கிறது. Gemma-2 2B அதன் செயல்திறனுக்காக அறியப்படுகிறது, இது வரையறுக்கப்பட்ட வளங்களைக் கொண்ட சூழல்களில் பயன்படுத்த ஏற்றதாக அமைகிறது. Phi-3 mini, அதன் சிறிய அளவு இருந்தபோதிலும், ஈர்க்கக்கூடிய செயல்திறனை நிரூபித்துள்ளது, குறிப்பிட்ட பணிகளுக்கான சிறிய மாடல்களின் திறனைக் காட்டுகிறது. LLaMA-3 8B, மூன்றில் மிகப்பெரியது, அதிக கணக்கீட்டு செலவில் அதிக துல்லியத்திற்கான சாத்தியத்தை வழங்குகிறது. மூன்று மாடல்களையும் மதிப்பீடு செய்வதன் மூலம், ஆராய்ச்சியாளர்கள் செயல்திறன்-திறன் சமரசங்களின் விரிவான பகுப்பாய்வை வழங்குகிறார்கள், இது துறையில் எதிர்கால ஆராய்ச்சி மற்றும் மேம்பாட்டிற்கான மதிப்புமிக்க வழிகாட்டுதலை வழங்குகிறது.
இணையான கார்பஸின் முக்கியத்துவம்
1.7 மில்லியன் ஆவண ஜோடிகளைக் கொண்ட PTradutor தரவுத்தொகுப்பு, இயந்திர மொழிபெயர்ப்பில் பெரிய, உயர்தர இணையான கார்பஸின் முக்கியத்துவத்திற்கு ஒரு சான்றாகும். தரவுத்தொகுப்பால் உள்ளடக்கப்பட்ட களங்களின் பன்முகத்தன்மை - இதழியல் மற்றும் இலக்கியம் முதல் சட்ட ஆவணங்கள் மற்றும் சமூக ஊடகம் வரை - ஐரோப்பிய போர்த்துகீசிய மொழி பயன்பாட்டின் பிரதிநிதித்துவ மாதிரியில் மாதிரி பயிற்சி அளிக்கப்படுவதை உறுதி செய்கிறது. இந்த பரந்த கவரேஜ் பரந்த அளவிலான சூழல்களில் துல்லியமான மற்றும் நுணுக்கமான மொழிபெயர்ப்புகளை அடைவதற்கு முக்கியமானது.
தானியங்கி மொழிபெயர்ப்பு மற்றும் கடுமையான தர சோதனைகள் ஆகிய இரண்டையும் உள்ளடக்கிய நுணுக்கமான தொகுப்பு செயல்முறை, தரவுத்தொகுப்பின் நம்பகத்தன்மையை மேலும் மேம்படுத்துகிறது. பிழைகளைக் குறைப்பதற்கும் இணையான உரைகளின் துல்லியத்தை உறுதி செய்வதற்கும் முக்கியத்துவம் கொடுத்து, தொகுப்பு முறையின் விரிவான விளக்கத்தில் தரவு ஒருமைப்பாட்டிற்கான ஆராய்ச்சியாளர்களின் அர்ப்பணிப்பு தெளிவாகிறது.
எதிர்கால திசைகள் மற்றும் சாத்தியமான பயன்பாடுகள்
Tradutor திட்டம் எதிர்கால ஆராய்ச்சி மற்றும் மேம்பாட்டிற்கான அற்புதமான வழிகளைத் திறக்கிறது. ஆராய்ச்சியாளர்களின் வழிமுறையை மற்ற குறைவான பிரதிநிதித்துவப்படுத்தப்பட்ட மொழிகள் மற்றும் பேச்சுவழக்குகளுக்குப் பயன்படுத்தலாம், இது உயர்தர இயந்திர மொழிபெயர்ப்பு அமைப்புகளால் ஆதரிக்கப்படும் மொழிகளின் குறிப்பிடத்தக்க விரிவாக்கத்திற்கு வழிவகுக்கும்.
ஆங்கிலம் மற்றும் ஐரோப்பிய போர்த்துகீசிய மொழிகளுக்கு இடையில் மொழிபெயர்ப்பதற்கான உடனடி பயன்பாட்டிற்கு அப்பால், Tradutor பல்வேறு பிற பணிகளுக்கும் ஒரு மதிப்புமிக்க கருவியாக செயல்பட முடியும், அவற்றுள்:
- Cross-lingual information retrieval: பயனர்கள் ஒரு மொழியில் தகவலைத் தேடவும், மற்றொரு மொழியில் தொடர்புடைய ஆவணங்களைப் பெறவும் உதவுகிறது.
- Machine-assisted language learning: கற்பவர்களுக்கு அவர்களின் மொழி கையகப்படுத்தல் செயல்முறைக்கு உதவ துல்லியமான மற்றும் சூழலுக்கு ஏற்ற மொழிபெயர்ப்புகளை வழங்குகிறது.
- Cross-cultural communication: வெவ்வேறு மொழிகளைப் பேசும் நபர்களிடையே தகவல்தொடர்புகளை எளிதாக்குகிறது, அதிக புரிதலையும் ஒத்துழைப்பையும் வளர்க்கிறது.
- Sentiment Analysis: உணர்வு பகுப்பாய்வு பணிகளுக்காக மாதிரியை மேலும் பயிற்றுவிக்க முடியும்.
திட்டத்தின் திறந்த-மூல தன்மை மேலும் கண்டுபிடிப்பு மற்றும் ஒத்துழைப்பை ஊக்குவிக்கிறது, AI-ஆற்றல் கொண்ட தொழில்நுட்பங்களுக்கு மிகவும் உள்ளடக்கிய மற்றும் மொழியியல் ரீதியாக வேறுபட்ட எதிர்காலத்திற்கான வழியை வகுக்கிறது. Tradutor திட்டம் ஒரு தொழில்நுட்ப சாதனை மட்டுமல்ல; இது மொழியியல் பிளவை இணைப்பதற்கும், அவர்கள் பேசும் மொழியைப் பொருட்படுத்தாமல், AI-இன் நன்மைகள் அனைவருக்கும் அணுகக்கூடியதாக இருப்பதை உறுதி செய்வதற்கும் ஒரு குறிப்பிடத்தக்க படியாகும்.