ট্রাদুথর: ইউরোপীয় পর্তুগিজের জন্য একটি AI অনুবাদক

মেশিন অনুবাদে ভাষাগত বিভেদ দূরীকরণ

ইউনিভার্সিটি অফ পোর্তো, INESC TEC, হাইডেলবার্গ ইউনিভার্সিটি, ইউনিভার্সিটি অফ বেইরা ইন্টারিয়র এবং Ci2 – স্মার্ট সিটিস রিসার্চ সেন্টারের গবেষকদের একটি দল ‘ট্রাদুথর’ নামে একটি অগ্রণী ওপেন-সোর্স AI অনুবাদ মডেল উন্মোচন করেছে। এই মডেলটি বিশেষভাবে ইউরোপীয় পর্তুগিজ ভাষার জন্য তৈরি করা হয়েছে। এই উদ্ভাবনী প্রকল্পটি মেশিন অনুবাদের ক্ষেত্রে একটি উল্লেখযোগ্য বৈষম্য দূর করতে সরাসরি কাজ করে, যেখানে ব্রাজিলীয় পর্তুগিজ, যা বিশ্বব্যাপী পর্তুগিজ ভাষাভাষীদের সংখ্যাগরিষ্ঠ অংশ ব্যবহার করে, প্রায়শই তার ইউরোপীয় প্রতিরূপকে ছাপিয়ে যায়।

ভাষাগত অবহেলার চ্যালেঞ্জ

গবেষকরা একটি গুরুত্বপূর্ণ বিষয়ের উপর জোর দিয়েছেন: বেশিরভাগ বিদ্যমান অনুবাদ সিস্টেম প্রধানত ব্রাজিলীয় পর্তুগিজের উপর দৃষ্টি নিবদ্ধ করে। এই অগ্রাধিকার পর্তুগাল এবং অন্যান্য অঞ্চলের ভাষাভাষীদের প্রান্তিক করে তোলে যেখানে ইউরোপীয় পর্তুগিজ প্রচলিত। এই ভাষাগত পক্ষপাতের সুদূরপ্রসারী পরিণতি হতে পারে, বিশেষ করে স্বাস্থ্যসেবা এবং আইনি পরিষেবার মতো গুরুত্বপূর্ণ ক্ষেত্রগুলিতে, যেখানে সুনির্দিষ্ট এবং সংক্ষিপ্ত ভাষা বোঝা অত্যন্ত গুরুত্বপূর্ণ। এমন একটি পরিস্থিতির কথা কল্পনা করুন যেখানে একটি মেডিকেল নথি বা একটি আইনি চুক্তি অনুবাদ করা হয়েছে সূক্ষ্ম কিন্তু গুরুত্বপূর্ণ ভুলের সাথে, কারণ সিস্টেমটি ইউরোপীয় পর্তুগিজ বাগধারা এবং অভিব্যক্তির সাথে পরিচিত নয়। ভুল বোঝাবুঝি এবং ত্রুটির সম্ভাবনা উল্লেখযোগ্য।

PTradutor: বর্ধিত নির্ভুলতার জন্য একটি বৃহৎ সমান্তরাল কর্পাস

এই চ্যালেঞ্জ মোকাবেলার জন্য, গবেষণা দলটি PTradutor তৈরি করেছে, যা একটি ব্যতিক্রমী ব্যাপক সমান্তরাল কর্পাস। এই অমূল্য সংস্থানটিতে 1.7 মিলিয়নেরও বেশি নথি রয়েছে, যা ইংরেজি এবং ইউরোপীয় পর্তুগিজ উভয় ভাষাতেই যত্নসহকারে যুক্ত করা হয়েছে। এই ডেটাসেটের স্কেল এবং বৈচিত্র্য উল্লেখযোগ্য। এটি বিভিন্ন ক্ষেত্রকে অন্তর্ভুক্ত করে, যার মধ্যে রয়েছে:

  • সাংবাদিকতা: সমসাময়িক ভাষার ব্যবহার এবং রিপোর্টিং শৈলীর একটি সমৃদ্ধ উৎস প্রদান করে।
  • সাহিত্য: আনুষ্ঠানিক এবং সৃজনশীল লেখার সূক্ষ্মতা ধারণ করে।
  • ওয়েব সামগ্রী: অনলাইন যোগাযোগের ক্রমবর্ধমান পরিবর্তনশীলতাকে প্রতিফলিত করে।
  • রাজনীতি: সরকারী বিবৃতি এবং নীতি নথিগুলির সঠিক অনুবাদ নিশ্চিত করে।
  • আইনি নথি: আইনি পরিভাষা এবং শব্দচয়নের নির্ভুলতার গুরুত্বপূর্ণ প্রয়োজনীয়তা পূরণ করে।
  • সোশ্যাল মিডিয়া: অনলাইন যোগাযোগের বৈশিষ্ট্যযুক্ত অনানুষ্ঠানিক এবং গতিশীল ভাষা অন্তর্ভুক্ত করে।

এই বহুমুখী পদ্ধতি নিশ্চিত করে যে ‘ট্রাদুথর’ একটি ভাষাগত ভিত্তির উপর প্রশিক্ষিত হয়েছে যা বিভিন্ন প্রসঙ্গে ব্যবহৃত ইউরোপীয় পর্তুগিজ ভাষার বিস্তৃতি এবং গভীরতাকে সঠিকভাবে উপস্থাপন করে।

একটি কঠোর সংরক্ষণ প্রক্রিয়া: ডেটা ইন্টিগ্রিটি নিশ্চিত করা

PTradutor তৈরিতে একটি সূক্ষ্ম এবং বহু-পর্যায়ের সংরক্ষণ প্রক্রিয়া জড়িত ছিল। গবেষকরা প্রথমে প্রচুর পরিমাণে এককভাষী ইউরোপীয় পর্তুগিজ টেক্সট সংগ্রহ করেন। এই টেক্সটগুলি তারপর ইংরেজিতে অনুবাদ করা হয়েছিল, Google Translate-এর অ্যাক্সেসযোগ্যতা এবং তুলনামূলকভাবে উচ্চ গুণমান ব্যবহার করে। যাইহোক, যে কোনও স্বয়ংক্রিয় অনুবাদ প্রক্রিয়ার সম্ভাব্য ত্রুটিগুলি স্বীকার করে, দলটি কঠোর গুণমান পরীক্ষাগুলির একটি সিরিজ বাস্তবায়ন করেছে। এই পরীক্ষাগুলি ডেটার ইন্টিগ্রিটি বজায় রাখার জন্য এবং সমান্তরাল কর্পাসটি যতটা সম্ভব নির্ভুল এবং নির্ভরযোগ্য তা নিশ্চিত করার জন্য অত্যন্ত গুরুত্বপূর্ণ ছিল।

তারা যেমন বলেছেন, ‘আমরা সম্প্রদায়কে ইউরোপীয় পর্তুগিজ এবং ইংরেজির জন্য বৃহত্তম অনুবাদ ডেটাসেট সরবরাহ করি।’ এই বিবৃতিটি শুধুমাত্র একটি অত্যাধুনিক অনুবাদ মডেল তৈরি করার জন্যই নয়, বৃহত্তর গবেষণা সম্প্রদায়ের কাছে একটি মূল্যবান সম্পদ সরবরাহ করার জন্যও দলের প্রতিশ্রুতির উপর জোর দেয়।

ফাইন-টিউনিং ওপেন-সোর্স LLMs: একটি শক্তিশালী পদ্ধতি

PTradutor ডেটাসেটকে তাদের ভিত্তি হিসাবে ব্যবহার করে, গবেষকরা তিনটি বিশিষ্ট ওপেন-সোর্স বৃহৎ ভাষা মডেল (LLMs) ফাইন-টিউনিং করার কাজ শুরু করেন:

  1. Google-এর Gemma-2 2B: একটি শক্তিশালী মডেল যা তার দক্ষতা এবং কার্যকারিতার জন্য পরিচিত।
  2. Microsoft-এর Phi-3 mini: একটি কম্প্যাক্ট কিন্তু আশ্চর্যজনকভাবে সক্ষম মডেল, সীমিত সংস্থান সম্পন্ন পরিবেশের জন্য আদর্শ।
  3. Meta-এর LLaMA-3 8B: একটি বৃহত্তর এবং আরও জটিল মডেল, সম্ভাব্য উচ্চতর নির্ভুলতা প্রদান করে।

ফাইন-টিউনিং প্রক্রিয়ায় দুটি স্বতন্ত্র পদ্ধতি জড়িত ছিল:

  • সম্পূর্ণ মডেল প্রশিক্ষণ: এতে LLM-এর সমস্ত প্যারামিটারগুলিকে সামঞ্জস্য করা জড়িত, যা ইংরেজি থেকে ইউরোপীয় পর্তুগিজে অনুবাদের নির্দিষ্ট কাজের জন্য সর্বাধিক অভিযোজনের অনুমতি দেয়।
  • প্যারামিটার-দক্ষ কৌশল (LoRA): Low-Rank Adaptation (LoRA) একটি আরও দক্ষ পদ্ধতি যা মডেলের প্যারামিটারগুলির একটি ছোট উপসেটকে সামঞ্জস্য করার উপর দৃষ্টি নিবদ্ধ করে। এই কৌশলটি ফাইন-টিউনিংয়ের জন্য প্রয়োজনীয় গণনামূলক খরচ এবং সময় হ্রাস করে, এটি সীমিত সংস্থান সম্পন্ন গবেষকদের জন্য বিশেষভাবে আকর্ষণীয় করে তোলে।

এই দ্বৈত পদ্ধতি কর্মক্ষমতা এবং দক্ষতার মধ্যে ট্রেড-অফের তুলনা করার অনুমতি দেয়, ভবিষ্যতের গবেষণার জন্য মূল্যবান অন্তর্দৃষ্টি প্রদান করে।

চিত্তাকর্ষক কর্মক্ষমতা: শিল্পের মানকে চ্যালেঞ্জ

‘ট্রাদুথর’-এর প্রাথমিক মূল্যায়ন ব্যতিক্রমীভাবে আশাব্যঞ্জক ফলাফল দিয়েছে। মডেলটি বিদ্যমান অনেক ওপেন-সোর্স অনুবাদ সিস্টেমকে ছাড়িয়ে যাওয়ার একটি অসাধারণ ক্ষমতা প্রদর্শন করে। আরও চিত্তাকর্ষকভাবে, এটি শিল্পের কিছু শীর্ষস্থানীয় ক্লোজড-সোর্স, বাণিজ্যিকভাবে উপলব্ধ মডেলগুলির সাথে প্রতিযোগিতামূলক কর্মক্ষমতা স্তর অর্জন করে।

বিশেষভাবে, ফাইন-টিউন করা LLaMA-3 8B মডেলটি বিদ্যমান ওপেন-সোর্স সিস্টেমগুলির কার্যকারিতাকে ছাড়িয়ে গেছে এবং Google Translate এবং DeepL-এর মতো শিল্প-মানের ক্লোজড-সোর্স মডেলগুলির গুণমানের কাছাকাছি পৌঁছেছে। এই অর্জন গবেষণা দলের পদ্ধতির কার্যকারিতা এবং PTradutor ডেটাসেটের গুণমানের একটি প্রমাণ।

গবেষকরা জোর দিয়েছেন যে তাদের প্রাথমিক উদ্দেশ্য বাণিজ্যিক মডেলগুলিকে ছাড়িয়ে যাওয়া ছিল না। পরিবর্তে, তাদের ফোকাস ছিল ‘ছোট ভাষা মডেলগুলিকে নির্দিষ্ট ভাষার বৈচিত্র্য অনুবাদ করার জন্য অভিযোজিত করার জন্য একটি গণনামূলকভাবে দক্ষ, অভিযোজনযোগ্য এবং সম্পদ-দক্ষ পদ্ধতির প্রস্তাব করা।’ ‘ট্রাদুথর’ শিল্পের শীর্ষস্থানীয় মডেলগুলির সাথে তুলনীয় ফলাফল অর্জন করে, এটি একটি ‘উল্লেখযোগ্য কৃতিত্ব’, যা তাদের পদ্ধতির সম্ভাব্যতাকে তুলে ধরে।

ইউরোপীয় পর্তুগিজের বাইরে: একটি প্রসারণযোগ্য সমাধান

যদিও ‘ট্রাদুথর’ বিশেষভাবে ইউরোপীয় পর্তুগিজের জন্য একটি কেস স্টাডি হিসাবে তৈরি করা হয়েছিল, গবেষকরা তাদের পদ্ধতির বিস্তৃত প্রয়োগযোগ্যতার উপর আলোকপাত করেছেন। একই কৌশল এবং নীতিগুলি অন্যান্য ভাষাগুলির ক্ষেত্রেও সহজেই প্রয়োগ করা যেতে পারে যেগুলি মেশিন অনুবাদ ক্ষেত্রে কম উপস্থাপনের অনুরূপ চ্যালেঞ্জের মুখোমুখি হয়। এই প্রসারণযোগ্যতা প্রকল্পের একটি মূল শক্তি, যা বিভিন্ন ভাষা এবং উপভাষার জন্য অনুবাদের গুণমান উন্নত করার একটি সম্ভাব্য পথ সরবরাহ করে।

AI-তে ভাষাগত অন্তর্ভুক্তি বৃদ্ধি

PTradutor ডেটাসেট, এটি প্রতিলিপি করার জন্য ব্যবহৃত কোড এবং ‘ট্রাদুথর’ মডেল নিজেই ওপেন-সোর্স করার মাধ্যমে, গবেষণা দলটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের বিস্তৃত ক্ষেত্রে একটি উল্লেখযোগ্য অবদান রাখছে। তাদের লক্ষ্য ভাষা বৈচিত্র্য-নির্দিষ্ট মেশিন অনুবাদে (MT) আরও গবেষণা এবং উন্নয়নকে উৎসাহিত করা। ওপেন সায়েন্স এবং সহযোগিতার প্রতি এই প্রতিশ্রুতি AI-চালিত সিস্টেমে বৃহত্তর ভাষাগত অন্তর্ভুক্তি প্রচারের জন্য অত্যন্ত গুরুত্বপূর্ণ। দলের সমাপনী বিবৃতি তাদের দৃষ্টিভঙ্গিকে সংক্ষিপ্ত করে: ‘আমরা আরও গবেষণাকে সমর্থন ও উৎসাহিত করার লক্ষ্য রাখি, স্বল্প-উপস্থাপিত ভাষার বৈচিত্র্যের উপস্থাপনে অগ্রগতির উন্নতি ঘটাই।’ এই বিবৃতিটি গবেষণা সম্প্রদায়ের জন্য একটি কর্মপ্রেরণা হিসাবে কাজ করে, অনেক AI সিস্টেমে বিদ্যমান ভাষাগত পক্ষপাতিত্বগুলি দূর করার জন্য ক্রমাগত প্রচেষ্টার আহ্বান জানায়।

প্রযুক্তিগত দিকগুলির গভীরে অনুসন্ধান

ফাইন-টিউনিং প্রক্রিয়া, ‘ট্রাদুথর’-এর সাফল্যের একটি গুরুত্বপূর্ণ উপাদান, আরও পরীক্ষা-নিরীক্ষার দাবি রাখে। গবেষকরা সম্পূর্ণ ফাইন-টিউনিং এবং প্যারামিটার-দক্ষ ফাইন-টিউনিং (PEFT) কৌশলগুলির একটি সমন্বয় ব্যবহার করেছেন, বিশেষ করে LoRA। সম্পূর্ণ ফাইন-টিউনিং, গণনামূলকভাবে নিবিড় হলেও, মডেলটিকে ইউরোপীয় পর্তুগিজ ভাষার নির্দিষ্ট বৈশিষ্ট্যগুলির সাথে তার সমস্ত প্যারামিটারগুলিকে অভিযোজিত করার অনুমতি দেয়। এই ব্যাপক অভিযোজন অনুবাদের গুণমানে উল্লেখযোগ্য উন্নতি ঘটাতে পারে, বিশেষ করে সূক্ষ্ম এবং জটিল ভাষা কাঠামোর জন্য।

অন্যদিকে, LoRA একটি আরও সম্পদ-দক্ষ বিকল্প সরবরাহ করে। মডেলের প্যারামিটারগুলির শুধুমাত্র একটি ছোট উপসেটকে অভিযোজিত করার উপর দৃষ্টি নিবদ্ধ করে, LoRA ফাইন-টিউনিংয়ের জন্য প্রয়োজনীয় গণনামূলক খরচ এবং সময়কে উল্লেখযোগ্যভাবে হ্রাস করে। এই পদ্ধতিটি সেই সমস্ত গবেষক এবং ডেভেলপারদের জন্য বিশেষভাবে মূল্যবান যাদের উচ্চ-ক্ষমতাসম্পন্ন কম্পিউটিং সংস্থানগুলিতে অ্যাক্সেস নাও থাকতে পারে। ‘ট্রাদুথর’ প্রকল্পে LoRA-এর সাফল্য প্রমাণ করে যে সীমিত গণনামূলক ক্ষমতা থাকা সত্ত্বেও উচ্চ-মানের অনুবাদের ফলাফল অর্জন করা যেতে পারে।

LLMs-এর পছন্দ – Gemma-2 2B, Phi-3 mini, এবং LLaMA-3 8B – একটি কৌশলগত পদ্ধতিকেও প্রতিফলিত করে। Gemma-2 2B তার দক্ষতার জন্য পরিচিত, এটি সীমিত সংস্থান সম্পন্ন পরিবেশে স্থাপনের জন্য উপযুক্ত করে তোলে। Phi-3 mini, তার কম্প্যাক্ট আকার সত্ত্বেও, চিত্তাকর্ষক কর্মক্ষমতা প্রদর্শন করেছে, নির্দিষ্ট কাজের জন্য ছোট মডেলগুলির সম্ভাব্যতা প্রদর্শন করে। LLaMA-3 8B, তিনটি মডেলের মধ্যে বৃহত্তম, সর্বোচ্চ নির্ভুলতার সম্ভাবনা সরবরাহ করে, যদিও উচ্চতর গণনামূলক খরচে। তিনটি মডেলের মূল্যায়ন করে, গবেষকরা কর্মক্ষমতা-দক্ষতার ট্রেড-অফগুলির একটি বিস্তৃত বিশ্লেষণ প্রদান করেন, যা ক্ষেত্রের ভবিষ্যত গবেষণা এবং উন্নয়নের জন্য মূল্যবান নির্দেশনা প্রদান করে।

সমান্তরাল কর্পোরার গুরুত্ব

PTradutor ডেটাসেট, তার 1.7 মিলিয়ন ডকুমেন্ট পেয়ার সহ, মেশিন অনুবাদে বৃহৎ, উচ্চ-মানের সমান্তরাল কর্পোরার গুরুত্বের একটি প্রমাণ। ডেটাসেট দ্বারা আচ্ছাদিত ক্ষেত্রগুলির বৈচিত্র্য – সাংবাদিকতা এবং সাহিত্য থেকে শুরু করে আইনি নথি এবং সোশ্যাল মিডিয়া – নিশ্চিত করে যে মডেলটি ইউরোপীয় পর্তুগিজ ভাষা ব্যবহারের একটি প্রতিনিধিত্বমূলক নমুনার উপর প্রশিক্ষিত। এই বিস্তৃত কভারেজ বিভিন্ন প্রসঙ্গে নির্ভুল এবং সংক্ষিপ্ত অনুবাদ অর্জনের জন্য অত্যন্ত গুরুত্বপূর্ণ।

স্বয়ংক্রিয় অনুবাদ এবং কঠোর গুণমান পরীক্ষা উভয়ই জড়িত, সূক্ষ্ম সংরক্ষণ প্রক্রিয়া, ডেটাসেটের নির্ভরযোগ্যতাকে আরও বাড়িয়ে তোলে। গবেষকদের ডেটা ইন্টিগ্রিটির প্রতি প্রতিশ্রুতি তাদের সংরক্ষণ পদ্ধতির বিশদ বিবরণে স্পষ্ট, ত্রুটিগুলি কমানো এবং সমান্তরাল টেক্সটগুলির নির্ভুলতা নিশ্চিত করার গুরুত্বের উপর জোর দেওয়া।

ভবিষ্যতের দিকনির্দেশনা এবং সম্ভাব্য অ্যাপ্লিকেশন

‘ট্রাদুথর’ প্রকল্পটি ভবিষ্যতের গবেষণা এবং উন্নয়নের জন্য উত্তেজনাপূর্ণ পথ খুলে দেয়। গবেষকদের পদ্ধতিটি অন্যান্য স্বল্প-উপস্থাপিত ভাষা এবং উপভাষাগুলিতে প্রয়োগ করা যেতে পারে, যা উচ্চ-মানের মেশিন অনুবাদ সিস্টেম দ্বারা সমর্থিত ভাষাগুলির একটি উল্লেখযোগ্য সম্প্রসারণের দিকে পরিচালিত করতে পারে।

ইংরেজি এবং ইউরোপীয় পর্তুগিজের মধ্যে অনুবাদের তাৎক্ষণিক প্রয়োগের বাইরে, ‘ট্রাদুথর’ বিভিন্ন অন্যান্য কাজের জন্য একটি মূল্যবান হাতিয়ার হিসাবেও কাজ করতে পারে, যেমন:

  • ক্রস-লিঙ্গুয়াল তথ্য পুনরুদ্ধার: ব্যবহারকারীদের একটি ভাষায় তথ্য অনুসন্ধান করতে এবং অন্য ভাষায় প্রাসঙ্গিক নথি পুনরুদ্ধার করতে সক্ষম করে।
  • মেশিন-সহায়তা ভাষা শিক্ষা: শিক্ষার্থীদের ভাষা অর্জনের প্রক্রিয়ায় সহায়তা করার জন্য নির্ভুল এবং প্রাসঙ্গিকভাবে উপযুক্ত অনুবাদ সরবরাহ করে।
  • আন্তঃসাংস্কৃতিক যোগাযোগ: বিভিন্ন ভাষাভাষী ব্যক্তিদের মধ্যে যোগাযোগ সহজতর করে, বৃহত্তর বোঝাপড়া এবং সহযোগিতার উন্নতি ঘটায়।
  • সেন্টিমেন্ট বিশ্লেষণ: মডেলটিকে সেন্টিমেন্ট বিশ্লেষণের কাজের জন্য আরও প্রশিক্ষণ দেওয়া যেতে পারে।

প্রকল্পের ওপেন-সোর্স প্রকৃতি আরও উদ্ভাবন এবং সহযোগিতাকে উৎসাহিত করে, AI-চালিত প্রযুক্তির জন্য আরও অন্তর্ভুক্তিমূলক এবং ভাষাগতভাবে বৈচিত্র্যময় ভবিষ্যতের পথ প্রশস্ত করে। ‘ট্রাদুথর’ প্রকল্পটি কেবল একটি প্রযুক্তিগত অর্জন নয়; এটি ভাষাগত বিভেদ দূর করার এবং AI-এর সুবিধাগুলি সকলের কাছে অ্যাক্সেসযোগ্য তা নিশ্চিত করার দিকে একটি গুরুত্বপূর্ণ পদক্ষেপ, তারা যে ভাষাতেই কথা বলুক না কেন।