Google Gemma 3n উন্মোচন করেছে, একটি যুগান্তকারী মাল্টিমোডাল ছোট ভাষার মডেল যা এখন উদ্ভাবনী LiteRT Hugging Face কমিউনিটিতে প্রিভিউতে পাওয়া যাচ্ছে, পূর্বে চালু হওয়া মডেলগুলোর সাথে। Gemma 3n বিভিন্ন ধরনের ইনপুট যেমন টেক্সট, ছবি, ভিডিও এবং অডিও প্রক্রিয়াকরণের জন্য তৈরি করা হয়েছে। উপরন্তু, এটি ফাইন-টিউনিং, রিট্রিভাল-অগমেন্টেড জেনারেশন (RAG) এর মাধ্যমে কাস্টমাইজেশন, এবং ফাংশন কলিংকে সহজ করে, যা সবই নতুন AI এজ SDK দ্বারা চালিত।
Gemma 3n: ভেতরের শক্তি উন্মোচন
Gemma 3n দুটি ভিন্ন প্যারামিটার ভ্যারিয়েন্টে পাওয়া যায়: Gemma 3n 2B এবং Gemma 3n 4B। উভয় সংস্করণই টেক্সট এবং ইমেজ ইনপুট হ্যান্ডেল করতে সজ্জিত, Google-এর অনুমান অনুসারে অডিও সাপোর্ট শীঘ্রই যুক্ত করা হবে। এটি তার পূর্বসূরি, নন-মাল্টিমোডাল Gemma 3 1B-এর তুলনায় একটি গুরুত্বপূর্ণ অগ্রগতি, যা এই বছরের শুরুতে আত্মপ্রকাশ করেছিল এবং একটি মোবাইল GPU-তে প্রতি সেকেন্ডে 2,585 টোকেন ব্যবস্থাপনার জন্য মাত্র 529MB প্রয়োজন ছিল।
Google-এর টেকনিক্যাল স্পেসিফিকেশন অনুসারে, Gemma 3n সিলেক্টিভ প্যারামিটার অ্যাক্টিভেশন ব্যবহার করে, একটি উদ্ভাবনী কৌশল যা কার্যকর প্যারামিটার ব্যবস্থাপনার জন্য ডিজাইন করা হয়েছে। এর মানে হল যে দুটি মডেলে 2B বা 4B-এর চেয়ে বেশি প্যারামিটার রয়েছে যা অনুমানের সময় সক্রিয়ভাবে জড়িত থাকে। এই কৌশলগত পদ্ধতি সম্পদের ব্যবহার অপ্টিমাইজ করে এবং কর্মক্ষমতা বাড়ায়।
ফাইন-টিউনিং এবং কোয়ান্টাইজেশন: কাস্টমাইজেশন উন্মোচন
Google জোর দিয়েছে ডেভেলপারদের বেস মডেল ফাইন-টিউন করার ক্ষমতা এবং পরবর্তীতে Google AI Edge এর মাধ্যমে অ্যাক্সেসযোগ্য অত্যাধুনিক কোয়ান্টাইজেশন সরঞ্জাম ব্যবহার করে এটিকে রূপান্তর এবং কোয়ান্টাইজ করার ওপর। এটি ডেভেলপারদের নির্দিষ্ট অ্যাপ্লিকেশনের জন্য মডেলটিকে তৈরি করতে এবং এর কার্যকারিতা বৈশিষ্ট্যগুলি অপ্টিমাইজ করতে সক্ষম করে।
RAG ইন্টিগ্রেশন: প্রাসঙ্গিক ডেটা দিয়ে ভাষার মডেল সমৃদ্ধ করা
ফাইন-টিউনিংয়ের বিকল্প হিসেবে, Gemma 3n মডেলগুলিকে অন-ডিভাইস রিট্রিভাল অগমেন্টেড জেনারেশন (RAG)-এর জন্য স্থাপন করা যেতে পারে, এমন একটি পদ্ধতি যা অ্যাপ্লিকেশন-নির্দিষ্ট ডেটা দিয়ে একটি ভাষার মডেলকে সমৃদ্ধ করে। এই বৃদ্ধি AI এজ RAG লাইব্রেরি দ্বারা সহজতর করা হয়, যা বর্তমানে শুধুমাত্র Android এর জন্য উপলব্ধ, তবে ভবিষ্যতে অন্যান্য প্ল্যাটফর্মে সম্প্রসারণের পরিকল্পনা রয়েছে।
RAG লাইব্রেরি বেশ কয়েকটি মূল পর্যায় সমন্বিত একটি সুবিন্যস্ত পাইপলাইনের মাধ্যমে কাজ করে:
- Data Import: সিস্টেমে প্রাসঙ্গিক ডেটা গ্রহণ করা।
- Chunking and Indexing: দক্ষ পুনরুদ্ধারের জন্য ডেটা সেগমেন্ট করা এবং সংগঠিত করা।
- Embeddings Generation: শব্দার্থিক বোঝার জন্য ডেটার ভেক্টর উপস্থাপনা তৈরি করা।
- Information Retrieval: ব্যবহারকারীর প্রশ্নের ভিত্তিতে প্রাসঙ্গিক তথ্য সনাক্ত করা এবং নিষ্কাশন করা।
- Response Generation: LLM ব্যবহার করে সঙ্গতিপূর্ণ এবং প্রাসঙ্গিকভাবে যথাযথ প্রতিক্রিয়া তৈরি করা।
এই শক্তিশালী কাঠামো কাস্টম ডেটাবেস, চঙ্কিং কৌশল এবং পুনরুদ্ধার ফাংশনগুলির জন্য সমর্থন অন্তর্ভুক্ত করে RAG পাইপলাইনের ব্যাপক কাস্টমাইজেশন সক্ষম করে।
AI Edge অন-ডিভাইস ফাংশন কলিং SDK: মডেল এবং বাস্তব-বিশ্বের ক্রিয়াকলাপের মধ্যে সেতু তৈরি করা
Gemma 3n-এর উন্মোচনের সাথে সাথে, Google AI Edge অন-ডিভাইস ফাংশন কলিং SDK চালু করেছে, যা প্রাথমিকভাবে শুধুমাত্র Android-এ উপলভ্য। এই SDK মডেলগুলিকে নির্দিষ্ট ফাংশন আহ্বান করতে সক্ষম করে, যার মাধ্যমে বাস্তব-বিশ্বের ক্রিয়াকলাপ সম্পাদন করা যায়।
একটি LLM-কে একটি বাহ্যিক ফাংশনের সাথে নির্বিঘ্নে একত্রিত করার জন্য, ফাংশনটিকে অবশ্যই এর নাম উল্লেখ করে, LLM কখন এটি ব্যবহার করবে তা বিশদভাবে ব্যাখ্যা করে একটি বর্ণনামূলক বিবরণ দিয়ে এবং প্রয়োজনীয় প্যারামিটারগুলি নির্দিষ্ট করে সংজ্ঞায়িত করতে হবে। এই মেটাডেটা একটি Tool
বস্তুর মধ্যে আবদ্ধ করা হয়, যা পরবর্তীতে GenerativeModel
কনস্ট্রাকটরের মাধ্যমে বৃহৎ ভাষা মডেলে প্রেরণ করা হয়। ফাংশন কলিং SDK প্রদত্ত বিবরণের উপর ভিত্তি করে LLM থেকে ফাংশন কল গ্রহণ এবং LLM-এ execution ফলাফল ফেরত পাঠানোর জন্য সমর্থন অন্তর্ভুক্ত করে।
সম্ভাবনা অনুসন্ধান: Google AI Edge গ্যালারি
যারা এই যুগান্তকারী সরঞ্জামগুলিতে গভীরভাবে অনুসন্ধান করতে আগ্রহী, তাদের জন্য Google AI Edge গ্যালারি একটি অমূল্য সম্পদ। এই পরীক্ষামূলক অ্যাপ্লিকেশনটি বিভিন্ন মডেল প্রদর্শন করে এবং টেক্সট, ইমেজ এবং অডিও প্রক্রিয়াকরণকে সহজতর করে।
আরও গভীরে: Gemma 3n এবং এর ইকোসিস্টেমের সূক্ষ্মতা
Gemma 3n-এর আবির্ভাব অন-ডিভাইস মেশিন লার্নিংয়ের বিবর্তনে একটি উল্লেখযোগ্য পদক্ষেপ চিহ্নিত করে, যা দক্ষতা, অভিযোজনযোগ্যতা এবং কার্যকারিতার একটি শক্তিশালী সংমিশ্রণ সরবরাহ করে। এর মাল্টিমোডাল ক্ষমতা RAG এবং ফাংশন কলিংয়ের জন্য সমর্থন সহ, বুদ্ধিমান এবং প্রাসঙ্গিকভাবে সচেতন অ্যাপ্লিকেশন তৈরি করতে চাওয়া ডেভেলপারদের জন্য অগণিত সম্ভাবনা উন্মোচন করে।
সিলেক্টিভ প্যারামিটার অ্যাক্টিভেশন: একটি গভীর অনুসন্ধান
Gemma 3n দ্বারা ব্যবহৃত সিলেক্টিভ প্যারামিটার অ্যাক্টিভেশন কৌশলটি আরও সতর্কতার দাবি রাখে। এই উদ্ভাবনী পদ্ধতি মডেলটিকে একটি প্রদত্ত কাজের জন্য প্রয়োজনীয় প্যারামিটারগুলিকে গতিশীলভাবে সক্রিয় করতে দেয়, যার ফলে কম্পিউটেশনাল ওভারহেড হ্রাস পায় এবং দক্ষতা সর্বাধিক হয়। এটি অন-ডিভাইস স্থাপনার জন্য বিশেষভাবে গুরুত্বপূর্ণ, যেখানে সংস্থানগুলি প্রায়শই সীমাবদ্ধ থাকে।
সিলেক্টিভ প্যারামিটার অ্যাক্টিভেশনের পেছনের অন্তর্নিহিত নীতিটি হল এই পর্যবেক্ষণ যে একটি নিউরাল নেটওয়ার্কের সমস্ত প্যারামিটার সমস্ত কাজের জন্য সমানভাবে গুরুত্বপূর্ণ নয়। কেবলমাত্র সবচেয়ে প্রাসঙ্গিক প্যারামিটারগুলিকে নির্বাচন করে সক্রিয় করার মাধ্যমে, মডেলটি উল্লেখযোগ্যভাবে হ্রাসকৃত কম্পিউটেশনাল খরচে তুলনামূলক কর্মক্ষমতা অর্জন করতে পারে।
সিলেক্টিভ প্যারামিটার অ্যাক্টিভেশনের বাস্তবায়ন সাধারণত একটি প্রদত্ত ইনপুটের জন্য কোন প্যারামিটারগুলি সক্রিয় করতে হবে তা নির্ধারণ করার জন্য একটি প্রক্রিয়া জড়িত। এটি বিভিন্ন কৌশলগুলির মাধ্যমে অর্জন করা যেতে পারে, যেমন:
- Attention Mechanisms: ইনপুটের সবচেয়ে প্রাসঙ্গিক অংশের দিকে মনোযোগ দেওয়া এবং সংশ্লিষ্ট প্যারামিটারগুলি সক্রিয় করা।
- Gating Mechanisms: নেটওয়ার্কের বিভিন্ন অংশের মাধ্যমে তথ্যের প্রবাহ নিয়ন্ত্রণ করতে একটি গেটিং ফাংশন ব্যবহার করা।
- Sparse Training: স্পার্স সংযোগগুলি শিখতে নেটওয়ার্ককে প্রশিক্ষণ দেওয়া, যাতে অনুমানের সময় শুধুমাত্র প্যারামিটারগুলির একটি উপসেট সক্রিয় থাকে।
কৌশল নির্বাচন মডেলের নির্দিষ্ট স্থাপত্য এবং টাস্কের বৈশিষ্ট্যের উপর নির্ভর করে। যাইহোক, মূল লক্ষ্য হল প্রদত্ত ইনপুটের জন্য সবচেয়ে প্রাসঙ্গিক প্যারামিটারগুলিকে সনাক্ত করা এবং সক্রিয় করা, যার ফলে কম্পিউটেশনাল খরচ হ্রাস করা এবং দক্ষতা উন্নত করা।
RAG: জ্ঞান এবং প্রসঙ্গ বৃদ্ধি করা
রিট্রিভাল অগমেন্টেড জেনারেশন (RAG) ভাষা মডেল ব্যবহারের পদ্ধতিতে একটি দৃষ্টান্ত পরিবর্তন উপস্থাপন করে। বাহ্যিক জ্ঞানের উৎসগুলিকে একীভূত করে, RAG ভাষা মডেলগুলিকে আরও তথ্যপূর্ণ, নির্ভুল এবং প্রাসঙ্গিকভাবে যথাযথ প্রতিক্রিয়া তৈরি করতে সক্ষম করে।
RAG পাইপলাইন বেশ কয়েকটি মূল পর্যায় নিয়ে গঠিত:
- Data Indexing: এই পর্যায়ে, প্রাসঙ্গিক তথ্যের দক্ষ পুনরুদ্ধার সক্ষম করতে বাহ্যিক জ্ঞানের উৎসটিকে সূচী করা হয়। এর মধ্যে সাধারণত জ্ঞানের উৎসে প্রতিটি নথির একটি ভেক্টর উপস্থাপনা তৈরি করা জড়িত, যা পরে প্রদত্ত প্রশ্নের সাথে সাদৃশ্যপূর্ণ নথিগুলি দ্রুত সনাক্ত করতে ব্যবহার করা যেতে পারে।
- Information Retrieval: যখন একটি প্রশ্ন গ্রহণ করা হয়, তখন RAG সিস্টেম সূচীকৃত জ্ঞানের উৎস থেকে সবচেয়ে প্রাসঙ্গিক নথিগুলি পুনরুদ্ধার করে। এটি সাধারণত একটি মিল অনুসন্ধান অ্যালগরিদম ব্যবহার করে করা হয়, যা প্রশ্নের ভেক্টর উপস্থাপনাকে জ্ঞানের উৎসের নথিগুলির ভেক্টর উপস্থাপনার সাথে তুলনা করে।
- Contextualization: পুনরুদ্ধার করা নথিগুলি তারপর প্রশ্নের প্রসঙ্গ বাড়াতে ব্যবহৃত হয়। এটি কেবল পুনরুদ্ধার করা নথিগুলিকে প্রশ্নের সাথে সংযুক্ত করে বা পুনরুদ্ধার করা নথিগুলি থেকে তথ্যকে প্রশ্নের উপস্থাপনার সাথে একত্রিত করতে আরও অত্যাধুনিক কৌশল ব্যবহার করে করা যেতে পারে।
- Response Generation: অবশেষে, বর্ধিত প্রশ্নটি একটি ভাষা মডেলে ফিড করা হয়, যা প্রশ্ন এবং পুনরুদ্ধার করা নথিগুলি থেকে সম্মিলিত তথ্যের উপর ভিত্তি করে একটি প্রতিক্রিয়া তৈরি করে।
RAG ঐতিহ্যগত ভাষা মডেলের উপর বেশ কয়েকটি সুবিধা প্রদান করে:
- Increased Accuracy: বাহ্যিক জ্ঞান অন্তর্ভুক্ত করে, RAG মডেলগুলি আরও নির্ভুল এবং বাস্তব প্রতিক্রিয়া তৈরি করতে পারে।
- ImprovedContextual Understanding: RAG মডেলগুলি পুনরুদ্ধার করা নথিগুলিতে থাকা তথ্যের ব্যবহার করে একটি প্রশ্নের প্রেক্ষাপট আরও ভালভাবে বুঝতে পারে।
- Reduced Hallucinations: RAG মডেলগুলির ভুল ধারণা তৈরি করার বা অর্থহীন প্রতিক্রিয়া তৈরি করার সম্ভাবনা কম, কারণ সেগুলি বাহ্যিক জ্ঞানের উপর ভিত্তি করে তৈরি।
- Adaptability to New Information: RAG মডেলগুলি কেবল সূচীকৃত জ্ঞানের উৎস আপডেট করে সহজেই নতুন তথ্যের সাথে খাপ খাইয়ে নিতে পারে।
ফাংশন কলিং: বাস্তব বিশ্বের সাথে ইন্টারঅ্যাক্ট করা
AI Edge অন-ডিভাইস ফাংশন কলিং SDK বাস্তব বিশ্বের সাথে ইন্টারঅ্যাক্ট করার জন্য ভাষা মডেল সক্ষম করার দিকে একটি গুরুত্বপূর্ণ পদক্ষেপ উপস্থাপন করে। মডেলগুলিকে বাহ্যিক ফাংশন আহ্বান করার অনুমতি দিয়ে, SDK বুদ্ধিমান এবং প্রাসঙ্গিকভাবে সচেতন অ্যাপ্লিকেশন তৈরি করার জন্য বিস্তৃত সুযোগ উন্মোচন করে।
ফাংশন কলিং প্রক্রিয়া সাধারণত নিম্নলিখিত ধাপগুলি জড়িত:
- Function Definition: ডেভেলপার ফাংশনগুলি সংজ্ঞায়িত করে যা ভাষা মডেল আহ্বান করতে পারে। এর মধ্যে ফাংশনের নাম, ফাংশনটি কী করে তার একটি বিবরণ এবং ফাংশনটি গ্রহণ করে এমন প্যারামিটারগুলি নির্দিষ্ট করা অন্তর্ভুক্ত।
- Tool Object Creation: ডেভেলপার একটি
Tool
অবজেক্ট তৈরি করে যা ফাংশনের সংজ্ঞা আবদ্ধ করে। এই অবজেক্টটি তখন ভাষা মডেলে প্রেরণ করা হয়। - Function Call Generation: যখন ভাষা মডেলকে একটি বাস্তব-বিশ্বের ক্রিয়া সম্পাদন করতে হয়, তখন এটি একটি ফাংশন কল তৈরি করে। এই কলে আহ্বান করা ফাংশনের নাম এবং ফাংশনে প্রেরণ করা প্যারামিটারগুলির মান অন্তর্ভুক্ত থাকে।
- Function Execution: ফাংশন কলটি তখন সিস্টেম দ্বারা কার্যকর করা হয়। এর মধ্যে সাধারণত সংশ্লিষ্ট API বা পরিষেবা আহ্বান করা জড়িত।
- Result Transmission: ফাংশন নির্বাহের ফলাফল তখন ভাষা মডেলে ফেরত প্রেরণ করা হয়।
- Response Generation: অবশেষে, ভাষা মডেল ফাংশন নির্বাহের ফলাফল ব্যবহার করে একটি প্রতিক্রিয়া তৈরি করে।
ফাংশন কলিং SDK ভাষা মডেলগুলিকে বিস্তৃত কাজ সম্পাদন করতে সক্ষম করে, যেমন:
- Accessing Information from External Sources: মডেলটি ডেটাবেস, API এবং অন্যান্য বাহ্যিক উত্স থেকে তথ্য পুনরুদ্ধার করতে ফাংশন কল করতে পারে।
- Controlling Devices and Appliances: মডেলটি স্মার্ট হোম ডিভাইস, যেমন লাইট, থার্মোস্ট্যাট এবং অ্যাপ্লিকেশনগুলি নিয়ন্ত্রণ করতে ফাংশন কল করতে পারে।
- Performing Transactions: মডেলটি আর্থিক লেনদেন, যেমন অর্থ প্রদান এবং তহবিল স্থানান্তর করতে ফাংশন কল করতে পারে।
- Automating Tasks: মডেলটি জটিল কাজগুলি স্বয়ংক্রিয় করতে ফাংশন কল করতে পারে, যেমন অ্যাপয়েন্টমেন্ট নির্ধারণ এবং ইমেল প্রেরণ।
Google AI Edge গ্যালারি: উদ্ভাবনের একটি প্রদর্শনী
Google AI Edge গ্যালারি Gemma 3n এবং এর সহযোগী সরঞ্জামগুলির ক্ষমতা প্রদর্শনের জন্য একটি গুরুত্বপূর্ণ প্ল্যাটফর্ম হিসাবে কাজ করে। ডেভেলপাররা এই প্রযুক্তিগুলির সাথে পরীক্ষা করতে পারে এমন একটি ইন্টারেক্টিভ পরিবেশ সরবরাহ করে, গ্যালারি উদ্ভাবনকে উত্সাহিত করে এবং নতুন অ্যাপ্লিকেশনগুলির বিকাশকে ত্বরান্বিত করে।
গ্যালারিতে বিভিন্ন মডেল এবং ডেমো রয়েছে, যা বিভিন্ন কাজের জন্য Gemma 3n-এর সম্ভাবনা প্রদর্শন করে, যেমন:
- Image Recognition: চিত্রগুলিতে বস্তু এবং দৃশ্য সনাক্ত করা।
- Natural Language Processing: মানুষের ভাষা বোঝা এবং তৈরি করা।
- Speech Recognition: কথ্য ভাষাকে পাঠ্যে প্রতিলিপি করা।
- Audio Processing: অডিও সংকেত বিশ্লেষণ এবং ম্যানিপুলেট করা।
গ্যালারি AI Edge SDK-গুলিতে অ্যাক্সেস সরবরাহ করে, যা ডেভেলপারদের এই প্রযুক্তিগুলিকে তাদের নিজস্ব অ্যাপ্লিকেশনগুলিতে সংহত করতে সক্ষম করে।
অন-ডিভাইস মেশিন লার্নিংয়ের ভবিষ্যত
Gemma 3n এবং এর সাথে থাকা ইকোসিস্টেমের উত্থান অন-ডিভাইস মেশিন লার্নিংয়ের জন্য একটি নতুন যুগের সূচনা করে। দক্ষতা, অভিযোজনযোগ্যতা এবং কার্যকারিতা একত্রিত করে, Gemma 3n ডেভেলপারদের বুদ্ধিমান এবং প্রাসঙ্গিকভাবে সচেতন অ্যাপ্লিকেশন তৈরি করতে সক্ষম করে যা একটি ধ্রুবক ইন্টারনেট সংযোগের প্রয়োজন ছাড়াই সরাসরি ডিভাইসগুলিতে চলতে পারে।
এটি বিভিন্ন শিল্পের জন্য গভীর প্রভাব ফেলে, যার মধ্যে রয়েছে:
- Mobile: আরও বুদ্ধিমান এবং প্রতিক্রিয়াশীল মোবাইল অ্যাপ্লিকেশন সক্ষম করা।
- IoT: স্মার্ট ডিভাইসগুলিকে চালিত করা যা স্বাধীনভাবে এবং স্বায়ত্তশাসিতভাবে কাজ করতে পারে।
- Automotive: স্বায়ত্তশাসিত যানবাহনের সুরক্ষা এবং সুবিধা বৃদ্ধি