जेम्मा 3n: RAG आणि फंक्शन कॉलिंगसह ऑन-डिव्हाइस इन्फरन्स

जेम्मा 3n: RAG आणि फंक्शन कॉलिंग लायब्ररीसह डिव्हाइसवरील निष्कर्षांमध्ये बदल

गुगलने जेम्मा 3n सादर केले आहे, हे एक मल्टीमॉडल लहान भाषा मॉडेल आहे, जे आता नवीन LiteRT हगिंग फेस समुदायावर पूर्वावलोकनासाठी उपलब्ध आहे, यासोबतच यापूर्वी लाँच केलेल्या मॉडेलची श्रेणी देखील आहे. जेम्मा 3n हे मजकूर, प्रतिमा, व्हिडिओ आणि ऑडिओसह विविध प्रकारच्या इनपुटवर प्रक्रिया करण्यासाठी तयार केले आहे. याव्यतिरिक्त, हे फाइन-ट्यूनिंग, रिट्रीव्हल-ऑगमेंटेड जनरेशन (RAG) द्वारे कस्टमायझेशन आणि फंक्शन कॉलिंग सुलभ करते, हे सर्व नवीन AI Edge SDKs द्वारे समर्थित आहे.

जेम्मा 3n: अंतर्गत शक्ती अनावरण

जेम्मा 3n दोन भिन्न पॅरामीटर प्रकारांमध्ये उपलब्ध आहे: जेम्मा 3n 2B आणि जेम्मा 3n 4B. Google च्या अंदाजानुसार, दोन्ही आवृत्त्या मजकूर आणि प्रतिमा इनपुट हाताळण्यासाठी सज्ज आहेत, लवकरच ऑडिओ सपोर्ट समाकलित केला जाईल. या वर्षाच्या सुरुवातीला पदार्पण केलेल्या नॉन-मल्टीमॉडल जेम्मा 3 1B च्या तुलनेत हा एक मोठा बदल आहे, ज्याला मोबाईल GPU वर प्रति सेकंद प्रभावी 2,585 टोकन व्यवस्थापित करण्यासाठी फक्त 529MB ची आवश्यकता होती.

Google च्या तांत्रिक वैशिष्ट्यांनुसार, जेम्मा 3n सिलेक्टिव्ह पॅरामीटर ऍक्टिव्हेशन वापरते, हे कार्यक्षम पॅरामीटर व्यवस्थापनासाठी डिझाइन केलेले एक अभिनव तंत्र आहे. याचा अर्थ असा आहे की दोन मॉडेलमध्ये 2B किंवा 4B पेक्षा जास्त पॅरामीटर आहेत जे निष्कर्षादरम्यान सक्रियपणे गुंतलेले आहेत. हा धोरणात्मक दृष्टीकोन संसाधनांचा वापर अनुकूल करतो आणि कार्यप्रदर्शन वाढवतो.

फाइन-ट्यूनिंग आणि क्वान्टायझेशन: सानुकूलित करणे

Google ने विकासकांना बेस मॉडेलला फाइन-ट्यून करण्याची क्षमता आणि त्यानंतर Google AI Edge द्वारे उपलब्ध असलेल्या अत्याधुनिक क्वान्टायझेशन टूल्स वापरून रूपांतरित करण्याची आणि त्याचे प्रमाण निश्चित करण्याची क्षमता अधोरेखित केली आहे. हे विकासकांना विशिष्ट ऍप्लिकेशन्ससाठी मॉडेल तयार करण्यास आणि त्याचे कार्यप्रदर्शन वैशिष्ट्ये ऑप्टिमाइझ करण्यास सक्षम करते.

RAG इंटिग्रेशन: कॉन्टेक्चुअल डेटासह भाषा मॉडेल समृद्ध करणे

फाइन-ट्यूनिंगला पर्याय म्हणून, जेम्मा 3n मॉडेल ऑन-डिव्हाइस रिट्रीव्हल ऑगमेंटेड जनरेशन (RAG) साठी तैनात केले जाऊ शकतात, ही एक पद्धत आहे जी ऍप्लिकेशन-विशिष्ट डेटासह भाषा मॉडेलला समृद्ध करते. हे वाढवणे AI Edge RAG लायब्ररीद्वारे सुलभ केले जाते, जे सध्या फक्त Android साठी आहे, परंतु इतर प्लॅटफॉर्मवर विस्तारण्याची योजना आहे.

RAG लायब्ररी अनेक प्रमुख टप्प्यांचा समावेश असलेल्या सुव्यवस्थित पाइपलाइनद्वारे कार्य करते:

  • डेटा आयात: सिस्टममध्ये संबंधित डेटा घेणे.
  • चंकिंग आणि इंडेक्सिंग: कार्यक्षम पुनर्प्राप्तीसाठी डेटाचे विभाजन आणि आयोजन करणे.
  • एम्बेडिंग जनरेशन: सिमेंटिक आकलनासाठी डेटाचे वेक्टर प्रतिनिधित्व तयार करणे.
  • माहिती पुनर्प्राप्ती: वापरकर्ता क्वेरीवर आधारित योग्य माहिती ओळखणे आणि काढणे.
  • रिस्पॉन्स जनरेशन: LLM वापरून सुसंगत आणि प्रासंगिक प्रतिसाद तयार करणे.

हे मजबूत फ्रेमवर्क सानुकूल डेटाबेस, चंकिंग धोरणे आणि पुनर्प्राप्ती कार्यांसाठी समर्थन समाविष्ट करते.

AI Edge ऑन-डिव्हाइस फंक्शन कॉलिंग SDK: मॉडेल आणि वास्तविक-जगातील कृती यांच्यातील अंतर कमी करणे

जेम्मा 3n चे अनावरण करत असतानाच, Google ने AI Edge ऑन-डिव्हाइस फंक्शन कॉलिंग SDK सादर केले, जे सुरुवातीला फक्त Android वर उपलब्ध आहे. हे SDK मॉडेलला विशिष्ट फंक्शन्स कार्यान्वित करण्यास सक्षम करते, ज्यामुळे वास्तविक-जगातील कृती पार पाडता येतात.

एखाद्या LLM ला बाह्य फंक्शनसह अखंडपणे एकत्रित करण्यासाठी, फंक्शनचे नाव, LLM ने ते कधी वापरावे याचे स्पष्टीकरण देणारे वर्णनात्मक कथन आणि आवश्यक पॅरामीटर्स निर्दिष्ट करून त्याचे बारकाईने वर्णन केले जाणे आवश्यक आहे. हा मेटाडेटा Tool ऑब्जेक्टमध्ये समाविष्ट केला आहे, जो नंतर GenerativeModel कन्स्ट्रक्टरद्वारे मोठ्या भाषेतील मॉडेलमध्ये पाठविला जातो. फंक्शन कॉलिंग SDK प्रदान केलेल्या वर्णनावर आधारित LLM कडून फंक्शन कॉल्स प्राप्त करण्यासाठी आणि LLM कडे अंमलबजावणीचे परिणाम परत पाठवण्यासाठी समर्थन समाविष्ट करते.

या नवीन साधनांमध्ये अधिक खोलवर जाण्यास इच्छुक असलेल्यांसाठी, Google AI Edge Gallery एक अमूल्य संसाधन आहे. हा प्रायोगिक अनुप्रयोग विविध मॉडेल प्रदर्शित करतो आणि मजकूर, प्रतिमा आणि ऑडिओ प्रक्रियेस मदत करतो.

अधिक जाणून घेणे: जेम्मा 3n आणि त्याच्या इकोसिस्टमचे बारकावे

ऑन-डिव्हाइस मशीन लर्निंगच्या उत्क्रांतीमध्ये जेम्मा 3n चा उदय एक महत्त्वपूर्ण पाऊल आहे, जो कार्यक्षमतेचे, अनुकूलतेचे आणि कार्यक्षमतेचे शक्तिशाली संयोजन आहे. त्याची मल्टीमॉडल क्षमता, RAG आणि फंक्शन कॉलिंगच्या समर्थनासह, बुद्धिमान आणि संदर्भ-जाणकार अनुप्रयोग तयार करू पाहणाऱ्या विकासकांसाठी अनेक शक्यता उघड करते.

सिलेक्टिव्ह पॅरामीटर ऍक्टिव्हेशन: एक सखोल अभ्यास

जेम्मा 3n द्वारे वापरल्या जाणार्‍या सिलेक्टिव्ह पॅरामीटर ऍक्टिव्हेशन तंत्राकडे अधिक लक्ष देणे आवश्यक आहे. हा अभिनव दृष्टिकोन मॉडेलला केवळ दिलेल्या कार्यासाठी आवश्यक पॅरामीटर्स गतिशीलपणे सक्रिय करण्यास अनुमती देतो, ज्यामुळे संगणकीय ओव्हरहेड कमी होतो आणि कार्यक्षमता वाढते. ऑन-डिव्हाइस उपयोजनासाठी हे विशेषतः महत्वाचे आहे, जेथे संसाधने अनेकदा मर्यादित असतात.

सिलेक्टिव्ह पॅरामीटर ऍक्टिव्हेशन मागील मूलभूत तत्त्व हे आहे की न्यूरल नेटवर्कमधील सर्व पॅरामीटर्स सर्व कार्यांसाठी समान महत्वाचे नसतात. केवळ सर्वात संबंधित पॅरामीटर्स निवडकपणे सक्रिय करून, मॉडेल लक्षणीयरीत्या कमी संगणकीय खर्चात तुलनात्मक कार्यप्रदर्शन प्राप्त करू शकते.

सिलेक्टिव्ह पॅरामीटर ऍक्टिव्हेशनच्या अंमलबजावणीमध्ये सामान्यत: दिलेल्या इनपुटसाठी कोणते पॅरामीटर्स सक्रिय करायचे हे निर्धारित करण्याची यंत्रणा समाविष्ट असते. हे विविध तंत्रांद्वारे साध्य केले जाऊ शकते, जसे की:

  • अटेंशन मेकॅनिझम: इनपुटच्या सर्वात संबंधित भागांकडे लक्ष देणे आणि संबंधित पॅरामीटर्स सक्रिय करणे.
  • गेटिंग मेकॅनिझम: नेटवर्कच्या वेगवेगळ्या भागातून माहितीचा प्रवाह नियंत्रित करण्यासाठी गेटिंग फंक्शन वापरणे.
  • स्पार्स ट्रेनिंग: विरळ कनेक्शन शिकण्यासाठी नेटवर्कला प्रशिक्षण देणे, जेणेकरून निष्कर्षादरम्यान पॅरामीटर्सचा फक्त उपसंच सक्रिय असेल.

तंत्राची निवड मॉडेलच्या विशिष्ट आर्किटेक्चर आणि कार्यांच्या वैशिष्ट्यांवर अवलंबून असते. तथापि, व्यापक उद्दिष्ट हे दिलेल्या इनपुटसाठी सर्वात संबंधित असलेले पॅरामीटर्स ओळखणे आणि सक्रिय करणे आहे, ज्यामुळे संगणकीय खर्च कमी होतो आणि कार्यक्षमता सुधारते.

RAG: ज्ञान आणि संदर्भ वाढवणे

रिट्रीव्हल ऑगमेंटेड जनरेशन (RAG) भाषेतील मॉडेल वापरण्याच्या पद्धतीमध्ये प्रतिमान बदल दर्शवते. बाह्य ज्ञान स्त्रोतांचे एकत्रीकरण करून, RAG भाषा मॉडेलला अधिक माहितीपूर्ण, अचूक आणि संदर्भाप्रमाणे योग्य प्रतिसाद निर्माण करण्यास सक्षम करते.

RAG पाइपलाइनमध्ये अनेक प्रमुख टप्पे असतात:

  1. डेटा इंडेक्सिंग: या टप्प्यात, संबंधित माहितीची कार्यक्षम पुनर्प्राप्ती सक्षम करण्यासाठी बाह्य ज्ञान स्त्रोत अनुक्रमित केला जातो. यामध्ये सामान्यत: ज्ञान स्त्रोतातील प्रत्येक दस्तऐवजाचे वेक्टर प्रतिनिधित्व तयार करणे समाविष्ट असते, जे नंतर दिलेल्या क्वेरीसारखे दस्तऐवज त्वरित ओळखण्यासाठी वापरले जाऊ शकते.
  2. माहिती पुनर्प्राप्ती: जेव्हा एखादी क्वेरी प्राप्त होते, तेव्हा RAG प्रणाली अनुक्रमित ज्ञान स्त्रोतामधून सर्वात संबंधित दस्तऐवज पुनर्प्राप्त करते. हे सामान्यत: समानता शोध अल्गोरिदम वापरून केले जाते, जे क्वेरीच्या वेक्टर प्रतिनिधित्वाची तुलना ज्ञान स्त्रोतातील दस्तऐवजांच्या वेक्टर प्रतिनिधित्वाशी करते.
  3. संदर्भीकरण: पुनर्प्राप्त केलेले दस्तऐवज नंतर क्वेरीचा संदर्भ वाढवण्यासाठी वापरले जातात. हे पुनर्प्राप्त केलेल्या दस्तऐवजांना क्वेरीमध्ये एकत्रित करून किंवा पुनर्प्राप्त केलेल्या दस्तऐवजांमधील माहिती क्वेरी प्रतिनिधित्वात समाकलित करण्यासाठी अधिक अत्याधुनिक तंत्र वापरून केले जाऊ शकते.
  4. रिस्पॉन्स जनरेशन: शेवटी, वाढवलेली क्वेरी भाषेतील मॉडेलमध्ये दिली जाते, जी क्वेरी आणि पुनर्प्राप्त केलेल्या दस्तऐवजांमधील एकत्रित माहितीवर आधारित प्रतिसाद निर्माण करते.

पारंपरिक भाषा मॉडेलच्या तुलनेत RAG अनेक फायदे देते:

  • वाढलेली अचूकता: बाह्य ज्ञानाचा समावेश करून, RAG मॉडेल अधिक अचूक आणि तथ्यात्मक प्रतिसाद निर्माण करू शकतात.
  • सुधारित संदर्भीय समज: RAG मॉडेल पुनर्प्राप्त केलेल्या दस्तऐवजांमधील माहितीचा लाभ घेऊन क्वेरीचा संदर्भ अधिक चांगल्या प्रकारे समजू शकतात.
  • कमी भ्रम: RAG मॉडेलला भ्रम होण्याची किंवा अर्थहीन प्रतिसाद निर्माण होण्याची शक्यता कमी असते, कारण ते बाह्य ज्ञानावर आधारित असतात.
  • नवीन माहितीसाठी अनुकूलता: RAG मॉडेल अनुक्रमित ज्ञान स्त्रोत अद्यतनित करून नवीन माहितीशी सहजपणे जुळवून घेऊ शकतात.

फंक्शन कॉलिंग: वास्तविक जगाशी संवाद साधणे

AI Edge ऑन-डिव्हाइस फंक्शन कॉलिंग SDK भाषेतील मॉडेलला वास्तविक जगाशी संवाद साधण्यास सक्षम करण्याच्या दिशेने एक महत्त्वपूर्ण पाऊल दर्शवते. मॉडेलला बाह्य फंक्शन्स कार्यान्वित करण्याची परवानगी देऊन, SDK बुद्धिमान आणि संदर्भ-जाणकार अनुप्रयोग तयार करण्यासाठी विस्तृत शक्यता उघड करते.

फंक्शन कॉलिंग प्रक्रियेत सामान्यत: खालील चरणांचा समावेश असतो:

  1. फंक्शन व्याख्या: विकासक भाषेतील मॉडेल कार्यान्वित करू शकतील अशा फंक्शन्सची व्याख्या करतो. यामध्ये फंक्शनचे नाव, फंक्शन काय करते याचे वर्णन आणि फंक्शन स्वीकारणारे पॅरामीटर्स निर्दिष्ट करणे समाविष्ट आहे.
  2. टूल ऑब्जेक्ट निर्मिती: विकासक एक Tool ऑब्जेक्ट तयार करतो जो फंक्शन व्याख्येचा समावेश करतो. हा ऑब्जेक्ट नंतर भाषेतील मॉडेलमध्ये पाठविला जातो.
  3. फंक्शन कॉल जनरेशन: जेव्हा भाषेतील मॉडेलला वास्तविक-जगातील कृती करण्याची आवश्यकता असते, तेव्हा ते फंक्शन कॉल निर्माण करते. या कॉलमध्ये कार्यान्वित करायच्या फंक्शनचे नाव आणि फंक्शनमध्ये पास करायच्या पॅरामीटर्सचे मूल्य समाविष्ट असते.
  4. फंक्शन अंमलबजावणी: फंक्शन कॉल नंतर सिस्टमद्वारे कार्यान्वित केला जातो. यामध्ये सामान्यत: संबंधित API किंवा सेवेला कार्यान्वित करणे समाविष्ट असते.
  5. परिणाम ट्रांसमिशन: फंक्शन अंमलबजावणीचे परिणाम नंतर भाषेतील मॉडेलमध्ये परत पाठवले जातात.
  6. रिस्पॉन्स जनरेशन: शेवटी, भाषेतील मॉडेल फंक्शन अंमलबजावणीच्या परिणामांचा वापर करून प्रतिसाद निर्माण करते.

फंक्शन कॉलिंग SDK भाषेतील मॉडेलला विविध कार्ये करण्यास सक्षम करते, जसे की:

  • बाह्य स्त्रोतांकडून माहिती मिळवणे: मॉडेल डेटाबेस, API आणि इतर बाह्य स्त्रोतांकडून माहिती पुनर्प्राप्त करण्यासाठी फंक्शन्स कॉल करू शकते.
  • डिव्हाइसेस आणि उपकरणांचे नियंत्रण: मॉडेल स्मार्ट होम डिव्हाइसेस, जसे की दिवे, थर्मोस्टॅट आणि उपकरणे नियंत्रित करण्यासाठी फंक्शन्स कॉल करू शकते.
  • व्यवहार करणे: मॉडेल आर्थिक व्यवहार करण्यासाठी फंक्शन्स कॉल करू शकते, जसे की पेमेंट करणे आणि निधी हस्तांतरित करणे.
  • कार्ये स्वयंचलित करणे: मॉडेल जटिल कार्ये स्वयंचलित करण्यासाठी फंक्शन्स कॉल करू शकते, जसे की भेटी शेड्यूल करणे आणि ईमेल पाठवणे.

Google AI Edge Gallery जेम्मा 3n आणि त्याच्या संबंधित साधनांची क्षमता दर्शविण्यासाठी एक महत्त्वपूर्ण व्यासपीठ म्हणून काम करते. विकासकांना या तंत्रज्ञानाचा प्रयोग करता येईल असे परस्परसंवादी वातावरण प्रदान करून, ही गॅलरी नवकल्पनांना प्रोत्साहन देते आणि नवीन ऍप्लिकेशनच्या विकासास गती देते.

गॅलरीमध्ये विविध मॉडेल आणि डेमो आहेत, जे जेम्मा 3n ची विविध कार्यांसाठी क्षमता दर्शवतात, जसे की:

  • इमेज रिकग्निशन: प्रतिमांमध्ये वस्तू आणि दृश्ये ओळखणे.
  • **नॅचरल लँग्वेज प्रोसेसिंग: ** मानवी भाषेला समजून घेणे आणि निर्माण करणे.
  • स्पीच रिकग्निशन: बोललेल्या भाषेचे टेक्स्टमध्ये रूपांतरण करणे.
  • ऑडिओ प्रोसेसिंग: ऑडिओ सिग्नलचे विश्लेषण आणि फेरफार करणे.

गॅलरी AI Edge SDKs चा ऍक्सेस देखील प्रदान करते, ज्यामुळे विकासकांना हे तंत्रज्ञान त्यांच्या ऍप्लिकेशनमध्ये समाकलित करता येते.

ऑन-डिव्हाइस मशीन लर्निंगचे भविष्य

जेम्मा 3n चा उदय आणि त्याची संबंधित इकोसिस्टम ऑन-डिव्हाइस मशीन लर्निंगसाठी एका नवीन युगाची नांदी आहे. कार्यक्षमता, अनुकूलता आणि कार्यक्षमतेच्या संयोजनाने, जेम्मा 3n विकासकांना बुद्धिमान आणि संदर्भ-जाणकार ऍप्लिकेशन तयार करण्यास सक्षम करते जे सतत इंटरनेट कनेक्शनची आवश्यकता न घेता थेट डिव्हाइसवर चालवता येतात.

याचा विविध उद्योगांवर खोल परिणाम होतो, ज्यात हे समाविष्ट आहे:

  • मोबाईल: अधिक बुद्धिमान आणि प्रतिसाद देणारे मोबाईल ऍप्लिकेशन सक्षम करणे.
  • IoT: स्मार्ट डिव्हाइसेसला शक्ती देणे जे स्वतंत्रपणे आणि स्वायत्तपणे कार्य करू शकतात.
  • ऑटोमोटिव्ह: स्वायत्त वाहनांची सुरक्षा आणि सोयी वाढवणे.
  • **आरोग्य सेवा: ** वैद्यकीय निदान आणि उपचारांची अचूकता आणि कार्यक्षमता सुधारणे.

ऑन-डिव्हाइस मशीन लर्निंग तंत्रज्ञान विकसित होत राहिल्याने, येत्या काही वर्षांमध्ये आपण आणखी नाविन्यपूर्ण आणि प्रभावी ऍप्लिकेशन उदयास येण्याची अपेक्षा करू शकतो. जेम्मा 3n या प्रवासातील एक महत्त्वपूर्ण पाऊल आहे, जे भविष्यासाठी मार्ग प्रशस्त करते जिथे बुद्धिमत्ता आपल्या दैनंदिन जीवनात अखंडपणे समाकलित केलेली असेल.