लामा का विकास: यथास्थिति को चुनौती
जब लामा (Llama) पहली बार सामने आया, तो इसने तकनीकी दिग्गजों के बड़े, बंद-स्रोत LLMs के प्रभुत्व को चुनौती दी। Meta AI ने एक ऐसी रणनीति अपनाई जो छोटे, अधिक सामान्यीकृत मॉडलों पर केंद्रित थी। मूल विचार यह था कि इन छोटे मॉडलों को, जिन्हें बड़ी संख्या में टोकन पर प्रशिक्षित किया गया था, विशेष कार्यों के लिए फिर से प्रशिक्षित करना और फाइन-ट्यून करना आसान और अधिक लागत प्रभावी होगा। यह दृष्टिकोण बड़े, संसाधन-गहन मॉडल बनाने की प्रवृत्ति के बिल्कुल विपरीत था।
हालाँकि, लामा की ‘ओपन-सोर्स’ प्रकृति बहस का विषय है। Meta Llama लाइसेंस में वाणिज्यिक और स्वीकार्य उपयोग पर विशिष्ट प्रतिबंध शामिल हैं। जबकि ये प्रतिबंध यकीनन उचित हैं, वे Open Source Initiative की ओपन सोर्स की सख्त परिभाषा के साथ संघर्ष करते हैं। इसने इस बारे में चल रही चर्चाओं को जन्म दिया है कि क्या लामा वास्तव में ओपन सोर्स के रूप में योग्य है।
कानूनी चुनौतियों का सामना: कॉपीराइट चिंताएँ
लामा का विकास कानूनी बाधाओं के बिना नहीं रहा है। 2023 में, Meta को उन लेखकों के दो क्लास-एक्शन मुकदमों का सामना करना पड़ा, जिन्होंने आरोप लगाया था कि लामा को प्रशिक्षित करने के लिए उनकी कॉपीराइट वाली पुस्तकों का उपयोग बिना अनुमति के किया गया था। ये मुकदमे बड़े भाषा मॉडल के लिए उपयोग किए जाने वाले प्रशिक्षण डेटा के आसपास के जटिल कॉपीराइट मुद्दों को उजागर करते हैं। अब तक, अदालतें लेखकों के दावों के प्रति बहुत सहानुभूति नहीं रखती हैं।
बढ़ती क्षमताएं: लामा का बढ़ता मॉडल परिवार
2023 के अंत से, Meta AI ने लामा परिवार का काफी विस्तार किया है। मॉडल अब केवल टेक्स्ट-आधारित इंटरैक्शन तक सीमित नहीं हैं। वर्तमान लामा इकोसिस्टम में मल्टी-मॉडल मॉडल शामिल हैं जो टेक्स्ट और विज़ुअल इनपुट दोनों को संसाधित करने में सक्षम हैं, साथ ही कोड इंटरप्रिटेशन और टूल इंटीग्रेशन के लिए डिज़ाइन किए गए मॉडल भी शामिल हैं। इसके अलावा, Meta ने संभावित जोखिमों और हमलों की पहचान करने और उन्हें कम करने के लिए सुरक्षा घटक पेश किए हैं, जिन्हें Llama Guard के रूप में जाना जाता है, इन्हें ‘Llama Stack’ नामक एक समग्र ढांचे का हिस्सा बनने के लिए डिज़ाइन किया गया है।
यहां लामा परिवार के कुछ प्रमुख मॉडलों पर एक गहरी नज़र डाली गई है (Meta AI के मॉडल कार्ड से संक्षिप्त):
Llama Guard 1: सुरक्षित बातचीत
Llama Guard 1, Llama 2 पर आधारित 7-बिलियन पैरामीटर मॉडल है। यह एक इनपुट-आउटपुट सेफ़गार्ड के रूप में कार्य करता है, जो उपयोगकर्ता के प्रॉम्प्ट (प्रॉम्प्ट वर्गीकरण) और LLM प्रतिक्रियाओं (प्रतिक्रिया वर्गीकरण) दोनों में सामग्री को वर्गीकृत करता है। यह मॉडल लामा-आधारित सिस्टम के साथ सुरक्षित और अधिक जिम्मेदार बातचीत सुनिश्चित करने में मदद करता है।
Llama Guard संभावित नुकसानों को वर्गीकृत करने के लिए छह-स्तरीय वर्गीकरण का उपयोग करता है:
- हिंसा और घृणा (Violence & Hate): व्यक्तियों या समूहों के प्रति हिंसा या घृणा को बढ़ावा देने वाली सामग्री।
- यौन सामग्री (Sexual Content): यौन रूप से स्पष्ट सामग्री या ऐसी सामग्री जो बच्चों का शोषण, दुर्व्यवहार या खतरे में डालती है।
- बंदूकें और अवैध हथियार (Guns & Illegal Weapons): आग्नेयास्त्रों और अन्य हथियारों की अवैध बिक्री, उपयोग या संशोधन से संबंधित सामग्री।
- विनियमित या नियंत्रित पदार्थ (Regulated or Controlled Substances): ड्रग्स, अल्कोहल या तंबाकू के अवैध उपयोग या बिक्री को बढ़ावा देने वाली सामग्री।
- आत्महत्या और स्वयं को नुकसान (Suicide & Self Harm): आत्महत्या या स्वयं को नुकसान पहुंचाने के लिए प्रोत्साहित करने या निर्देश देने वाली सामग्री।
- आपराधिक योजना (Criminal Planning): ऐसी सामग्री जो अवैध गतिविधियों को सुविधाजनक बनाती है या उनकी योजना बनाती है।
Code Llama 70B: कोडिंग कौशल की तिकड़ी
Code Llama 70B ने लामा की कोडिंग क्षमताओं में एक महत्वपूर्ण विस्तार को चिह्नित किया। यह मॉडल तीन अलग-अलग रूपों में उपलब्ध है:
- Code Llama: सामान्य कोड संश्लेषण और समझ के लिए डिज़ाइन किया गया बेस मॉडल। यह कोड उत्पन्न कर सकता है, कोड की कार्यक्षमता की व्याख्या कर सकता है, और डिबगिंग में सहायता कर सकता है।
- Code Llama – Python: Python प्रोग्रामिंग के लिए तैयार किया गया एक विशेष संस्करण। यह मॉडल Python कोड को उत्पन्न करने और समझने के लिए अनुकूलित है, जो इसे Python डेवलपर्स के लिए एक मूल्यवान उपकरण बनाता है।
- Code Llama – Instruct: निर्देशों का पालन करने और सुरक्षित परिनियोजन सुनिश्चित करने पर केंद्रित एक संस्करण। यह मॉडल विशेष रूप से विशिष्ट दिशानिर्देशों और सुरक्षा प्रोटोकॉल का पालन करने वाले कोड को उत्पन्न करने के लिए उपयोगी है।
तीनों वेरिएंट विभिन्न आकारों में उपलब्ध हैं: 7 बिलियन, 13 बिलियन, 34 बिलियन और 70 बिलियन पैरामीटर। Code Llama और इसके वेरिएंट मुख्य रूप से अंग्रेजी और संबंधित प्रोग्रामिंग भाषाओं में वाणिज्यिक और अनुसंधान उपयोग दोनों के लिए डिज़ाइन किए गए हैं। इस बात के पर्याप्त प्रमाण हैं कि Code Llama में मजबूत कोडिंग क्षमताएं हैं।
Llama Guard 2: उन्नत सुरक्षा वर्गीकरण
Llama Guard 2 अपने पूर्ववर्ती की नींव पर निर्मित होता है, जो उन्नत सुरक्षा वर्गीकरण क्षमताएं प्रदान करता है। Llama 3 पर आधारित यह 8-बिलियन पैरामीटर मॉडल, MLCommons के खतरों के वर्गीकरण के साथ संरेखित करते हुए, 11 श्रेणियों में सुरक्षा लेबल की भविष्यवाणी करने के लिए प्रशिक्षित है।
Llama Guard 2 द्वारा कवर किए गए खतरे की श्रेणियां इस प्रकार हैं:
- S1: हिंसक अपराध (Violent Crimes): हिंसक आपराधिक कृत्यों से संबंधित सामग्री।
- S2: अहिंसक अपराध (Non-Violent Crimes): अहिंसक आपराधिक अपराधों से संबंधित सामग्री।
- S3: यौन-संबंधी अपराध (Sex-Related Crimes): यौन अपराधों से जुड़ी सामग्री।
- S4: बाल यौन शोषण (Child Sexual Exploitation): ऐसी सामग्री जो बच्चों का यौन शोषण, दुर्व्यवहार या खतरे में डालती है।
- S5: विशिष्ट सलाह (Specialized Advice): विशिष्ट क्षेत्रों (जैसे, चिकित्सा, कानूनी, वित्तीय) में अयोग्य या भ्रामक सलाह।
- S6: गोपनीयता (Privacy): ऐसी सामग्री जो गोपनीयता का उल्लंघन करती है या बिना सहमति के व्यक्तिगत जानकारी का खुलासा करती है।
- S7: बौद्धिक संपदा (Intellectual Property): ऐसी सामग्री जो बौद्धिक संपदा अधिकारों का उल्लंघन करती है।
- S8: अंधाधुंध हथियार (Indiscriminate Weapons): ऐसे हथियारों से संबंधित सामग्री जो व्यापक और अंधाधुंध नुकसान पहुंचाते हैं।
- S9: घृणा (Hate): व्यक्तियों या समूहों के प्रति घृणा या पूर्वाग्रह व्यक्त करने वाली सामग्री।
- S10: आत्महत्या और स्वयं को नुकसान (Suicide & Self-Harm): आत्महत्या या स्वयं को नुकसान पहुंचाने को बढ़ावा देने या निर्देश देने वाली सामग्री।
- S11: यौन सामग्री (Sexual Content): यौन रूप से स्पष्ट सामग्री।
Meta Llama 3: संवाद में बहुमुखी प्रतिभा
Meta Llama 3 को दो आकारों, 8 बिलियन और 70 बिलियन पैरामीटर में पेश किया जाता है, जिसमें पूर्व-प्रशिक्षित और निर्देश-ट्यून किए गए वेरिएंट दोनों होते हैं। निर्देश-ट्यून किए गए मॉडल विशेष रूप से संवाद-आधारित अनुप्रयोगों के लिए अनुकूलित होते हैं, जो उन्हें चैटबॉट और संवादी AI सिस्टम के लिए उपयुक्त बनाते हैं।
Prompt Guard: दुर्भावनापूर्ण इनपुट से बचाव
Prompt Guard एक क्लासिफायर मॉडल है जिसे दुर्भावनापूर्ण प्रॉम्प्ट का पता लगाने के लिए डिज़ाइन किया गया है, जिसमें जेलब्रेक (सुरक्षा प्रतिबंधों को बायपास करने के प्रयास) और प्रॉम्प्ट इंजेक्शन (क्राफ्टेड इनपुट के माध्यम से मॉडल के आउटपुट में हेरफेर करने के प्रयास) शामिल हैं। Meta AI इष्टतम प्रदर्शन प्राप्त करने के लिए एप्लिकेशन-विशिष्ट डेटा के साथ Prompt Guard को फाइन-ट्यून करने की सिफारिश करता है।
Llama Guard के विपरीत, Prompt Guard को एक विशिष्ट प्रॉम्प्ट संरचना की आवश्यकता नहीं होती है। यह एक स्ट्रिंग इनपुट पर काम करता है, इसे सुरक्षित या असुरक्षित (गंभीरता के दो अलग-अलग स्तरों पर) के रूप में वर्गीकृत करता है। यह एक BERT मॉडल है जो विशेष रूप से लेबल आउटपुट करता है।
Llama Guard 3: मल्टी-मॉडल और बहुभाषी सुरक्षा
Llama Guard 3 तीन संस्करणों में उपलब्ध है: Llama Guard 3 1B, Llama Guard 3 8B, और Llama Guard 3 11B-Vision. पहले दो टेक्स्ट-ओनली मॉडल हैं, जबकि तीसरा Llama 3.2 11B-Vision मॉडल की विज़न समझ क्षमताओं को शामिल करता है। सभी संस्करण बहुभाषी हैं (केवल टेक्स्ट-ओनली प्रॉम्प्ट के लिए) और MLCommons कंसोर्टियम द्वारा परिभाषित खतरे की श्रेणियों का पालन करते हैं।
Llama Guard 3 8B का उपयोग श्रेणी S14, Code Interpreter Abuse के लिए भी किया जा सकता है। यह ध्यान रखना महत्वपूर्ण है कि Llama Guard 3 1B मॉडल इस विशिष्ट श्रेणी के लिए अनुकूलित नहीं है।
खतरे की श्रेणियां, Llama Guard 2 की श्रेणियों का विस्तार करते हुए, इस प्रकार हैं:
- S1: हिंसक अपराध (Violent Crimes)
- S2: अहिंसक अपराध (Non-Violent Crimes)
- S3: यौन-संबंधी अपराध (Sex-Related Crimes)
- S4: बाल यौन शोषण (Child Sexual Exploitation)
- S5: मानहानि (Defamation)
- S6: विशिष्ट सलाह (Specialized Advice)
- S7: गोपनीयता (Privacy)
- S8: बौद्धिक संपदा (Intellectual Property)
- S9: अंधाधुंध हथियार (Indiscriminate Weapons)
- S10: घृणा (Hate)
- S11: आत्महत्या और स्वयं को नुकसान (Suicide & Self-Harm)
- S12: यौन सामग्री (Sexual Content)
- S13: चुनाव (Elections)
- S14: कोड इंटरप्रेटर दुरुपयोग (Code Interpreter Abuse)
Meta Llama 3.1: बहुभाषी जेनरेटिव मॉडल
Meta Llama 3.1 संग्रह में बहुभाषी बड़े भाषा मॉडल शामिल हैं, जिसमें 8 बिलियन, 70 बिलियन और 405 बिलियन पैरामीटर आकारों में पूर्व-प्रशिक्षित और निर्देश-ट्यून किए गए जेनरेटिव मॉडल शामिल हैं (टेक्स्ट इनपुट, टेक्स्ट आउटपुट)।
समर्थित भाषाएँ में शामिल हैं: अंग्रेजी, जर्मन, फ्रेंच, इतालवी, पुर्तगाली, हिंदी, स्पेनिश और थाई।
Meta Llama 3.2: उन्नत संवाद क्षमताएं
Llama 3.2 संग्रह में बहुभाषी बड़े भाषा मॉडल शामिल हैं, जिसमें 1 बिलियन और 3 बिलियन पैरामीटर आकारों में पूर्व-प्रशिक्षित और निर्देश-ट्यून किए गए जेनरेटिव मॉडल शामिल हैं (टेक्स्ट इनपुट, टेक्स्ट आउटपुट)। इन मॉडलों के क्वांटाइज़्ड संस्करण भी उपलब्ध हैं। Llama 3.2 निर्देश-ट्यून किए गए टेक्स्ट-ओनली मॉडल बहुभाषी संवाद के लिए अनुकूलित हैं, एजेंटिक पुनर्प्राप्ति और संक्षेपण जैसे कार्यों में उत्कृष्ट हैं। 1B और 3B मॉडल Llama 3.1 के छोटे, कम शक्तिशाली व्युत्पन्न हैं।
आधिकारिक तौर पर समर्थित भाषाएँ हैं: अंग्रेजी, जर्मन, फ्रेंच, इतालवी, पुर्तगाली, हिंदी, स्पेनिश और थाई। हालाँकि, Llama 3.2 को इन आठ भाषाओं के अलावा भाषाओं की एक विस्तृत श्रृंखला पर प्रशिक्षित किया गया है।
Llama 3.2-Vision: इमेज रीजनिंग और समझ
Llama 3.2-Vision संग्रह मल्टी-मॉडल बड़े भाषा मॉडल पेश करता है। ये मॉडल इमेज रीजनिंग के लिए पूर्व-प्रशिक्षित और निर्देश-ट्यून किए गए हैं, जो 11 बिलियन और 90 बिलियन पैरामीटर आकारों में उपलब्ध हैं (टेक्स्ट और इमेज इनपुट, टेक्स्ट आउटपुट)। निर्देश-ट्यून किए गए मॉडल दृश्य पहचान, इमेज रीजनिंग, कैप्शनिंग और छवियों के बारे में सामान्य प्रश्नों के उत्तर देने के लिए अनुकूलित हैं।
केवल टेक्स्ट-ओनली कार्यों के लिए, आधिकारिक तौर पर समर्थित भाषाएँ अंग्रेजी, जर्मन, फ्रेंच, इतालवी, पुर्तगाली, हिंदी, स्पेनिश और थाई हैं। Llama 3.2 को भाषाओं के एक व्यापक सेट पर प्रशिक्षित किया गया है, लेकिन इमेज+टेक्स्ट अनुप्रयोगों के लिए, अंग्रेजी एकमात्र समर्थित भाषा है।
Meta Llama 3.3: एक शक्तिशाली 70B मॉडल
Meta Llama 3.3 बहुभाषी बड़ा भाषा मॉडल 70 बिलियन पैरामीटर (टेक्स्ट इनपुट, टेक्स्ट आउटपुट) के साथ एक पूर्व-प्रशिक्षित और निर्देश-ट्यून किया गया जेनरेटिव मॉडल है।
समर्थित भाषाएँ: अंग्रेजी, जर्मन, फ्रेंच, इतालवी, पुर्तगाली, हिंदी, स्पेनिश और थाई।
यह समझना महत्वपूर्ण है कि बड़े भाषा मॉडल, जिसमें Llama 3.2 भी शामिल है, पृथक परिनियोजन के लिए अभिप्रेत नहीं हैं। उन्हें उपयुक्त सुरक्षा गार्डरेल के साथ एक व्यापक AI सिस्टम में एकीकृत किया जाना चाहिए। डेवलपर्स से सिस्टम सुरक्षा उपायों को लागू करने की अपेक्षा की जाती है, खासकर जब एजेंटिक सिस्टम का निर्माण किया जाता है।
Llama 3.3, Llama 3.2 टेक्स्ट-ओनली मॉडल और Llama 3.1 में निम्नलिखित टूल के लिए बिल्ट-इन सपोर्ट शामिल है:
- Brave Search: वेब खोज करने के लिए एक टूल कॉल।
- Wolfram Alpha: जटिल गणितीय गणनाओं को निष्पादित करने के लिए एक टूल कॉल।
- Code Interpreter: मॉडल को Python कोड आउटपुट करने में सक्षम बनाने वाला एक टूल कॉल।
नोट: Llama 3.2 विज़न मॉडल टेक्स्ट+इमेज इनपुट के साथ टूल कॉलिंग का समर्थन नहीं करते हैं।
Llama Stack: एक एकीकृत ढांचा
लामा मॉडलों की बड़ी संख्या भारी पड़ सकती है। चयन और एकीकरण प्रक्रिया को सरल बनाने के लिए, Meta, Llama Stack प्रदान करता है। यह ढांचा लामा मॉडल पर जोर देता है, लेकिन संबंधित क्षमताओं के लिए एडेप्टर भी प्रदान करता है, जैसे रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG) के लिए वेक्टर डेटाबेस।
Llama Stack वर्तमान में Python, Swift, Node और Kotlin में SDK का समर्थन करता है। यह विभिन्न वितरण प्रदान करता है, जिनमें शामिल हैं:
- स्थानीय वितरण (Ollama का उपयोग करके): स्थानीय विकास और परीक्षण के लिए।
- ऑन-डिवाइस वितरण (iOS और Android): मोबाइल उपकरणों पर लामा मॉडल तैनात करने के लिए।
- GPU के लिए वितरण: तेजी से प्रसंस्करण के लिए GPU की शक्ति का लाभ उठाने के लिए।
- रिमोट-होस्टेड वितरण (Together और Fireworks): क्लाउड-आधारित सेवाओं के माध्यम से लामा मॉडल तक पहुंचने के लिए।
Llama Stack के पीछे मूल अवधारणा डेवलपर्स को स्थानीय रूप से एप्लिकेशन बनाने और फिर आसानी से उत्पादन वातावरण में संक्रमण करने में सक्षम बनाना है। यह एक दूरस्थ Llama Stack के विरुद्ध स्थानीय विकास के लिए एक इंटरैक्टिव Llama Stack Playground भी प्रदान करता है।
लामा मॉडल चलाना: बहुमुखी परिनियोजन विकल्प
लामा मॉडल को Linux, Windows, macOS और क्लाउड सहित विभिन्न प्लेटफार्मों पर तैनात किया जा सकता है। क्वांटाइज़्ड लामा मॉडल, जैसे Llama 3.2 और Llama 3.2-Vision, आधुनिक हार्डवेयर पर प्रभावी ढंग से चल सकते हैं, यहां तक कि M4 Pro MacBook Pro जैसे लैपटॉप पर भी Ollama जैसे टूल का उपयोग करके।
Meta लामा मॉडल को तैनात करने और उपयोग करने के लिए व्यापक हाउ-टू गाइड प्रदान करता है। इसके अतिरिक्त, LangChain और LlamaIndex जैसे लोकप्रिय फ्रेमवर्क के लिए एकीकरण गाइड उपलब्ध हैं।
सारांश में, लामा केवल एक सरल भाषा मॉडल होने से आगे बढ़ गया है, अब यह सुरक्षा सुविधाओं, कोड जेनरेशन और कई भाषाओं के समर्थन के साथ एक मल्टी-मॉडल AI फ्रेमवर्क है। Meta का सिस्टम इसे कई जगहों पर तैनात करने की अनुमति देता है, लेकिन प्रशिक्षण डेटा के साथ कानूनी मुद्दे, और लामा ओपन सोर्स है या नहीं, इस बारे में तर्क जारी हैं।