कृत्रिम बुद्धिमत्तेचे (Artificial Intelligence) आकर्षण वाढत आहे, जे विविध उद्योगांमध्ये कार्यक्षमता आणि परिवर्तनाचे आश्वासन देत आहे. वैयक्तिक संगणकांवर थेट शक्तिशाली AI मॉडेल्स चालवणे, क्लाउडवरील अवलंबित्व, सबस्क्रिप्शन शुल्क आणि डेटा गोपनीयतेच्या चिंता टाळणे, ही एक विशेषतः आकर्षक शक्यता आहे. Google, Meta आणि Mistral AI सारख्या मोठ्या कंपन्यांनी अत्याधुनिक Large Language Models (LLMs) डाउनलोडसाठी विनामूल्य उपलब्ध केले आहेत. पण ही उपलब्धता व्यावहारिक उपयुक्ततेत रूपांतरित होते का? डेस्कटॉप किंवा लॅपटॉपच्या सिलिकॉनमध्ये मर्यादित असलेले हे डिजिटल मेंदू, पत्रकारितेसारख्या जटिल कार्यप्रवाहांना खरोखरच वाढवू शकतात का? हा अहवाल याच प्रश्नाचे उत्तर देण्यासाठी केलेल्या विस्तृत प्रयोगाचा तपशील देतो.
स्थानिक AI प्रयोगाची तयारी (Setting the Stage: The Local AI Experiment)
अनेक महिन्यांपर्यंत, स्थानिक हार्डवेअरवर पूर्णपणे कार्यरत असलेल्या विविध विनामूल्य डाउनलोड करण्यायोग्य LLMs च्या वास्तविक-जगातील कामगिरीचे मूल्यांकन करण्यासाठी एक समर्पित प्रयत्न करण्यात आला. तपासणी अंतर्गत असलेल्या मॉडेल्सची यादी वैविध्यपूर्ण होती, जी ओपन-सोर्स AI च्या वेगाने विकसित होणाऱ्या लँडस्केपचे प्रतिबिंब दर्शवते:
- Google Gemma (विशेषतः आवृत्ती 3)
- Meta Llama (आवृत्ती 3.3)
- Anthropic Claude (आवृत्ती 3.7 Sonnet – जरी सामान्यतः क्लाउड-आधारित असले तरी, त्याचा समावेश व्यापक चाचणी दर्शवतो)
- Mistral AI कडील अनेक आवृत्त्या (Mistral, Mistral Small 3.1, Mistral Nemo, आणि Mixtral सह)
- IBM Granite (आवृत्ती 3.2)
- Alibaba Qwen (आवृत्ती 2.5)
- DeepSeek R1 (एक रिझनिंग लेयर जो अनेकदा Qwen किंवा Llama च्या डिस्टिल्ड आवृत्त्यांवर लागू केला जातो)
मुख्य उद्दिष्ट महत्त्वाकांक्षी असले तरी व्यावहारिक होते: हे स्थानिकरित्या चालणारे AI कच्च्या मुलाखतीच्या प्रतींना (transcripts) पॉलिश केलेल्या, प्रकाशित करण्यायोग्य लेखांमध्ये रूपांतरित करू शकतात का हे निर्धारित करणे. यात केवळ तांत्रिक व्यवहार्यता तपासणेच समाविष्ट नव्हते – हार्डवेअर हे लोड हाताळू शकेल का? – पण गुणात्मक आउटपुट देखील – परिणामी मजकूर वापरण्यायोग्य होता का? हे सुरुवातीलाच स्पष्ट करणे महत्त्वाचे आहे की पूर्णपणे स्वयंचलित, प्रकाशनासाठी तयार लेख मिळवणे कठीण सिद्ध झाले. मुख्य ध्येय या विशिष्ट, मागणी असलेल्या वापराच्या माध्यमातून सध्याच्या ऑन-डिव्हाइस AI च्या वास्तविक क्षमता आणि मर्यादा समजून घेण्याकडे वळले.
निवडलेली पद्धत एका मोठ्या प्रॉम्प्टवर केंद्रित होती. यामध्ये अंदाजे 1,500 टोकन्स (सुमारे 6,000 वर्ण किंवा मजकुराची दोन पूर्ण पृष्ठे) समाविष्ट होते, ज्यात इच्छित लेखाची रचना, शैली आणि टोन काळजीपूर्वक रेखाटले होते. या सूचना संचामध्ये मुलाखतीची प्रत स्वतः जोडली गेली होती, जी एका सामान्य 45-मिनिटांच्या संभाषणासाठी सरासरी 11,000 टोकन्स होती. या एकत्रित इनपुटचा प्रचंड आकार (अनेकदा 12,500 टोकन्सपेक्षा जास्त) अनेक ऑनलाइन AI प्लॅटफॉर्मच्या विनामूल्य वापराच्या मर्यादा ओलांडतो. या मर्यादेने स्थानिक उपयोजनाचा शोध घेण्याच्या तर्काला अधोरेखित केले, जिथे मशीनच्या क्षमतेनुसार मर्यादित राहून, इनपुट आकाराकडे दुर्लक्ष करून प्रक्रिया विनामूल्य राहते.
या चाचण्या कार्यान्वित करण्यासाठी LM Studio चा वापर करण्यात आला, जे एक लोकप्रिय समुदाय सॉफ्टवेअर आहे जे स्थानिकरित्या चालणाऱ्या LLMs शी संवाद साधण्यासाठी वापरकर्ता-अनुकूल चॅटबॉट-सारखे इंटरफेस प्रदान करते. LM Studio विविध मॉडेल आवृत्त्या डाउनलोड करण्यासाठी सोयीस्करपणे कार्ये एकत्रित करते, जरी या विनामूल्य उपलब्ध मॉडेल्सचा प्राथमिक स्त्रोत Hugging Face रेपॉजिटरी आहे, जो AI समुदायासाठी एक केंद्रीय केंद्र आहे.
तांत्रिक चक्रव्यूहात नेव्हिगेट करणे: हार्डवेअर, मेमरी आणि मॉडेल आकार (Navigating the Technical Labyrinth: Hardware, Memory, and Model Size)
स्थानिक AI प्रक्रियेच्या प्रवासात सॉफ्टवेअर आणि हार्डवेअर यांच्यातील एक जटिल परस्परसंवाद त्वरीत उघड झाला. AI च्या आउटपुटची गुणवत्ता आणि गती चाचणी मशीनवर उपलब्ध असलेल्या संसाधनांशी जवळून जोडलेली होती – एक Mac ज्यामध्ये Apple Silicon M1 Max सिस्टम-ऑन-चिप (SoC) आणि उदार 64 GB RAM होती. गंभीरपणे, या आर्किटेक्चरमध्ये Unified Memory Architecture (UMA) आहे, ज्यामुळे 48 GB RAM प्रोसेसर कोर (CPU), ग्राफिक्स कोर (GPU – वेक्टर एक्सीलरेशनसाठी वापरले जाते), आणि न्यूरल प्रोसेसिंग युनिट कोर (NPU – मॅट्रिक्स एक्सीलरेशनसाठी वापरले जाते) यांच्यात गतिशीलपणे सामायिक केली जाऊ शकते.
अनेक महत्त्वाचे तांत्रिक घटक निर्णायक म्हणून उदयास आले:
- मॉडेल पॅरामीटर्स (Model Parameters): LLMs अनेकदा त्यांच्या पॅरामीटर्सच्या संख्येनुसार (अब्जावधी, सामान्यतः) मोजले जातात. मोठे मॉडेल्स सामान्यतः अधिक ज्ञान आणि बारकावे धारण करतात. तथापि, त्यांना लक्षणीयरीत्या अधिक मेमरीची आवश्यकता असते.
- क्वांटायझेशन (Quantization): हे मॉडेलचे पॅरामीटर्स संग्रहित करण्यासाठी वापरल्या जाणार्या अचूकतेचा संदर्भ देते (उदा., 8-bit, 4-bit, 3-bit). कमी बिट अचूकता मेमरी फूटप्रिंटमध्ये लक्षणीय घट करते आणि प्रक्रिया गती वाढवते, परंतु अनेकदा अचूकता आणि आउटपुट गुणवत्तेच्या किंमतीवर (त्रुटी, पुनरावृत्ती किंवा निरर्थक भाषा सादर करणे).
- कॉन्टेक्स्ट विंडो (Context Window): हे AI एकाच वेळी विचारात घेऊ शकणार्या माहितीची (प्रॉम्प्ट + इनपुट डेटा) कमाल रक्कम परिभाषित करते, जी टोकन्समध्ये मोजली जाते. आवश्यक विंडोचा आकार कार्याद्वारे निर्धारित केला जातो; या प्रकरणात, मोठ्या प्रॉम्प्ट आणि ट्रान्सक्रिप्टसाठी भरीव विंडो आवश्यक होती.
- उपलब्ध RAM: मेमरीची रक्कम थेट मर्यादित करते की कोणते मॉडेल्स (आणि कोणत्या क्वांटायझेशन स्तरावर) प्रभावीपणे लोड केले जाऊ शकतात आणि चालवले जाऊ शकतात.
मूल्यांकनाच्या वेळी चाचणी मशीनवर गुणवत्ता आणि व्यवहार्यता यांचा सर्वोत्तम समतोल साधणारा ‘स्वीट स्पॉट’, Google चे Gemma मॉडेल 27 अब्ज पॅरामीटर्ससह, 8 बिट्सवर क्वांटाइज्ड (‘27B Q8_0’ आवृत्ती) वापरून प्राप्त झाला. हे कॉन्फिगरेशन 32,000-टोकन कॉन्टेक्स्ट विंडोमध्ये कार्यरत होते, अंदाजे 15,000-टोकन इनपुट (सूचना + ट्रान्सक्रिप्ट) आरामात हाताळत होते. ते निर्दिष्ट Mac हार्डवेअरवर चालले, 48 GB सामायिक मेमरी वापरून.
या इष्टतम परिस्थितीत, प्रक्रिया गती 6.82 टोकन्स प्रति सेकंद मोजली गेली. कार्यात्मक असले तरी, हे तात्काळ नाही. आउटपुट गुणवत्तेशी तडजोड न करता गती सुधारणा प्रामुख्याने वेगवान हार्डवेअरवर अवलंबून असतात – विशेषतः, उच्च क्लॉक स्पीड (GHz) किंवा जास्त संख्येने प्रोसेसिंग कोर (CPU, GPU, NPU) असलेले SoCs.
लक्षणीयरीत्या अधिक पॅरामीटर्स असलेले मॉडेल्स लोड करण्याचा प्रयत्न (उदा., 32 अब्ज, 70 अब्ज) त्वरीत मेमरी मर्यादेला पोहोचला. हे मोठे मॉडेल्स एकतर पूर्णपणे लोड होण्यात अयशस्वी झाले किंवा त्यांनी गंभीरपणे छाटलेले, निरुपयोगी आउटपुट तयार केले (पूर्ण लेखाऐवजी एकच परिच्छेद). याउलट, कमी पॅरामीटर्स असलेले मॉडेल्स वापरल्याने, मेमरी मोकळी झाली तरी, लेखनाच्या गुणवत्तेत लक्षणीय घट झाली, जी पुनरावृत्ती आणि खराबपणे व्यक्त केलेल्या कल्पनांनी वैशिष्ट्यीकृत होती. त्याचप्रमाणे, अधिक आक्रमक क्वांटायझेशन वापरल्याने (पॅरामीटर्स 3, 4, 5, किंवा 6 बिट्सपर्यंत कमी करणे) गती वाढली परंतु आउटपुट गंभीरपणे खराब झाले, व्याकरणाच्या चुका आणि अगदी बनावट शब्द सादर केले.
इनपुट डेटानुसार निर्धारित केलेल्या आवश्यक कॉन्टेक्स्ट विंडोचा आकार, कार्यासाठी मूलतः तडजोड करण्यायोग्य नाही. जर इनपुट डेटाला अशा विंडोची आवश्यकता असेल जी, निवडलेल्या मॉडेल आकार आणि क्वांटायझेशनसह एकत्रितपणे, उपलब्ध RAM पेक्षा जास्त असेल, तर एकमेव उपाय म्हणजे लहान मॉडेल निवडणे, ज्यामुळे मेमरी मर्यादेत राहण्यासाठी अंतिम निकालाच्या संभाव्य गुणवत्तेशी अनिवार्यपणे तडजोड करावी लागते.
गुणवत्तेचा शोध: जेव्हा रचना पदार्थाला भेटते (किंवा त्याचा अभाव) (The Quest for Quality: When Structure Meets Substance (or Lack Thereof))
स्थानिकरित्या चालणाऱ्या AI ने वापरण्यायोग्य लेख तयार करण्यात यश मिळवले का? होय आणि नाही. तयार केलेल्या मजकुरांमध्ये अनेकदा आश्चर्यकारकपणे चांगली रचना दिसून आली. ते सामान्यतः विनंती केलेल्या स्वरूपाचे पालन करत होते, ज्यात वैशिष्ट्ये होती:
- एक ओळखण्यायोग्य कोन किंवा फोकस.
- विषयासंबंधी विभागांमधून एक सुसंगत प्रवाह.
- ट्रान्सक्रिप्टमधून योग्यरित्या ठेवलेले अवतरण.
- आकर्षक मथळे आणि निष्कर्ष वाक्ये.
तथापि, DeepSeek R1 सारख्या, विशेषतः वर्धित तर्कासाठी डिझाइन केलेल्या LLMs सह, सर्व चाचणी केलेल्या LLMs मध्ये एक गंभीर त्रुटी सातत्याने उदयास आली: मुलाखतीतील माहितीची प्रासंगिकता योग्यरित्या ओळखण्याची आणि प्राधान्य देण्याची मूलभूत असमर्थता. AI मॉडेल्सनी संभाषणाचा गाभा सातत्याने चुकवला, दुय्यम मुद्द्यांवर किंवा अप्रासंगिक तपशीलांवर लक्ष केंद्रित केले.
परिणाम अनेकदा असे लेख होते जे व्याकरणाच्या दृष्टीने योग्य आणि सुव्यवस्थित होते परंतु शेवटी वरवरचे आणि कंटाळवाणे होते. काही प्रकरणांमध्ये, AI स्पष्ट गोष्टी सांगण्यासाठी महत्त्वपूर्ण, चांगले युक्तिवाद केलेले परिच्छेद समर्पित करेल – उदाहरणार्थ, मुलाखत घेतलेली कंपनी स्पर्धकांसह बाजारात कार्यरत आहे हे विस्ताराने सांगणे. याने भाषिक क्षमता (सुसंगत वाक्ये तयार करणे) आणि खरी समज (महत्व आणि संदर्भ समजून घेणे) यांच्यातील दरी अधोरेखित केली.
शिवाय, शैलीत्मक आउटपुट मॉडेल्समध्ये लक्षणीयरीत्या भिन्न होते:
- Meta चे Llama 3.x: चाचणीच्या वेळी, अनेकदा गुंतागुंतीची आणि समजण्यास कठीण वाक्ये तयार केली.
- Mistral Models & Gemma: ‘मार्केटिंग स्पीक’ शैलीकडे झुकण्याची प्रवृत्ती दर्शविली, प्रभावी विशेषणे आणि सकारात्मक फ्रेमिंग वापरले परंतु ठोस पदार्थ आणि विशिष्ट तपशीलांचा अभाव होता.
- Alibaba चे Qwen: आश्चर्यकारकपणे, चाचणी सेटअपच्या मर्यादेत, या चीनी मॉडेलने फ्रेंचमध्ये (मूळ मूल्यांकन संघाची भाषा) काही सर्वात सौंदर्यदृष्ट्या सुखद गद्य तयार केले.
- Mixtral 8x7B: सुरुवातीला, या ‘मिक्सचर ऑफ एक्सपर्ट्स’ मॉडेलने (आठ लहान, विशेषीकृत 7-अब्ज पॅरामीटर मॉडेल्स एकत्र करून) आशा दर्शविली. तथापि, 48 GB मेमरी मर्यादेत बसवण्यासाठी आक्रमक 3-बिट क्वांटायझेशन आवश्यक होते, ज्यामुळे महत्त्वपूर्ण वाक्यरचना त्रुटी आल्या. 4-बिट क्वांटाइज्ड आवृत्ती (‘Q4_K_M’) ने सुरुवातीला एक चांगला तडजोड प्रस्ताव दिला, परंतु LM Studio सॉफ्टवेअरच्या नंतरच्या अद्यतनांनी त्याचा मेमरी फूटप्रिंट वाढवला, ज्यामुळे हे कॉन्फिगरेशन देखील छाटलेले परिणाम देऊ लागले.
- Mistral Small 3.1: 8-बिट क्वांटायझेशनवर 24 अब्ज पॅरामीटर्स असलेले एक नवीन मॉडेल एक मजबूत स्पर्धक म्हणून उदयास आले. त्याच्या आउटपुटची गुणवत्ता 27B Gemma मॉडेलच्या जवळ पोहोचली आणि त्याने थोडा गती फायदा दिला, 8.65 टोकन्स प्रति सेकंद वेगाने प्रक्रिया केली.
हे भिन्नता अधोरेखित करते की LLM निवडणे केवळ आकार किंवा गतीबद्दल नाही; अंतर्निहित प्रशिक्षण डेटा आणि आर्किटेक्चर त्याच्या लेखन शैलीवर आणि संभाव्य पक्षपातांवर लक्षणीय परिणाम करतात.
हार्डवेअर आर्किटेक्चर: स्थानिक AI चा अज्ञात नायक (Hardware Architecture: The Unsung Hero of Local AI)
प्रयोगांनी एका महत्त्वपूर्ण, अनेकदा दुर्लक्षित घटकावर प्रकाश टाकला: अंतर्निहित हार्डवेअर आर्किटेक्चर, विशेषतः मेमरी कशी ऍक्सेस केली जाते. Apple Silicon Mac वर पाहिलेली उत्कृष्ट कामगिरी केवळ RAM च्या प्रमाणावर अवलंबून नव्हती तर गंभीरपणे त्याच्या Unified Memory Architecture (UMA) वर अवलंबून होती.
UMA प्रणालीमध्ये, CPU, GPU, आणि NPU कोर सर्व समान भौतिक RAM चा पूल सामायिक करतात आणि एकाच वेळी समान मेमरी पत्त्यांवर डेटा ऍक्सेस करू शकतात. यामुळे वेगवेगळ्या प्रोसेसरसाठी समर्पित असलेल्या स्वतंत्र मेमरी पूलमध्ये (उदा., CPU साठी सिस्टम RAM आणि स्वतंत्र ग्राफिक्स कार्डसाठी समर्पित VRAM) डेटा कॉपी करण्याची आवश्यकता नाहीशी होते.
LLMs साठी हे इतके महत्त्वाचे का आहे?
- कार्यक्षमता (Efficiency): LLM प्रक्रियेमध्ये वेगवेगळ्या प्रकारच्या कोरमध्ये तीव्र गणना समाविष्ट असते. UMA अखंड डेटा शेअरिंगला अनुमती देते, डेटा डुप्लिकेशन आणि ट्रान्सफरशी संबंधित लेटन्सी आणि ओव्हरहेड कमी करते.
- मेमरी वापर (Memory Utilization): UMA नसलेल्या प्रणालींमध्ये (जसे की स्वतंत्र GPU असलेल्या सामान्य PC), समान डेटा मुख्य सिस्टम RAM (CPU साठी) आणि GPU च्या VRAM मध्ये लोड करण्याची आवश्यकता असू शकते. यामुळे LLM साठी वापरण्यायोग्य मेमरी प्रभावीपणे कमी होते.
व्यावहारिक परिणाम महत्त्वपूर्ण आहे. चाचणी Mac 48 GB सामायिक UMA RAM वापरून 27-अब्ज पॅरामीटर, 8-बिट क्वांटाइज्ड मॉडेल आरामात चालवू शकत असताना, UMA शिवाय PC वर समान कामगिरी मिळविण्यासाठी लक्षणीयरीत्या अधिक एकूण RAM ची आवश्यकता असू शकते. उदाहरणार्थ, 48 GB एकूण RAM असलेला PC, जो CPU साठी 24 GB आणि GPU साठी 24 GB मध्ये विभागलेला आहे, मेमरी विभाजन आणि डेटा डुप्लिकेशन ओव्हरहेडमुळे कदाचित फक्त खूप लहान 13-अब्ज पॅरामीटर मॉडेल प्रभावीपणे चालवू शकेल.
हे आर्किटेक्चरल फायदे Apple Silicon चिप्स असलेल्या Macs ने स्थानिक AI क्षेत्रात मिळवलेल्या सुरुवातीच्या आघाडीचे स्पष्टीकरण देतात. हे ओळखून, AMD सारख्या स्पर्धकांनी त्यांची Ryzen AI Max SoC श्रेणी (2025 च्या सुरुवातीला अपेक्षित) जाहीर केली आहे जी समान युनिफाइड मेमरी दृष्टिकोन समाविष्ट करण्यासाठी डिझाइन केलेली आहे. या चाचण्यांच्या वेळी, Intel चे Core Ultra SoCs, CPU, GPU, आणि NPU एकत्रित करत असले तरी, सर्व कोर प्रकारांमध्ये समान पातळीचे पूर्णपणे युनिफाइड मेमरी ऍक्सेस वैशिष्ट्यीकृत करत नव्हते. हे हार्डवेअर वेगळेपण मोठे, अधिक सक्षम LLMs स्थानिकरित्या चालवण्याबद्दल गंभीर असलेल्या कोणासाठीही एक महत्त्वपूर्ण विचार आहे.
प्रॉम्प्ट इंजिनिअरिंगचे गुंतागुंतीचे नृत्य (The Intricate Dance of Prompt Engineering)
एखाद्या मुलाखतीला लेखात रूपांतरित करण्यासारखे जटिल कार्य करण्यासाठी AI ला केवळ शक्तिशाली हार्डवेअर आणि सक्षम मॉडेलपेक्षा अधिक आवश्यक आहे; त्याला अत्याधुनिक सूचनांची आवश्यकता आहे – प्रॉम्प्ट इंजिनिअरिंग (prompt engineering) ची कला आणि विज्ञान. AI ला मार्गदर्शन करणारा सुरुवातीचा 1,500-टोकन प्रॉम्प्ट तयार करणे हे एक महत्त्वपूर्ण काम होते.
एक उपयुक्त प्रारंभ बिंदू रिव्हर्स इंजिनिअरिंग (reverse engineering) होता: AI ला एक पूर्ण, मानवी-लिखित लेख त्याच्या संबंधित ट्रान्सक्रिप्टसह देणे आणि तो परिणाम साधण्यासाठी काय प्रॉम्प्ट दिला गेला पाहिजे हे विचारणे. अनेक विविध उदाहरणांमध्ये AI च्या सूचनांचे विश्लेषण केल्याने सूचना संचासाठी आवश्यक घटक ओळखण्यास मदत झाली.
तथापि, AI-व्युत्पन्न प्रॉम्प्ट सूचना सातत्याने खूप संक्षिप्त होत्या आणि सर्वसमावेशक लेख तयार करण्यासाठी मार्गदर्शन करण्यासाठी आवश्यक तपशीलांचा अभाव होता. खरे काम या सुरुवातीच्या AI-प्रदान केलेल्या लीड्स घेणे आणि त्यावर विस्तार करणे, पत्रकारितेची रचना, टोन, शैली आणि नैतिक विचारांबद्दल सखोल डोमेन ज्ञान अंतर्भूत करणे यात होते.
अनेक गैर-अंतर्ज्ञानी धडे उदयास आले:
- मोहकतेपेक्षा स्पष्टता (Clarity over Elegance): आश्चर्यकारकपणे, प्रॉम्प्ट अधिक नैसर्गिक, प्रवाही शैलीत लिहिल्याने अनेकदा AI ची समज कमी झाली. मॉडेल्स संदिग्धतेशी, विशेषतः सर्वनामांशी (‘तो,’ ‘ते,’ ‘हे’) संघर्ष करत होते.सर्वात प्रभावी दृष्टिकोन मानवी वाचनीयतेचा त्याग करून मशीन अचूकतेसाठी होता, कोणत्याही संभाव्य गैरसमजातून वाचण्यासाठी विषयांची स्पष्टपणे पुनरावृत्ती करणे (‘लेखाने…’, ‘लेखाचा टोन असावा…’, ‘लेखाच्या परिचयाची गरज आहे…’) समाविष्ट होते.
- सर्जनशीलतेचे मायावी स्वरूप (The Elusive Nature of Creativity): लवचिकतेस अनुमती देण्याच्या उद्देशाने काळजीपूर्वक प्रॉम्प्ट डिझाइन असूनही, AI-व्युत्पन्न लेखांमध्ये सातत्याने ‘कौटुंबिक साम्य’ होते. मानवी सर्जनशीलतेची आणि शैलीत्मक विविधतेची व्याप्ती एकाच प्रॉम्प्टमध्ये किंवा अगदी अनेक प्रतिस्पर्धी प्रॉम्प्टमध्ये कॅप्चर करणे अपवादात्मकपणे कठीण सिद्ध झाले. खरी विविधता केवळ प्रॉम्प्ट ट्वीकिंगपेक्षा अधिक मूलभूत बदलांची आवश्यकता असल्याचे दिसून आले.
प्रॉम्प्ट इंजिनिअरिंग हे एक-वेळचे कार्य नाही तर परिष्करण, चाचणी आणि विशिष्ट व्यवसाय तर्क आणि शैलीत्मक बारकावे समाविष्ट करण्याची एक पुनरावृत्ती प्रक्रिया आहे. यासाठी तांत्रिक समज आणि सखोल विषय तज्ञांचे मिश्रण आवश्यक आहे.
कामाचा भार बदलणे: AI विरोधाभास उलगडणे (The Workload Shift: Unpacking the AI Paradox)
प्रयोगांमुळे शेवटी एका गंभीर जाणिवेला सामोरे जावे लागले, ज्याला AI विरोधाभास (AI paradox) म्हटले जाते: त्याच्या सध्याच्या स्थितीत, AI ने वापरकर्त्याचा काही कामाचा भार (लेखाचा मसुदा लिहिणे) संभाव्यतः कमी करण्यासाठी, वापरकर्त्याला अनेकदा अधिक प्राथमिक काम गुंतवावे लागते.
मूळ समस्या कच्च्या मुलाखतीच्या ट्रान्सक्रिप्टमधील प्रासंगिकतेचे विश्वसनीयपणे मूल्यांकन करण्यात AI ची असमर्थता राहिली. समर्पक लेख तयार करण्यासाठी, फक्त संपूर्ण ट्रान्सक्रिप्ट देणे पुरेसे नव्हते. एक आवश्यक मध्यस्थ पायरी उदयास आली: ट्रान्सक्रिप्टचे मॅन्युअली प्री-प्रोसेसिंग करणे. यात समाविष्ट होते:
- अप्रासंगिक बडबड, विषयांतर आणि पुनरावृत्ती काढून टाकणे.
- AI च्या समजूतदारपणाला मार्गदर्शन करण्यासाठी संभाव्यतः संदर्भित नोट्स जोडणे (जरी त्या अंतिम लेखासाठी नसतील तरीही).
- मुख्य विभागांची काळजीपूर्वक निवड करणे आणि कदाचित पुनर्रचना करणे.
या ट्रान्सक्रिप्ट ‘क्युरेशन’साठी महत्त्वपूर्ण मानवी वेळ आणि निर्णयाची आवश्यकता असते. AI द्वारे पहिला मसुदा तयार केल्याने वाचलेला वेळ, त्याच्या इनपुट डेटाची काळजीपूर्वक तयारी करण्याच्या नवीन कार्याने प्रभावीपणे ऑफसेट झाला किंवा त्याहूनही जास्त झाला. कामाचा भार नाहीसा झाला नाही; तो फक्त थेट लेखनापासून डेटा तयारी आणि प्रॉम्प्ट परिष्करणात स्थलांतरित झाला.
शिवाय, तपशीलवार 1,500-टोकन प्रॉम्प्ट एका प्रकारच्या लेखासाठी (उदा., उत्पादन लाँचबद्दलची मुलाखत) अत्यंत विशिष्ट होता. एका पत्रकाराने दररोज तयार केलेल्या विविध प्रकारच्या लेख स्वरूपांना कव्हर करण्यासाठी – स्टार्टअप प्रोफाइल, धोरणात्मक विश्लेषणे, इव्हेंट कव्हरेज, बहु-स्रोत तपास – प्रत्येक वापरासाठी स्वतंत्र, तितकाच तपशीलवार प्रॉम्प्ट विकसित करणे, चाचणी करणे आणि देखरेख करणे आवश्यक असेल. हे एक महत्त्वपूर्ण आगाऊ आणि चालू अभियांत्रिकी गुंतवणूक दर्शवते.
सर्वात वाईट म्हणजे, सहा महिन्यांहून अधिक काळ चाललेल्या या विस्तृत प्रयोगांनी केवळ पृष्ठभागाला स्पर्श केला. त्यांनी सर्वात सोप्या परिस्थितीवर लक्ष केंद्रित केले: एकाच मुलाखतीतून लेख तयार करणे, अनेकदा प्रेस कॉन्फरन्ससारख्या नियंत्रित सेटिंग्जमध्ये आयोजित केले जाते जेथे मुलाखत देणाऱ्याचे मुद्दे आधीच काही प्रमाणात संरचित असतात. एकाधिक मुलाखतींमधून माहिती संश्लेषित करणे, पार्श्वभूमी संशोधन समाविष्ट करणे किंवा कमी संरचित संभाषणे हाताळणे यासारखी अधिक जटिल, तरीही सामान्य कार्ये, मूलभूत प्रकरणासाठी आवश्यक असलेल्या वेळेच्या गुंतवणुकीमुळे अस्पष्ट राहिली.
म्हणून, LLMs स्थानिकरित्या चालवणे तांत्रिकदृष्ट्या व्यवहार्य असले आणि खर्च आणि डेटा गोपनीयतेच्या बाबतीत फायदे देत असले तरी, ते पत्रकारितेसारख्या जटिल ज्ञान कार्यासाठी सहजपणे वेळ किंवा श्रम वाचवते ही कल्पना, या तपासणीवर आधारित, सध्या भ्रामक आहे. आवश्यक प्रयत्न फक्त रूपांतरित होतात, डेटा तयारी आणि अत्यंत विशिष्ट प्रॉम्प्ट इंजिनिअरिंगमध्ये वरच्या दिशेने सरकतात. या विशिष्ट आव्हानांवर – प्रासंगिकता ओळखणे, विस्तृत प्री-प्रोसेसिंगची आवश्यकता – स्थानिकरित्या चालणाऱ्या AI ने सशुल्क ऑनलाइन सेवांच्या तुलनेत कामगिरी केली, हे सूचित करते की या LLMs च्या सध्याच्या पिढीच्या मूलभूत मर्यादा आहेत, उपयोजन पद्धतीकडे दुर्लक्ष करून. अशा डोमेनमधील खऱ्या अर्थाने अखंड AI सहाय्याचा मार्ग गुंतागुंतीचा आहे आणि AI क्षमता आणि त्यांच्याशी संवाद साधण्याच्या आमच्या पद्धतींमध्ये पुढील उत्क्रांतीची मागणी करतो.