आर्टिफिशियल इंटेलिजेंस का आकर्षण बढ़ता जा रहा है, जो उद्योगों में दक्षता और परिवर्तन का वादा करता है। एक विशेष रूप से आकर्षक संभावना व्यक्तिगत कंप्यूटरों पर सीधे शक्तिशाली AI मॉडल चलाना है, जिससे क्लाउड निर्भरता, सदस्यता शुल्क और डेटा गोपनीयता संबंधी चिंताओं से बचा जा सके। Google, Meta, और Mistral AI जैसी दिग्गज कंपनियों ने परिष्कृत Large Language Models (LLMs) को डाउनलोड के लिए स्वतंत्र रूप से उपलब्ध कराया है। लेकिन क्या यह सुलभता व्यावहारिक उपयोगिता में तब्दील होती है? क्या ये डिजिटल दिमाग, डेस्कटॉप या लैपटॉप के सिलिकॉन तक सीमित होकर, पत्रकारिता लेखन जैसे जटिल वर्कफ़्लो को वास्तव में बढ़ा सकते हैं? यह विवरण ठीक इसी प्रश्न का उत्तर देने के लिए डिज़ाइन किए गए एक व्यापक प्रयोग का विवरण देता है।
मंच तैयार करना: स्थानीय AI प्रयोग
कई महीनों तक, स्थानीय हार्डवेयर पर पूरी तरह से संचालित होने वाले विभिन्न स्वतंत्र रूप से डाउनलोड करने योग्य LLMs के वास्तविक-विश्व प्रदर्शन का मूल्यांकन करने के लिए एक समर्पित प्रयास किया गया। जांच के दायरे में आने वाले मॉडलों की सूची विविध थी, जो ओपन-सोर्स AI के तेजी से विकसित हो रहे परिदृश्य को दर्शाती है:
- Google Gemma (विशेष रूप से संस्करण 3)
- Meta Llama (संस्करण 3.3)
- Anthropic Claude (संस्करण 3.7 Sonnet – हालांकि आमतौर पर क्लाउड-आधारित, इसके समावेश से व्यापक परीक्षण का पता चलता है)
- Mistral AI से कई पुनरावृत्तियाँ (Mistral, Mistral Small 3.1, Mistral Nemo, और Mixtral सहित)
- IBM Granite (संस्करण 3.2)
- Alibaba Qwen (संस्करण 2.5)
- DeepSeek R1 (एक तर्क परत जो अक्सर Qwen या Llama के डिस्टिल्ड संस्करणों पर लागू होती है)
मुख्य उद्देश्य महत्वाकांक्षी लेकिन व्यावहारिक था: यह निर्धारित करना कि क्या ये स्थानीय रूप से चलाए जा रहे AI कच्चे साक्षात्कार प्रतिलेखों को परिष्कृत, प्रकाशन योग्य लेखों में बदल सकते हैं। इसमें न केवल तकनीकी व्यवहार्यता का आकलन करना शामिल था - क्या हार्डवेयर लोड को संभाल सकता है? - बल्कि गुणात्मक आउटपुट भी - क्या परिणामी पाठ प्रयोग करने योग्य था? यह स्पष्ट रूप से बताना महत्वपूर्ण है कि पूरी तरह से स्वचालित, प्रकाशन-तैयार लेख प्राप्त करना मायावी साबित हुआ। प्राथमिक लक्ष्य इस विशिष्ट, मांग वाले उपयोग के मामले के माध्यम से वर्तमान ऑन-डिवाइस AI की वास्तविक क्षमताओं और सीमाओं को समझना बन गया।
चुनी गई कार्यप्रणाली एक पर्याप्त प्रॉम्प्ट पर केंद्रित थी। इसमें लगभग 1,500 टोकन (लगभग 6,000 वर्ण या पाठ के दो पूर्ण पृष्ठ) शामिल थे जो वांछित लेख संरचना, शैली और टोन को सावधानीपूर्वक रेखांकित करते थे। इस निर्देश सेट में साक्षात्कार प्रतिलेख स्वयं जोड़ा गया था, जो एक विशिष्ट 45 मिनट की बातचीत के लिए औसतन 11,000 टोकन था। इस संयुक्त इनपुट का विशाल आकार (अक्सर 12,500 टोकन से अधिक) आमतौर पर कई ऑनलाइन AI प्लेटफार्मों की मुफ्त उपयोग सीमाओं को पार कर जाता है। इस बाधा ने स्थानीय परिनियोजन की खोज के औचित्य को रेखांकित किया, जहां इनपुट आकार की परवाह किए बिना प्रसंस्करण मुफ्त रहता है, केवल मशीन की क्षमताओं द्वारा सीमित होता है।
इन परीक्षणों को निष्पादित करने में LM Studio का उपयोग करना शामिल था, जो एक लोकप्रिय सामुदायिक सॉफ्टवेयर है जो स्थानीय रूप से चलने वाले LLMs के साथ इंटरैक्ट करने के लिए एक उपयोगकर्ता-अनुकूल चैटबॉट-जैसा इंटरफ़ेस प्रदान करता है। LM Studio विभिन्न मॉडल संस्करणों को डाउनलोड करने के लिए कार्यों को आसानी से एकीकृत करता है, हालांकि इन स्वतंत्र रूप से उपलब्ध मॉडलों का प्राथमिक स्रोत Hugging Face रिपॉजिटरी बना हुआ है, जो AI समुदाय के लिए एक केंद्रीय केंद्र है।
तकनीकी भूलभुलैया में नेविगेट करना: हार्डवेयर, मेमोरी और मॉडल का आकार
स्थानीय AI प्रसंस्करण की यात्रा ने जल्दी ही सॉफ्टवेयर और हार्डवेयर के बीच एक जटिल अंतःक्रिया का खुलासा किया। AI के आउटपुट की गुणवत्ता और गति परीक्षण मशीन पर उपलब्ध संसाधनों से घनिष्ठ रूप से जुड़ी हुई थी - एक Mac जो Apple Silicon M1 Max सिस्टम-ऑन-चिप (SoC) और उदार 64 GB RAM से लैस था। गंभीर रूप से, इस आर्किटेक्चर में Unified Memory Architecture (UMA) है, जो 48 GB RAM को प्रोसेसर कोर (CPU), ग्राफिक्स कोर (GPU - वेक्टर त्वरण के लिए उपयोग किया जाता है), और न्यूरल प्रोसेसिंग यूनिट कोर (NPU - मैट्रिक्स त्वरण के लिए उपयोग किया जाता है) के बीच गतिशील रूप से साझा करने की अनुमति देता है।
कई प्रमुख तकनीकी कारक निर्णायक के रूप में उभरे:
- मॉडल पैरामीटर्स: LLMs को अक्सर उनके पैरामीटर्स की संख्या (अरबों में, आमतौर पर) से मापा जाता है। बड़े मॉडल में आम तौर पर अधिक ज्ञान और बारीकियां होती हैं। हालांकि, उन्हें काफी अधिक मेमोरी की आवश्यकता होती है।
- क्वांटाइजेशन (Quantization): यह मॉडल के पैरामीटर्स को संग्रहीत करने के लिए उपयोग की जाने वाली सटीकता को संदर्भित करता है (उदाहरण के लिए, 8-बिट, 4-बिट, 3-बिट)। कम बिट सटीकता मेमोरी फ़ुटप्रिंट को काफी कम करती है और प्रसंस्करण गति बढ़ाती है, लेकिन अक्सर सटीकता और आउटपुट गुणवत्ता की कीमत पर (त्रुटियों, पुनरावृत्ति, या निरर्थक भाषा का परिचय)।
- संदर्भ विंडो (Context Window): यह अधिकतम जानकारी (प्रॉम्प्ट + इनपुट डेटा) को परिभाषित करता है जिसे AI एक बार में विचार कर सकता है, जिसे टोकन में मापा जाता है। आवश्यक विंडो आकार कार्य द्वारा निर्धारित किया जाता है; इस मामले में, बड़े प्रॉम्प्ट और प्रतिलेख के लिए एक पर्याप्त विंडो की आवश्यकता थी।
- उपलब्ध RAM: मेमोरी की मात्रा सीधे सीमित करती है कि कौन से मॉडल (और किस क्वांटाइजेशन स्तर पर) प्रभावी ढंग से लोड और चलाए जा सकते हैं।
मूल्यांकन के समय परीक्षण मशीन पर गुणवत्ता और व्यवहार्यता का सबसे अच्छा संतुलन प्रदान करने वाला स्वीट स्पॉट, Google के Gemma मॉडल का उपयोग करके 27 बिलियन पैरामीटर्स के साथ, 8 बिट्स (‘27B Q8_0’ संस्करण) में क्वांटाइज्ड करके प्राप्त किया गया था। यह कॉन्फ़िगरेशन 32,000-टोकन संदर्भ विंडो के भीतर संचालित होता है, जो लगभग 15,000-टोकन इनपुट (निर्देश + प्रतिलेख) को आराम से संभालता है। यह निर्दिष्ट Mac हार्डवेयर पर चला, 48 GB साझा मेमोरी का उपयोग करते हुए।
इन इष्टतम परिस्थितियों में, प्रसंस्करण गति 6.82 टोकन प्रति सेकंड मापी गई। कार्यात्मक होते हुए भी, यह तात्कालिक से बहुत दूर है। आउटपुट गुणवत्ता का त्याग किए बिना गति में सुधार मुख्य रूप से तेज हार्डवेयर पर निर्भर करता है - विशेष रूप से, उच्च क्लॉक स्पीड (GHz) वाले SoCs या अधिक संख्या में प्रसंस्करण कोर (CPU, GPU, NPU)।
काफी अधिक पैरामीटर्स (जैसे, 32 बिलियन, 70 बिलियन) वाले मॉडल लोड करने का प्रयास जल्दी ही मेमोरी सीमा तक पहुँच गया। ये बड़े मॉडल या तो पूरी तरह से लोड होने में विफल रहे या गंभीर रूप से काटे गए, अनुपयोगी आउटपुट (जैसे पूरे लेख के बजाय एक पैराग्राफ) का उत्पादन किया। इसके विपरीत, कम पैरामीटर्स वाले मॉडल का उपयोग करते हुए, मेमोरी खाली करते हुए, लेखन गुणवत्ता में ध्यान देने योग्य गिरावट आई, जिसकी विशेषता पुनरावृत्ति और खराब ढंग से व्यक्त किए गए विचार थे। इसी तरह, अधिक आक्रामक क्वांटाइजेशन (पैरामीटर्स को 3, 4, 5, या 6 बिट्स तक कम करना) ने गति को बढ़ाया लेकिन आउटपुट को गंभीर रूप से खराब कर दिया, व्याकरण संबंधी गलतियों और यहां तक कि मनगढ़ंत शब्दों को भी पेश किया।
इनपुट डेटा द्वारा निर्धारित आवश्यक संदर्भ विंडो का आकार, कार्य के लिए अनिवार्य रूप से गैर-परक्राम्य है। यदि इनपुट डेटा एक ऐसी विंडो की मांग करता है, जो चुने हुए मॉडल आकार और क्वांटाइजेशन के साथ मिलकर उपलब्ध RAM से अधिक हो जाती है, तो एकमात्र उपाय एक छोटा मॉडल चुनना है, जो अनिवार्य रूप से मेमोरी सीमा के भीतर रहने के लिए अंतिम परिणाम की संभावित गुणवत्ता से समझौता करता है।
गुणवत्ता की खोज: जब संरचना पदार्थ से मिलती है (या उसकी कमी)
क्या स्थानीय रूप से चलाए जा रहे AI ने प्रयोग करने योग्य लेख उत्पन्न करने में सफलता प्राप्त की? हाँ और नहीं। उत्पन्न ग्रंथों ने अक्सर आश्चर्यजनक रूप से अच्छी संरचना प्रदर्शित की। वे आम तौर पर अनुरोधित प्रारूप का पालन करते थे, जिसमें शामिल थे:
- एक प्रत्यक्ष कोण या फोकस।
- विषयगत वर्गों के माध्यम से एक सुसंगत प्रवाह।
- प्रतिलेख से उचित रूप से रखे गए उद्धरण।
- आकर्षक शीर्षक और समापन वाक्य।
हालांकि, सभी परीक्षण किए गए LLMs में लगातार एक महत्वपूर्ण दोष सामने आया, जिसमें DeepSeek R1 जैसे विशेष रूप से उन्नत तर्क के लिए डिज़ाइन किए गए मॉडल भी शामिल थे: साक्षात्कार के भीतर जानकारी की प्रासंगिकता को सही ढंग से समझने और प्राथमिकता देने में एक मौलिक अक्षमता। AI मॉडल लगातार बातचीत के सार से चूक गए, द्वितीयक बिंदुओं या स्पर्शरेखा विवरणों पर ध्यान केंद्रित करते हुए।
परिणाम अक्सर ऐसे लेख थे जो व्याकरण की दृष्टि से सही और सुव्यवस्थित थे लेकिन अंततः सतही और अरुचिकर थे। कुछ उदाहरणों में, AI स्पष्ट बातों को बताने के लिए महत्वपूर्ण, अच्छी तरह से तर्कपूर्ण अंश समर्पित करेगा - उदाहरण के लिए, विस्तार से बताना कि साक्षात्कार की गई कंपनी प्रतिस्पर्धियों के साथ एक बाजार में काम करती है। इसने भाषाई क्षमता (सुसंगत वाक्य बनाना) और वास्तविक समझ (महत्व और संदर्भ को समझना) के बीच एक अंतर को उजागर किया।
इसके अलावा, शैलीगत आउटपुट मॉडल के बीच काफी भिन्न था:
- Meta का Llama 3.x: परीक्षण के समय, ऐसे वाक्य उत्पन्न किए जो अक्सर जटिल और समझने में कठिन थे।
- Mistral Models & Gemma: एक ‘मार्केटिंग स्पीक’ शैली की ओर झुकाव दिखाया, जिसमें प्रभावशाली विशेषणों और सकारात्मक फ्रेमिंग का उपयोग किया गया था, लेकिन ठोस पदार्थ और विशिष्ट विवरण की कमी थी।
- Alibaba का Qwen: आश्चर्यजनक रूप से, परीक्षण सेटअप की बाधाओं के भीतर, इस चीनी मॉडल ने फ्रेंच (मूल मूल्यांकन टीम की भाषा) में कुछ सबसे सौंदर्यपूर्ण गद्य का उत्पादन किया।
- Mixtral 8x7B: प्रारंभ में, यह ‘विशेषज्ञों का मिश्रण’ मॉडल (आठ छोटे, विशेष 7-बिलियन पैरामीटर मॉडल का संयोजन) ने वादा दिखाया। हालाँकि, इसे 48 GB मेमोरी बाधा के भीतर फिट करने के लिए आक्रामक 3-बिट क्वांटाइजेशन की आवश्यकता थी, जिसके कारण महत्वपूर्ण सिंटैक्स त्रुटियां हुईं। एक 4-बिट क्वांटाइज्ड संस्करण (‘Q4_K_M’) ने शुरू में एक बेहतर समझौता पेश किया, लेकिन LM Studio सॉफ्टवेयर के बाद के अपडेट ने इसके मेमोरी फ़ुटप्रिंट को बढ़ा दिया, जिससे यह कॉन्फ़िगरेशन भी काटे गए परिणाम उत्पन्न करने लगा।
- Mistral Small 3.1: 8-बिट क्वांटाइजेशन पर 24 बिलियन पैरामीटर्स वाला एक हालिया मॉडल एक मजबूत दावेदार के रूप में उभरा। इसकी आउटपुट गुणवत्ता 27B Gemma मॉडल के करीब पहुंच गई, और इसने थोड़ी गति लाभ की पेशकश की, 8.65 टोकन प्रति सेकंड पर प्रसंस्करण किया।
यह भिन्नता रेखांकित करती है कि LLM चुनना केवल आकार या गति के बारे में नहीं है; अंतर्निहित प्रशिक्षण डेटा और आर्किटेक्चर इसकी लेखन शैली और संभावित पूर्वाग्रहों को महत्वपूर्ण रूप से प्रभावित करते हैं।
हार्डवेयर आर्किटेक्चर: स्थानीय AI का अनसंग हीरो
प्रयोगों ने एक महत्वपूर्ण, अक्सर अनदेखे कारक पर प्रकाश डाला: अंतर्निहित हार्डवेयर आर्किटेक्चर, विशेष रूप से मेमोरी तक कैसे पहुँचा जाता है। Apple Silicon Mac पर देखा गया बेहतर प्रदर्शन केवल RAM की मात्रा के कारण नहीं था, बल्कि गंभीर रूप से इसकी Unified Memory Architecture (UMA) पर टिका था।
UMA सिस्टम में, CPU, GPU और NPU कोर सभी भौतिक RAM के एक ही पूल को साझा करते हैं और एक साथ समान मेमोरी पतों पर डेटा तक पहुँच सकते हैं। यह विभिन्न प्रोसेसरों (जैसे, CPU के लिए सिस्टम RAM और एक असतत ग्राफिक्स कार्ड के लिए समर्पित VRAM) को समर्पित अलग-अलग मेमोरी पूल के बीच डेटा कॉपी करने की आवश्यकता को समाप्त करता है।
LLMs के लिए यह इतना महत्वपूर्ण क्यों है?
- दक्षता: LLM प्रसंस्करण में विभिन्न प्रकार के कोर में गहन गणना शामिल होती है। UMA निर्बाध डेटा साझाकरण की अनुमति देता है, डेटा दोहराव और हस्तांतरण से जुड़ी विलंबता और ओवरहेड को कम करता है।
- मेमोरी उपयोग: UMA के बिना सिस्टम में (जैसे एक असतत GPU वाले विशिष्ट PC), समान डेटा को मुख्य सिस्टम RAM (CPU के लिए) और GPU के VRAM दोनों में लोड करने की आवश्यकता हो सकती है। यह प्रभावी रूप से LLM के लिए प्रयोग करने योग्य मेमोरी को कम करता है।
व्यावहारिक निहितार्थ महत्वपूर्ण है। जबकि परीक्षण Mac 48 GB साझा UMA RAM का उपयोग करके 27-बिलियन पैरामीटर, 8-बिट क्वांटाइज्ड मॉडल को आराम से चला सकता था, UMA के बिना PC पर समान प्रदर्शन प्राप्त करने के लिए काफी अधिक कुल RAM की आवश्यकता हो सकती है। उदाहरण के लिए, 48 GB कुल RAM वाला PC जो CPU के लिए 24 GB और GPU के लिए 24 GB में विभाजित है, मेमोरी विभाजन और डेटा दोहराव ओवरहेड के कारण केवल बहुत छोटे 13-बिलियन पैरामीटर मॉडल को प्रभावी ढंग से चलाने में सक्षम हो सकता है।
यह आर्किटेक्चरल लाभ Apple Silicon चिप्स वाले Macs द्वारा स्थानीय AI स्पेस में प्राप्त शुरुआती बढ़त की व्याख्या करता है। इसे पहचानते हुए, AMD जैसी प्रतिस्पर्धी कंपनियों ने अपनी Ryzen AI Max SoC रेंज (2025 की शुरुआत में अपेक्षित) की घोषणा की, जिसे समान एकीकृत मेमोरी दृष्टिकोण को शामिल करने के लिए डिज़ाइन किया गया है। इन परीक्षणों के समय, Intel के Core Ultra SoCs, CPU, GPU और NPU को एकीकृत करते हुए, सभी कोर प्रकारों में पूरी तरह से एकीकृत मेमोरी एक्सेस के समान स्तर की सुविधा नहीं देते थे। यह हार्डवेयर भेद बड़े, अधिक सक्षम LLMs को स्थानीय रूप से चलाने के बारे में गंभीर किसी भी व्यक्ति के लिए एक महत्वपूर्ण विचार है।
प्रॉम्प्ट इंजीनियरिंग का जटिल नृत्य
एक साक्षात्कार को एक लेख में बदलने जैसे जटिल कार्य को करने के लिए AI को प्राप्त करने के लिए शक्तिशाली हार्डवेयर और एक सक्षम मॉडल से अधिक की आवश्यकता होती है; यह परिष्कृत निर्देश की मांग करता है - प्रॉम्प्ट इंजीनियरिंग की कला और विज्ञान। AI का मार्गदर्शन करने वाले प्रारंभिक 1,500-टोकन प्रॉम्प्ट को तैयार करना एक महत्वपूर्ण उपक्रम था।
एक उपयोगी प्रारंभिक बिंदु में रिवर्स इंजीनियरिंग शामिल थी: AI को एक पूर्ण, मानव-लिखित लेख उसके संबंधित प्रतिलेख के साथ फीड करना और पूछना कि उस परिणाम को प्राप्त करने के लिए क्या प्रॉम्प्ट दिया जाना चाहिए था। कई विविध उदाहरणों में AI के सुझावों का विश्लेषण करने से निर्देश सेट के लिए आवश्यक तत्वों की पहचान करने में मदद मिली।
हालांकि, AI-जनित प्रॉम्प्ट सुझाव लगातार बहुत संक्षिप्त थे और एक व्यापक लेख के निर्माण का मार्गदर्शन करने के लिए आवश्यक विवरण की कमी थी। वास्तविक कार्य इन प्रारंभिक AI-प्रदत्त लीड्स को लेने और उन पर विस्तार करने, पत्रकारिता संरचना, टोन, शैली और नैतिक विचारों के बारे में गहरे डोमेन ज्ञान को एम्बेड करने में निहित था।
कई गैर-सहज ज्ञान युक्त सबक सामने आए:
- लालित्य पर स्पष्टता: आश्चर्यजनक रूप से, प्रॉम्प्ट को अधिक प्राकृतिक, प्रवाहित शैली में लिखने से अक्सर AI की समझ कम हो जाती है। मॉडल अस्पष्टता के साथ संघर्ष करते थे, विशेष रूप से सर्वनाम (‘वह,’ ‘यह,’ ‘इस’)। सबसे प्रभावी दृष्टिकोण में मशीन परिशुद्धता के लिए मानव पठनीयता का त्याग करना शामिल था, किसी भी संभावित गलत व्याख्या से बचने के लिए विषयों को स्पष्ट रूप से दोहराना (‘लेख होना चाहिए…’, ‘लेख का स्वर होना चाहिए…’, ‘लेख की प्रस्तावना की आवश्यकता है…’)।
- रचनात्मकता की मायावी प्रकृति: लचीलेपन की अनुमति देने के उद्देश्य से सावधानीपूर्वक प्रॉम्प्ट डिजाइन के बावजूद, AI-जनित लेखों ने लगातार एक ‘पारिवारिक समानता’ साझा की। एक ही प्रॉम्प्ट, या यहां तक कि कई प्रतिस्पर्धी प्रॉम्प्ट के भीतर मानव रचनात्मकता और शैलीगत भिन्नता की चौड़ाई को पकड़ना असाधारण रूप से कठिन साबित हुआ। सच्ची विविधता के लिए अकेले प्रॉम्प्ट ट्वीकिंग की तुलना में अधिक मौलिक बदलाव की आवश्यकता प्रतीत होती है।
प्रॉम्प्ट इंजीनियरिंग एक बार का कार्य नहीं है, बल्कि शोधन, परीक्षण और विशिष्ट व्यावसायिक तर्क और शैलीगत बारीकियों को शामिल करने की एक पुनरावृत्ति प्रक्रिया है। इसके लिए तकनीकी समझ और गहरे विषय वस्तु विशेषज्ञता के मिश्रण की आवश्यकता होती है।
वर्कलोड शिफ्ट: AI विरोधाभास को खोलना
प्रयोग अंततः एक महत्वपूर्ण अहसास की ओर ले गए, जिसे AI विरोधाभास कहा गया: अपनी वर्तमान स्थिति में, AI के लिए संभावित रूप से कुछ उपयोगकर्ता वर्कलोड (लेख का मसौदा लिखना) को कम करने के लिए, उपयोगकर्ता को अक्सर अधिक प्रारंभिक कार्य निवेश करना पड़ता है।
मुख्य मुद्दा कच्चे साक्षात्कार प्रतिलेख के भीतर प्रासंगिकता का मज़बूती से आकलन करने में AI की अक्षमता बना रहा। एक प्रासंगिक लेख तैयार करने के लिए, केवल पूरे प्रतिलेख को फीड करना अपर्याप्त था। एक आवश्यक मध्यवर्ती कदम सामने आया: प्रतिलेख का मैन्युअल रूप से पूर्व-प्रसंस्करण। इसमें शामिल था:
- अप्रासंगिक बकबक, विषयांतर और अतिरेक को हटाना।
- AI की समझ का मार्गदर्शन करने के लिए संभावित रूप से प्रासंगिक नोट्स जोड़ना (भले ही अंतिम लेख के लिए अभिप्रेत न हो)।
- प्रमुख खंडों का सावधानीपूर्वक चयन करना और शायद पुन: व्यवस्थित करना।
इस प्रतिलेख ‘क्यूरेशन’ के लिए महत्वपूर्ण मानव समय और निर्णय की आवश्यकता होती है। AI द्वारा पहला मसौदा तैयार करने से बचाए गए समय को प्रभावी ढंग से ऑफसेट किया गया था, या यहां तक कि इसके इनपुट डेटा को सावधानीपूर्वक तैयार करने के नए कार्य से भी अधिक हो गया था। वर्कलोड गायब नहीं हुआ; यह केवल प्रत्यक्ष लेखन से डेटा तैयारी और प्रॉम्प्ट शोधन में स्थानांतरित हो गया।
इसके अलावा, विस्तृत 1,500-टोकन प्रॉम्प्ट एक प्रकार के लेख (जैसे, उत्पाद लॉन्च के बारे में एक साक्षात्कार) के लिए अत्यधिक विशिष्ट था। एक पत्रकार द्वारा प्रतिदिन उत्पादित लेख प्रारूपों की विविध श्रेणी को कवर करना - स्टार्टअप प्रोफाइल, रणनीतिक विश्लेषण, इवेंट कवरेज, बहु-स्रोत जांच - प्रत्येक उपयोग के मामले के लिए एक अलग, समान रूप से विस्तृत प्रॉम्प्ट विकसित करने, परीक्षण करने और बनाए रखने की आवश्यकता होगी। यह एक पर्याप्त अग्रिम और चल रहे इंजीनियरिंग निवेश का प्रतिनिधित्व करता है।
इससे भी बदतर, ये व्यापक प्रयोग, जो छह महीने से अधिक समय तक चले, केवल सतह को खरोंचते थे। उन्होंने सबसे सरल परिदृश्य पर ध्यान केंद्रित किया: एक एकल साक्षात्कार से एक लेख तैयार करना, जो अक्सर प्रेस कॉन्फ्रेंस जैसी नियंत्रित सेटिंग्स में आयोजित किया जाता है जहां साक्षात्कारकर्ता के बिंदु पहले से ही कुछ हद तक संरचित होते हैं। कई साक्षात्कारों से जानकारी को संश्लेषित करने, पृष्ठभूमि अनुसंधान को शामिल करने, या कम संरचित बातचीत को संभालने के कहीं अधिक जटिल, फिर भी सामान्य कार्य, बुनियादी मामले के लिए भी आवश्यक समय निवेश के कारण बेरोज़गार रहे।
इसलिए, जबकि LLMs को स्थानीय रूप से चलाना तकनीकी रूप से व्यवहार्य है और लागत और डेटा गोपनीयता के मामले में लाभ प्रदान करता है, यह धारणा कि यह पत्रकारिता जैसे जटिल ज्ञान कार्य के लिए आसानी से समय या प्रयास बचाता है, इस जांच के आधार पर, वर्तमान में भ्रामक है। आवश्यक प्रयास बस बदल जाता है, डेटा तैयारी और अत्यधिक विशिष्ट प्रॉम्प्ट इंजीनियरिंग में अपस्ट्रीम चला जाता है। इन विशिष्ट चुनौतियों पर - प्रासंगिकता का पता लगाना, व्यापक पूर्व-प्रसंस्करण की आवश्यकता - स्थानीय रूप से चलाए जा रहे AI ने भुगतान की गई ऑनलाइन सेवाओं के तुलनीय प्रदर्शन किया, यह सुझाव देते हुए कि ये परिनियोजन विधि की परवाह किए बिना LLMs की वर्तमान पीढ़ी की मौलिक सीमाएँ हैं। ऐसे डोमेन में वास्तव में निर्बाध AI सहायता का मार्ग जटिल बना हुआ है और AI क्षमताओं और उनके साथ बातचीत करने के हमारे तरीकों दोनों में और विकास की मांग करता है।