هوش مصنوعی محلی برای وظایف روزنامه‌نگاری

آواز دل‌فریب هوش مصنوعی بلندتر می‌شود و نوید کارایی و تحول در صنایع مختلف را می‌دهد. یک چشم‌انداز به‌ویژه وسوسه‌انگیز، اجرای مدل‌های قدرتمند هوش مصنوعی مستقیماً روی رایانه‌های شخصی است که وابستگی به ابر، هزینه‌های اشتراک و نگرانی‌های مربوط به حریم خصوصی داده‌ها را دور می‌زند. غول‌هایی مانند Google، Meta و Mistral AI مدل‌های زبان بزرگ (LLM) پیچیده‌ای را به‌صورت رایگان برای دانلود در دسترس قرار داده‌اند. اما آیا این دسترسی به کاربرد عملی تبدیل می‌شود؟ آیا این ذهن‌های دیجیتال که به سیلیکون یک دسکتاپ یا لپ‌تاپ محدود شده‌اند، واقعاً می‌توانند گردش‌های کاری پیچیده‌ای مانند نوشتن روزنامه‌نگاری را تقویت کنند؟ این گزارش جزئیات یک آزمایش گسترده را شرح می‌دهد که دقیقاً برای پاسخ به این سؤال طراحی شده است.

آماده‌سازی صحنه: آزمایش هوش مصنوعی محلی

طی چندین ماه، تلاشی اختصاصی برای ارزیابی عملکرد واقعی LLMهای مختلف قابل دانلود رایگان که کاملاً روی سخت‌افزار محلی کار می‌کنند، انجام شد. فهرست مدل‌های مورد بررسی متنوع بود و چشم‌انداز به‌سرعت در حال تحول هوش مصنوعی منبع‌باز را منعکس می‌کرد:

  • Google Gemma (به‌ویژه نسخه 3)
  • Meta Llama (نسخه 3.3)
  • Anthropic Claude (نسخه 3.7 Sonnet – اگرچه معمولاً مبتنی بر ابر است، گنجاندن آن نشان‌دهنده آزمایش گسترده است)
  • تکرارهای متعدد از Mistral AI (شامل Mistral، Mistral Small 3.1، Mistral Nemo و Mixtral)
  • IBM Granite (نسخه 3.2)
  • Alibaba Qwen (نسخه 2.5)
  • DeepSeek R1 (یک لایه استدلال که اغلب روی نسخه‌های تقطیر شده Qwen یا Llama اعمال می‌شود)

هدف اصلی بلندپروازانه و در عین حال عملی بود: تعیین اینکه آیا این هوش‌های مصنوعی اجرا شده به‌صورت محلی می‌توانند متن خام مصاحبه‌ها را به مقالات صیقلی و قابل انتشار تبدیل کنند یا خیر. این شامل ارزیابی نه تنها امکان‌سنجی فنی – آیا سخت‌افزار می‌تواند بار را تحمل کند؟ – بلکه خروجی کیفی – آیا متن حاصل قابل استفاده بود؟ – نیز می‌شد. مهم است که از همان ابتدا بیان کنیم که دستیابی به یک مقاله کاملاً خودکار و آماده انتشار، دست‌نیافتنی بود. هدف اصلی به سمت درک قابلیت‌ها و محدودیت‌های واقعی هوش مصنوعی فعلی روی دستگاه از طریق این مورد استفاده خاص و طاقت‌فرسا تغییر یافت.

روش‌شناسی انتخاب‌شده حول یک پرامپت (دستورالعمل) قابل توجه متمرکز بود. این شامل تقریباً ۱۵۰۰ توکن (حدود ۶۰۰۰ کاراکتر یا دو صفحه کامل متن) بود که ساختار، سبک و لحن مقاله مورد نظر را به‌دقت مشخص می‌کرد. به این مجموعه دستورالعمل، متن خود مصاحبه اضافه شد که به‌طور متوسط حدود ۱۱۰۰۰ توکن برای یک مکالمه معمولی ۴۵ دقیقه‌ای بود. اندازه عظیم این ورودی ترکیبی (اغلب بیش از ۱۲۵۰۰ توکن) معمولاً از محدودیت‌های استفاده رایگان بسیاری از پلتفرم‌های هوش مصنوعی آنلاین فراتر می‌رود. این محدودیت، منطق کاوش در استقرار محلی را تأکید می‌کرد، جایی که پردازش بدون توجه به اندازه ورودی رایگان باقی می‌ماند و فقط توسط قابلیت‌های دستگاه محدود می‌شود.

اجرای این آزمایش‌ها شامل استفاده از LM Studio بود، یک نرم‌افزار محبوب جامعه که یک رابط کاربری شبیه به چت‌بات برای تعامل با LLMهای در حال اجرا به‌صورت محلی فراهم می‌کند. LM Studio به‌راحتی توابع دانلود نسخه‌های مختلف مدل را ادغام می‌کند، اگرچه منبع اصلی این مدل‌های رایگان موجود، مخزن Hugging Face است، یک مرکز اصلی برای جامعه هوش مصنوعی.

پیمایش در هزارتوی فنی: سخت‌افزار، حافظه و اندازه مدل

سفر به پردازش هوش مصنوعی محلی به‌سرعت تعامل پیچیده‌ای بین نرم‌افزار و سخت‌افزار را آشکار کرد. کیفیت و سرعت خروجی هوش مصنوعی به‌طور تنگاتنگی با منابع موجود در دستگاه آزمایش – یک Mac مجهز به سیستم-روی-چیپ (SoC) Apple Silicon M1 Max و ۶۴ گیگابایت RAM سخاوتمندانه – گره خورده بود. نکته حیاتی این است که این معماری دارای معماری حافظه یکپارچه (UMA) است که به ۴۸ گیگابایت RAM اجازه می‌دهد به‌صورت پویا بین هسته‌های پردازنده (CPU)، هسته‌های گرافیکی (GPU – برای شتاب‌دهی برداری استفاده می‌شود) و هسته‌های واحد پردازش عصبی (NPU – برای شتاب‌دهی ماتریسی استفاده می‌شود) به اشتراک گذاشته شود.

چندین عامل فنی کلیدی به‌عنوان عوامل تعیین‌کننده ظاهر شدند:

  1. پارامترهای مدل: LLMها اغلب با تعداد پارامترهایشان (معمولاً میلیاردها) اندازه‌گیری می‌شوند. مدل‌های بزرگ‌تر عموماً دانش و ظرافت بیشتری دارند. با این حال، به حافظه بسیار بیشتری نیاز دارند.
  2. کوانتیزاسیون (Quantization): این به دقتی اشاره دارد که برای ذخیره پارامترهای مدل استفاده می‌شود (مثلاً ۸ بیتی، ۴ بیتی، ۳ بیتی). دقت بیت پایین‌تر به‌طور چشمگیری ردپای حافظه را کاهش می‌دهد و سرعت پردازش را افزایش می‌دهد، اما اغلب به قیمت دقت و کیفیت خروجی (ایجاد خطا، تکرار یا زبان بی‌معنی).
  3. پنجره زمینه (Context Window): این حداکثر مقدار اطلاعاتی (پرامپت + داده ورودی) را که هوش مصنوعی می‌تواند در یک زمان در نظر بگیرد، تعریف می‌کند که با توکن اندازه‌گیری می‌شود. اندازه پنجره مورد نیاز توسط وظیفه تعیین می‌شود؛ در این مورد، پرامپت بزرگ و متن مصاحبه، پنجره قابل توجهی را ضروری می‌کرد.
  4. RAM موجود: مقدار حافظه مستقیماً محدود می‌کند که کدام مدل‌ها (و در چه سطح کوانتیزاسیون) می‌توانند به‌طور مؤثر بارگیری و اجرا شوند.

نقطه بهینه، که بهترین تعادل بین کیفیت و امکان‌سنجی را در دستگاه آزمایش در زمان ارزیابی فراهم می‌کرد، با استفاده از مدل Gemma گوگل با ۲۷ میلیارد پارامتر، کوانتیزه شده به ۸ بیت (نسخه ‘27B Q8_0’) به دست آمد. این پیکربندی در یک پنجره زمینه ۳۲۰۰۰ توکنی عمل می‌کرد و به‌راحتی ورودی تقریباً ۱۵۰۰۰ توکنی (دستورالعمل‌ها + متن مصاحبه) را مدیریت می‌کرد. این روی سخت‌افزار Mac مشخص شده اجرا می‌شد و از ۴۸ گیگابایت حافظه مشترک استفاده می‌کرد.

تحت این شرایط بهینه، سرعت پردازش ۶.۸۲ توکن در ثانیه اندازه‌گیری شد. اگرچه کاربردی است، اما این به هیچ وجه آنی نیست. بهبود سرعت بدون قربانی کردن کیفیت خروجی عمدتاً به سخت‌افزار سریع‌تر بستگی دارد – به‌ویژه، SoCهایی با سرعت کلاک بالاتر (GHz) یا تعداد بیشتری هسته پردازشی (CPU، GPU، NPU).

تلاش برای بارگیری مدل‌هایی با پارامترهای بسیار بیشتر (مثلاً ۳۲ میلیارد، ۷۰ میلیارد) به‌سرعت به سقف حافظه برخورد کرد. این مدل‌های بزرگ‌تر یا به‌طور کامل بارگیری نشدند یا خروجی به‌شدت کوتاه شده و غیرقابل استفاده تولید کردند (مانند یک پاراگراف به جای یک مقاله کامل). برعکس، استفاده از مدل‌هایی با پارامترهای کمتر، ضمن آزاد کردن حافظه، منجر به کاهش قابل توجه کیفیت نوشتاری شد که با تکرار و ایده‌های ضعیف بیان شده مشخص می‌شد. به‌طور مشابه، استفاده از کوانتیزاسیون تهاجمی‌تر (کاهش پارامترها به ۳، ۴، ۵ یا ۶ بیت) سرعت را افزایش داد اما خروجی را به‌شدت تخریب کرد و اشتباهات گرامری و حتی کلمات ساختگی را معرفی کرد.

اندازه پنجره زمینه مورد نیاز، که توسط داده‌های ورودی تعیین می‌شود، اساساً برای این وظیفه غیرقابل مذاکره است. اگر داده‌های ورودی به پنجره‌ای نیاز داشته باشند که همراه با اندازه مدل و کوانتیزاسیون انتخاب شده، از RAM موجود فراتر رود، تنها راه چاره انتخاب یک مدل کوچک‌تر است که به‌ناچار کیفیت بالقوه نتیجه نهایی را برای ماندن در محدودیت‌های حافظه به خطر می‌اندازد.

جستجو برای کیفیت: وقتی ساختار با محتوا (یا فقدان آن) روبرو می‌شود

آیا هوش مصنوعی اجرا شده به‌صورت محلی در تولید مقالات قابل استفاده موفق بود؟ بله و خیر. متون تولید شده اغلب ساختار شگفت‌آور خوبی از خود نشان می‌دادند. آنها عموماً به قالب درخواستی پایبند بودند و شامل موارد زیر بودند:

  • یک زاویه یا تمرکز قابل تشخیص.
  • جریانی منسجم از طریق بخش‌های موضوعی.
  • نقل‌قول‌های مناسب از متن مصاحبه.
  • عناوین جذاب و جملات پایانی.

با این حال، یک نقص حیاتی به‌طور مداوم در تمام LLMهای آزمایش شده، از جمله مواردی مانند DeepSeek R1 که به‌طور خاص برای استدلال پیشرفته طراحی شده‌اند، ظاهر شد: ناتوانی اساسی در تشخیص و اولویت‌بندی صحیح ارتباط اطلاعات در مصاحبه. مدل‌های هوش مصنوعی به‌طور مداوم اصل مطلب مکالمه را از دست می‌دادند و بر نکات فرعی یا جزئیات حاشیه‌ای تمرکز می‌کردند.

نتیجه اغلب مقالاتی بود که از نظر گرامری صحیح و به‌خوبی سازمان‌دهی شده بودند، اما در نهایت سطحی و غیرجالب بودند. در برخی موارد، هوش مصنوعی بخش‌های قابل توجه و با استدلال خوب را به بیان بدیهیات اختصاص می‌داد – برای مثال، به‌طور مفصل توضیح می‌داد که شرکت مصاحبه‌شونده در بازاری با رقبا فعالیت می‌کند. این امر شکاف بین شایستگی زبانی (تشکیل جملات منسجم) و درک واقعی (درک اهمیت و زمینه) را برجسته کرد.

علاوه بر این، خروجی سبکی بین مدل‌ها به‌طور قابل توجهی متفاوت بود:

  • Meta’s Llama 3.x: در زمان آزمایش، جملاتی تولید می‌کرد که اغلب پیچیده و دشوار برای تجزیه بودند.
  • Mistral Models & Gemma: تمایلی به سبک ‘زبان بازاریابی’ نشان دادند، با استفاده از صفت‌های پرشور و قاب‌بندی مثبت اما فاقد محتوای مشخص و جزئیات خاص.
  • Alibaba’s Qwen: به‌طور شگفت‌انگیزی، در محدودیت‌های تنظیمات آزمایش، این مدل چینی برخی از زیباترین نثرها را به زبان فرانسوی (زبان تیم ارزیابی اصلی) تولید کرد.
  • Mixtral 8x7B: در ابتدا، این مدل ‘ترکیبی از متخصصان’ (ترکیب هشت مدل کوچک‌تر و تخصصی ۷ میلیارد پارامتری) امیدوارکننده بود. با این حال، جا دادن آن در محدودیت حافظه ۴۸ گیگابایتی نیاز به کوانتیزاسیون تهاجمی ۳ بیتی داشت که منجر به خطاهای نحوی قابل توجهی شد. یک نسخه کوانتیزه شده ۴ بیتی (‘Q4_K_M’) در ابتدا سازش بهتری ارائه داد، اما به‌روزرسانی‌های بعدی نرم‌افزار LM Studio ردپای حافظه آن را افزایش داد و باعث شد این پیکربندی نیز نتایج کوتاه شده تولید کند.
  • Mistral Small 3.1: یک مدل جدیدتر با ۲۴ میلیارد پارامتر در کوانتیزاسیون ۸ بیتی به‌عنوان یک رقیب قوی ظاهر شد. کیفیت خروجی آن به مدل Gemma 27B نزدیک شد و مزیت سرعت کمی را ارائه داد و با سرعت ۸.۶۵ توکن در ثانیه پردازش می‌کرد.

این تنوع تأکید می‌کند که انتخاب یک LLM فقط مربوط به اندازه یا سرعت نیست؛ داده‌های آموزشی زیربنایی و معماری به‌طور قابل توجهی بر سبک نوشتاری و سوگیری‌های بالقوه آن تأثیر می‌گذارند.

معماری سخت‌افزار: قهرمان گمنام هوش مصنوعی محلی

آزمایش‌ها نوری بر یک عامل حیاتی و اغلب نادیده گرفته شده افکندند: معماری سخت‌افزار زیربنایی، به‌ویژه نحوه دسترسی به حافظه. عملکرد برتر مشاهده شده در Apple Silicon Mac صرفاً به دلیل مقدار RAM نبود، بلکه به‌طور حیاتی به معماری حافظه یکپارچه (UMA) آن وابسته بود.

در یک سیستم UMA، هسته‌های CPU، GPU و NPU همگی از یک استخر RAM فیزیکی مشترک استفاده می‌کنند و می‌توانند به‌طور همزمان به داده‌ها در همان آدرس‌های حافظه دسترسی داشته باشند. این امر نیاز به کپی کردن داده‌ها بین استخرهای حافظه جداگانه اختصاص داده شده به پردازنده‌های مختلف (مثلاً RAM سیستم برای CPU و VRAM اختصاصی برای یک کارت گرافیک مجزا) را از بین می‌برد.

چرا این برای LLMها اینقدر مهم است؟

  • کارایی: پردازش LLM شامل محاسبات شدید در انواع مختلف هسته‌ها است. UMA امکان اشتراک‌گذاری یکپارچه داده‌ها را فراهم می‌کند و تأخیر و سربار مرتبط با تکرار و انتقال داده‌ها را کاهش می‌دهد.
  • استفاده از حافظه: در سیستم‌های بدون UMA (مانند یک PC معمولی با GPU مجزا)، ممکن است لازم باشد همان داده‌ها هم در RAM اصلی سیستم (برای CPU) و هم در VRAM GPU بارگیری شوند. این امر به‌طور مؤثر حافظه قابل استفاده برای خود LLM را کاهش می‌دهد.

پیامد عملی قابل توجه است. در حالی که Mac آزمایشی می‌توانست به‌راحتی یک مدل ۲۷ میلیارد پارامتری کوانتیزه شده ۸ بیتی را با استفاده از ۴۸ گیگابایت RAM UMA مشترک اجرا کند، دستیابی به عملکرد مشابه در یک PC بدون UMA ممکن است به RAM کل به‌طور قابل توجهی بیشتری نیاز داشته باشد. برای مثال، یک PC با ۴۸ گیگابایت RAM کل که به ۲۴ گیگابایت برای CPU و ۲۴ گیگابایت برای GPU تقسیم شده است، ممکن است فقط قادر به اجرای مؤثر یک مدل بسیار کوچک‌تر ۱۳ میلیارد پارامتری باشد، به دلیل تقسیم‌بندی حافظه و سربار تکرار داده‌ها.

این مزیت معماری، پیشتازی اولیه Macها با تراشه‌های Apple Silicon در فضای هوش مصنوعی محلی را توضیح می‌دهد. با تشخیص این موضوع، رقبایی مانند AMD محدوده SoC Ryzen AI Max خود را (که انتظار می‌رود در اوایل سال ۲۰۲۵ عرضه شود) اعلام کردند که برای گنجاندن رویکرد حافظه یکپارچه مشابهی طراحی شده است. در زمان انجام این آزمایش‌ها، SoCهای Core Ultra اینتل، در حالی که CPU، GPU و NPU را ادغام می‌کردند، از همان سطح دسترسی کاملاً یکپارچه حافظه در تمام انواع هسته‌ها برخوردار نبودند. این تمایز سخت‌افزاری یک ملاحظه حیاتی برای هر کسی است که به‌طور جدی به اجرای LLMهای بزرگ‌تر و توانمندتر به‌صورت محلی فکر می‌کند.

رقص پیچیده مهندسی پرامپت

وادار کردن هوش مصنوعی به انجام یک کار پیچیده مانند تبدیل مصاحبه به مقاله، به چیزی بیش از سخت‌افزار قدرتمند و یک مدل توانا نیاز دارد؛ این امر مستلزم دستورالعمل‌های پیچیده است – هنر و علم مهندسی پرامپت (Prompt Engineering). ساخت پرامپت اولیه ۱۵۰۰ توکنی که هوش مصنوعی را هدایت می‌کرد، یک کار قابل توجه بود.

یک نقطه شروع مفید شامل مهندسی معکوس بود: دادن یک مقاله تکمیل شده و نوشته شده توسط انسان به همراه متن مصاحبه مربوطه به هوش مصنوعی و پرسیدن اینکه چه پرامپتی باید داده می‌شد تا به آن نتیجه دست یابد. تجزیه و تحلیل پیشنهادات هوش مصنوعی در چندین مثال متنوع به شناسایی عناصر ضروری برای مجموعه دستورالعمل‌ها کمک کرد.

با این حال، پیشنهادات پرامپت تولید شده توسط هوش مصنوعی به‌طور مداوم بسیار کوتاه بودند و فاقد جزئیات لازم برای هدایت ایجاد یک مقاله جامع بودند. کار واقعی در گرفتن این سرنخ‌های اولیه ارائه شده توسط هوش مصنوعی و بسط دادن آنها، جاسازی دانش عمیق دامنه در مورد ساختار، لحن، سبک و ملاحظات اخلاقی روزنامه‌نگاری نهفته بود.

چندین درس غیر شهودی پدیدار شد:

  • وضوح بر ظرافت: به‌طور شگفت‌انگیزی، نوشتن پرامپت به سبکی طبیعی‌تر و روان‌تر اغلب درک هوش مصنوعی را کاهش می‌داد. مدل‌ها با ابهام، به‌ویژه ضمایر (‘او’، ‘آن’، ‘این’) مشکل داشتند. مؤثرترین رویکرد شامل قربانی کردن خوانایی انسانی برای دقت ماشینی بود، با تکرار صریح فاعل‌ها (‘مقاله باید…’، ‘لحن مقاله باید…’، ‘مقدمه مقاله نیاز دارد…’) برای جلوگیری از هرگونه سوءتعبیر احتمالی.
  • ماهیت گریزان خلاقیت: علی‌رغم طراحی دقیق پرامپت با هدف ایجاد انعطاف‌پذیری، مقالات تولید شده توسط هوش مصنوعی به‌طور مداوم یک ‘شباهت خانوادگی’ داشتند. ثبت گستره خلاقیت انسانی و تنوع سبکی در یک پرامپت واحد، یا حتی چندین پرامپت رقیب، به‌طور استثنایی دشوار بود. به نظر می‌رسید تنوع واقعی نیازمند تغییرات بنیادی‌تری است که صرفاً با تنظیم پرامپت قابل دستیابی نیست.

مهندسی پرامپت یک کار یک‌باره نیست، بلکه یک فرآیند تکراری پالایش، آزمایش و گنجاندن منطق تجاری خاص و ظرایف سبکی است. این امر نیازمند ترکیبی از درک فنی و تخصص عمیق در موضوع مورد نظر است.

تغییر بار کاری: باز کردن پارادوکس هوش مصنوعی

آزمایش‌ها در نهایت به یک درک حیاتی منجر شدند که پارادوکس هوش مصنوعی نامیده می‌شود: در وضعیت فعلی، برای اینکه هوش مصنوعی به‌طور بالقوه مقداری از بار کاری کاربر را کاهش دهد (نوشتن پیش‌نویس مقاله)، کاربر اغلب باید کار مقدماتی بیشتری سرمایه‌گذاری کند.

مسئله اصلی ناتوانی هوش مصنوعی در سنجش قابل اعتماد ارتباط در متن خام مصاحبه باقی ماند. برای تولید یک مقاله مرتبط، صرفاً دادن کل متن مصاحبه کافی نبود. یک مرحله میانی ضروری پدیدار شد: پیش‌پردازش دستی متن مصاحبه. این شامل موارد زیر بود:

  1. حذف صحبت‌های نامربوط، حاشیه‌روی‌ها و موارد تکراری.
  2. افزودن بالقوه یادداشت‌های زمینه‌ای (حتی اگر برای مقاله نهایی در نظر گرفته نشده باشند) برای هدایت درک هوش مصنوعی.
  3. انتخاب دقیق و شاید مرتب‌سازی مجدد بخش‌های کلیدی.

این ‘سرپرستی’ متن مصاحبه به زمان و قضاوت انسانی قابل توجهی نیاز دارد. زمان صرفه‌جویی شده با داشتن هوش مصنوعی برای تولید پیش‌نویس اول، عملاً با وظیفه جدید آماده‌سازی دقیق داده‌های ورودی آن جبران شد یا حتی از آن فراتر رفت. بار کاری ناپدید نشد؛ صرفاً از نوشتن مستقیم به آماده‌سازی داده‌ها و پالایش پرامپت منتقل شد.

علاوه بر این، پرامپت دقیق ۱۵۰۰ توکنی بسیار خاص یک نوع مقاله بود (مثلاً مصاحبه‌ای درباره عرضه یک محصول). پوشش دادن طیف متنوعی از قالب‌های مقاله‌ای که یک روزنامه‌نگار روزانه تولید می‌کند – پروفایل استارت‌آپ‌ها، تحلیل‌های استراتژیک، پوشش رویدادها، تحقیقات چند منبعی – نیازمند توسعه، آزمایش و نگهداری یک پرامپت جداگانه و به همان اندازه دقیق برای هر مورد استفاده است. این نشان‌دهنده یک سرمایه‌گذاری مهندسی اولیه و مداوم قابل توجه است.

بدتر از آن، این آزمایش‌های گسترده که بیش از شش ماه به طول انجامید، تنها سطح موضوع را خراشیدند. آنها بر ساده‌ترین سناریو تمرکز داشتند: تولید مقاله از یک مصاحبه واحد، که اغلب در محیط‌های کنترل‌شده مانند کنفرانس‌های مطبوعاتی انجام می‌شود که در آن نکات مصاحبه‌شونده تا حدودی ساختار یافته است. وظایف بسیار پیچیده‌تر، اما رایج، یعنی ترکیب اطلاعات از چندین مصاحبه، گنجاندن تحقیقات پیش‌زمینه، یا مدیریت مکالمات کمتر ساختار یافته، به دلیل سرمایه‌گذاری زمانی مورد نیاز حتی برای مورد پایه، ناشناخته باقی ماندند.

بنابراین، در حالی که اجرای LLMها به‌صورت محلی از نظر فنی امکان‌پذیر است و مزایایی از نظر هزینه و حریم خصوصی داده‌ها ارائه می‌دهد، این تصور که به‌راحتی باعث صرفه‌جویی در زمان یا تلاش برای کارهای دانش‌محور پیچیده مانند روزنامه‌نگاری می‌شود، بر اساس این تحقیق، در حال حاضر توهمی بیش نیست. تلاش مورد نیاز صرفاً تغییر شکل می‌دهد و به سمت بالادست، به آماده‌سازی داده‌ها و مهندسی پرامپت بسیار خاص منتقل می‌شود. در مورد این چالش‌های خاص – تشخیص ارتباط، نیاز به پیش‌پردازش گسترده – هوش مصنوعی اجرا شده به‌صورت محلی عملکردی قابل مقایسه با خدمات آنلاین پولی داشت، که نشان می‌دهد اینها محدودیت‌های اساسی نسل فعلی LLMها، صرف‌نظر از روش استقرار هستند. مسیر رسیدن به کمک واقعاً یکپارچه هوش مصنوعی در چنین حوزه‌هایی همچنان پیچیده است و نیازمند تکامل بیشتر هم در قابلیت‌های هوش مصنوعی و هم در روش‌های تعامل ما با آنها است.