آواز دلفریب هوش مصنوعی بلندتر میشود و نوید کارایی و تحول در صنایع مختلف را میدهد. یک چشمانداز بهویژه وسوسهانگیز، اجرای مدلهای قدرتمند هوش مصنوعی مستقیماً روی رایانههای شخصی است که وابستگی به ابر، هزینههای اشتراک و نگرانیهای مربوط به حریم خصوصی دادهها را دور میزند. غولهایی مانند Google، Meta و Mistral AI مدلهای زبان بزرگ (LLM) پیچیدهای را بهصورت رایگان برای دانلود در دسترس قرار دادهاند. اما آیا این دسترسی به کاربرد عملی تبدیل میشود؟ آیا این ذهنهای دیجیتال که به سیلیکون یک دسکتاپ یا لپتاپ محدود شدهاند، واقعاً میتوانند گردشهای کاری پیچیدهای مانند نوشتن روزنامهنگاری را تقویت کنند؟ این گزارش جزئیات یک آزمایش گسترده را شرح میدهد که دقیقاً برای پاسخ به این سؤال طراحی شده است.
آمادهسازی صحنه: آزمایش هوش مصنوعی محلی
طی چندین ماه، تلاشی اختصاصی برای ارزیابی عملکرد واقعی LLMهای مختلف قابل دانلود رایگان که کاملاً روی سختافزار محلی کار میکنند، انجام شد. فهرست مدلهای مورد بررسی متنوع بود و چشمانداز بهسرعت در حال تحول هوش مصنوعی منبعباز را منعکس میکرد:
- Google Gemma (بهویژه نسخه 3)
- Meta Llama (نسخه 3.3)
- Anthropic Claude (نسخه 3.7 Sonnet – اگرچه معمولاً مبتنی بر ابر است، گنجاندن آن نشاندهنده آزمایش گسترده است)
- تکرارهای متعدد از Mistral AI (شامل Mistral، Mistral Small 3.1، Mistral Nemo و Mixtral)
- IBM Granite (نسخه 3.2)
- Alibaba Qwen (نسخه 2.5)
- DeepSeek R1 (یک لایه استدلال که اغلب روی نسخههای تقطیر شده Qwen یا Llama اعمال میشود)
هدف اصلی بلندپروازانه و در عین حال عملی بود: تعیین اینکه آیا این هوشهای مصنوعی اجرا شده بهصورت محلی میتوانند متن خام مصاحبهها را به مقالات صیقلی و قابل انتشار تبدیل کنند یا خیر. این شامل ارزیابی نه تنها امکانسنجی فنی – آیا سختافزار میتواند بار را تحمل کند؟ – بلکه خروجی کیفی – آیا متن حاصل قابل استفاده بود؟ – نیز میشد. مهم است که از همان ابتدا بیان کنیم که دستیابی به یک مقاله کاملاً خودکار و آماده انتشار، دستنیافتنی بود. هدف اصلی به سمت درک قابلیتها و محدودیتهای واقعی هوش مصنوعی فعلی روی دستگاه از طریق این مورد استفاده خاص و طاقتفرسا تغییر یافت.
روششناسی انتخابشده حول یک پرامپت (دستورالعمل) قابل توجه متمرکز بود. این شامل تقریباً ۱۵۰۰ توکن (حدود ۶۰۰۰ کاراکتر یا دو صفحه کامل متن) بود که ساختار، سبک و لحن مقاله مورد نظر را بهدقت مشخص میکرد. به این مجموعه دستورالعمل، متن خود مصاحبه اضافه شد که بهطور متوسط حدود ۱۱۰۰۰ توکن برای یک مکالمه معمولی ۴۵ دقیقهای بود. اندازه عظیم این ورودی ترکیبی (اغلب بیش از ۱۲۵۰۰ توکن) معمولاً از محدودیتهای استفاده رایگان بسیاری از پلتفرمهای هوش مصنوعی آنلاین فراتر میرود. این محدودیت، منطق کاوش در استقرار محلی را تأکید میکرد، جایی که پردازش بدون توجه به اندازه ورودی رایگان باقی میماند و فقط توسط قابلیتهای دستگاه محدود میشود.
اجرای این آزمایشها شامل استفاده از LM Studio بود، یک نرمافزار محبوب جامعه که یک رابط کاربری شبیه به چتبات برای تعامل با LLMهای در حال اجرا بهصورت محلی فراهم میکند. LM Studio بهراحتی توابع دانلود نسخههای مختلف مدل را ادغام میکند، اگرچه منبع اصلی این مدلهای رایگان موجود، مخزن Hugging Face است، یک مرکز اصلی برای جامعه هوش مصنوعی.
پیمایش در هزارتوی فنی: سختافزار، حافظه و اندازه مدل
سفر به پردازش هوش مصنوعی محلی بهسرعت تعامل پیچیدهای بین نرمافزار و سختافزار را آشکار کرد. کیفیت و سرعت خروجی هوش مصنوعی بهطور تنگاتنگی با منابع موجود در دستگاه آزمایش – یک Mac مجهز به سیستم-روی-چیپ (SoC) Apple Silicon M1 Max و ۶۴ گیگابایت RAM سخاوتمندانه – گره خورده بود. نکته حیاتی این است که این معماری دارای معماری حافظه یکپارچه (UMA) است که به ۴۸ گیگابایت RAM اجازه میدهد بهصورت پویا بین هستههای پردازنده (CPU)، هستههای گرافیکی (GPU – برای شتابدهی برداری استفاده میشود) و هستههای واحد پردازش عصبی (NPU – برای شتابدهی ماتریسی استفاده میشود) به اشتراک گذاشته شود.
چندین عامل فنی کلیدی بهعنوان عوامل تعیینکننده ظاهر شدند:
- پارامترهای مدل: LLMها اغلب با تعداد پارامترهایشان (معمولاً میلیاردها) اندازهگیری میشوند. مدلهای بزرگتر عموماً دانش و ظرافت بیشتری دارند. با این حال، به حافظه بسیار بیشتری نیاز دارند.
- کوانتیزاسیون (Quantization): این به دقتی اشاره دارد که برای ذخیره پارامترهای مدل استفاده میشود (مثلاً ۸ بیتی، ۴ بیتی، ۳ بیتی). دقت بیت پایینتر بهطور چشمگیری ردپای حافظه را کاهش میدهد و سرعت پردازش را افزایش میدهد، اما اغلب به قیمت دقت و کیفیت خروجی (ایجاد خطا، تکرار یا زبان بیمعنی).
- پنجره زمینه (Context Window): این حداکثر مقدار اطلاعاتی (پرامپت + داده ورودی) را که هوش مصنوعی میتواند در یک زمان در نظر بگیرد، تعریف میکند که با توکن اندازهگیری میشود. اندازه پنجره مورد نیاز توسط وظیفه تعیین میشود؛ در این مورد، پرامپت بزرگ و متن مصاحبه، پنجره قابل توجهی را ضروری میکرد.
- RAM موجود: مقدار حافظه مستقیماً محدود میکند که کدام مدلها (و در چه سطح کوانتیزاسیون) میتوانند بهطور مؤثر بارگیری و اجرا شوند.
نقطه بهینه، که بهترین تعادل بین کیفیت و امکانسنجی را در دستگاه آزمایش در زمان ارزیابی فراهم میکرد، با استفاده از مدل Gemma گوگل با ۲۷ میلیارد پارامتر، کوانتیزه شده به ۸ بیت (نسخه ‘27B Q8_0’) به دست آمد. این پیکربندی در یک پنجره زمینه ۳۲۰۰۰ توکنی عمل میکرد و بهراحتی ورودی تقریباً ۱۵۰۰۰ توکنی (دستورالعملها + متن مصاحبه) را مدیریت میکرد. این روی سختافزار Mac مشخص شده اجرا میشد و از ۴۸ گیگابایت حافظه مشترک استفاده میکرد.
تحت این شرایط بهینه، سرعت پردازش ۶.۸۲ توکن در ثانیه اندازهگیری شد. اگرچه کاربردی است، اما این به هیچ وجه آنی نیست. بهبود سرعت بدون قربانی کردن کیفیت خروجی عمدتاً به سختافزار سریعتر بستگی دارد – بهویژه، SoCهایی با سرعت کلاک بالاتر (GHz) یا تعداد بیشتری هسته پردازشی (CPU، GPU، NPU).
تلاش برای بارگیری مدلهایی با پارامترهای بسیار بیشتر (مثلاً ۳۲ میلیارد، ۷۰ میلیارد) بهسرعت به سقف حافظه برخورد کرد. این مدلهای بزرگتر یا بهطور کامل بارگیری نشدند یا خروجی بهشدت کوتاه شده و غیرقابل استفاده تولید کردند (مانند یک پاراگراف به جای یک مقاله کامل). برعکس، استفاده از مدلهایی با پارامترهای کمتر، ضمن آزاد کردن حافظه، منجر به کاهش قابل توجه کیفیت نوشتاری شد که با تکرار و ایدههای ضعیف بیان شده مشخص میشد. بهطور مشابه، استفاده از کوانتیزاسیون تهاجمیتر (کاهش پارامترها به ۳، ۴، ۵ یا ۶ بیت) سرعت را افزایش داد اما خروجی را بهشدت تخریب کرد و اشتباهات گرامری و حتی کلمات ساختگی را معرفی کرد.
اندازه پنجره زمینه مورد نیاز، که توسط دادههای ورودی تعیین میشود، اساساً برای این وظیفه غیرقابل مذاکره است. اگر دادههای ورودی به پنجرهای نیاز داشته باشند که همراه با اندازه مدل و کوانتیزاسیون انتخاب شده، از RAM موجود فراتر رود، تنها راه چاره انتخاب یک مدل کوچکتر است که بهناچار کیفیت بالقوه نتیجه نهایی را برای ماندن در محدودیتهای حافظه به خطر میاندازد.
جستجو برای کیفیت: وقتی ساختار با محتوا (یا فقدان آن) روبرو میشود
آیا هوش مصنوعی اجرا شده بهصورت محلی در تولید مقالات قابل استفاده موفق بود؟ بله و خیر. متون تولید شده اغلب ساختار شگفتآور خوبی از خود نشان میدادند. آنها عموماً به قالب درخواستی پایبند بودند و شامل موارد زیر بودند:
- یک زاویه یا تمرکز قابل تشخیص.
- جریانی منسجم از طریق بخشهای موضوعی.
- نقلقولهای مناسب از متن مصاحبه.
- عناوین جذاب و جملات پایانی.
با این حال، یک نقص حیاتی بهطور مداوم در تمام LLMهای آزمایش شده، از جمله مواردی مانند DeepSeek R1 که بهطور خاص برای استدلال پیشرفته طراحی شدهاند، ظاهر شد: ناتوانی اساسی در تشخیص و اولویتبندی صحیح ارتباط اطلاعات در مصاحبه. مدلهای هوش مصنوعی بهطور مداوم اصل مطلب مکالمه را از دست میدادند و بر نکات فرعی یا جزئیات حاشیهای تمرکز میکردند.
نتیجه اغلب مقالاتی بود که از نظر گرامری صحیح و بهخوبی سازماندهی شده بودند، اما در نهایت سطحی و غیرجالب بودند. در برخی موارد، هوش مصنوعی بخشهای قابل توجه و با استدلال خوب را به بیان بدیهیات اختصاص میداد – برای مثال، بهطور مفصل توضیح میداد که شرکت مصاحبهشونده در بازاری با رقبا فعالیت میکند. این امر شکاف بین شایستگی زبانی (تشکیل جملات منسجم) و درک واقعی (درک اهمیت و زمینه) را برجسته کرد.
علاوه بر این، خروجی سبکی بین مدلها بهطور قابل توجهی متفاوت بود:
- Meta’s Llama 3.x: در زمان آزمایش، جملاتی تولید میکرد که اغلب پیچیده و دشوار برای تجزیه بودند.
- Mistral Models & Gemma: تمایلی به سبک ‘زبان بازاریابی’ نشان دادند، با استفاده از صفتهای پرشور و قاببندی مثبت اما فاقد محتوای مشخص و جزئیات خاص.
- Alibaba’s Qwen: بهطور شگفتانگیزی، در محدودیتهای تنظیمات آزمایش، این مدل چینی برخی از زیباترین نثرها را به زبان فرانسوی (زبان تیم ارزیابی اصلی) تولید کرد.
- Mixtral 8x7B: در ابتدا، این مدل ‘ترکیبی از متخصصان’ (ترکیب هشت مدل کوچکتر و تخصصی ۷ میلیارد پارامتری) امیدوارکننده بود. با این حال، جا دادن آن در محدودیت حافظه ۴۸ گیگابایتی نیاز به کوانتیزاسیون تهاجمی ۳ بیتی داشت که منجر به خطاهای نحوی قابل توجهی شد. یک نسخه کوانتیزه شده ۴ بیتی (‘Q4_K_M’) در ابتدا سازش بهتری ارائه داد، اما بهروزرسانیهای بعدی نرمافزار LM Studio ردپای حافظه آن را افزایش داد و باعث شد این پیکربندی نیز نتایج کوتاه شده تولید کند.
- Mistral Small 3.1: یک مدل جدیدتر با ۲۴ میلیارد پارامتر در کوانتیزاسیون ۸ بیتی بهعنوان یک رقیب قوی ظاهر شد. کیفیت خروجی آن به مدل Gemma 27B نزدیک شد و مزیت سرعت کمی را ارائه داد و با سرعت ۸.۶۵ توکن در ثانیه پردازش میکرد.
این تنوع تأکید میکند که انتخاب یک LLM فقط مربوط به اندازه یا سرعت نیست؛ دادههای آموزشی زیربنایی و معماری بهطور قابل توجهی بر سبک نوشتاری و سوگیریهای بالقوه آن تأثیر میگذارند.
معماری سختافزار: قهرمان گمنام هوش مصنوعی محلی
آزمایشها نوری بر یک عامل حیاتی و اغلب نادیده گرفته شده افکندند: معماری سختافزار زیربنایی، بهویژه نحوه دسترسی به حافظه. عملکرد برتر مشاهده شده در Apple Silicon Mac صرفاً به دلیل مقدار RAM نبود، بلکه بهطور حیاتی به معماری حافظه یکپارچه (UMA) آن وابسته بود.
در یک سیستم UMA، هستههای CPU، GPU و NPU همگی از یک استخر RAM فیزیکی مشترک استفاده میکنند و میتوانند بهطور همزمان به دادهها در همان آدرسهای حافظه دسترسی داشته باشند. این امر نیاز به کپی کردن دادهها بین استخرهای حافظه جداگانه اختصاص داده شده به پردازندههای مختلف (مثلاً RAM سیستم برای CPU و VRAM اختصاصی برای یک کارت گرافیک مجزا) را از بین میبرد.
چرا این برای LLMها اینقدر مهم است؟
- کارایی: پردازش LLM شامل محاسبات شدید در انواع مختلف هستهها است. UMA امکان اشتراکگذاری یکپارچه دادهها را فراهم میکند و تأخیر و سربار مرتبط با تکرار و انتقال دادهها را کاهش میدهد.
- استفاده از حافظه: در سیستمهای بدون UMA (مانند یک PC معمولی با GPU مجزا)، ممکن است لازم باشد همان دادهها هم در RAM اصلی سیستم (برای CPU) و هم در VRAM GPU بارگیری شوند. این امر بهطور مؤثر حافظه قابل استفاده برای خود LLM را کاهش میدهد.
پیامد عملی قابل توجه است. در حالی که Mac آزمایشی میتوانست بهراحتی یک مدل ۲۷ میلیارد پارامتری کوانتیزه شده ۸ بیتی را با استفاده از ۴۸ گیگابایت RAM UMA مشترک اجرا کند، دستیابی به عملکرد مشابه در یک PC بدون UMA ممکن است به RAM کل بهطور قابل توجهی بیشتری نیاز داشته باشد. برای مثال، یک PC با ۴۸ گیگابایت RAM کل که به ۲۴ گیگابایت برای CPU و ۲۴ گیگابایت برای GPU تقسیم شده است، ممکن است فقط قادر به اجرای مؤثر یک مدل بسیار کوچکتر ۱۳ میلیارد پارامتری باشد، به دلیل تقسیمبندی حافظه و سربار تکرار دادهها.
این مزیت معماری، پیشتازی اولیه Macها با تراشههای Apple Silicon در فضای هوش مصنوعی محلی را توضیح میدهد. با تشخیص این موضوع، رقبایی مانند AMD محدوده SoC Ryzen AI Max خود را (که انتظار میرود در اوایل سال ۲۰۲۵ عرضه شود) اعلام کردند که برای گنجاندن رویکرد حافظه یکپارچه مشابهی طراحی شده است. در زمان انجام این آزمایشها، SoCهای Core Ultra اینتل، در حالی که CPU، GPU و NPU را ادغام میکردند، از همان سطح دسترسی کاملاً یکپارچه حافظه در تمام انواع هستهها برخوردار نبودند. این تمایز سختافزاری یک ملاحظه حیاتی برای هر کسی است که بهطور جدی به اجرای LLMهای بزرگتر و توانمندتر بهصورت محلی فکر میکند.
رقص پیچیده مهندسی پرامپت
وادار کردن هوش مصنوعی به انجام یک کار پیچیده مانند تبدیل مصاحبه به مقاله، به چیزی بیش از سختافزار قدرتمند و یک مدل توانا نیاز دارد؛ این امر مستلزم دستورالعملهای پیچیده است – هنر و علم مهندسی پرامپت (Prompt Engineering). ساخت پرامپت اولیه ۱۵۰۰ توکنی که هوش مصنوعی را هدایت میکرد، یک کار قابل توجه بود.
یک نقطه شروع مفید شامل مهندسی معکوس بود: دادن یک مقاله تکمیل شده و نوشته شده توسط انسان به همراه متن مصاحبه مربوطه به هوش مصنوعی و پرسیدن اینکه چه پرامپتی باید داده میشد تا به آن نتیجه دست یابد. تجزیه و تحلیل پیشنهادات هوش مصنوعی در چندین مثال متنوع به شناسایی عناصر ضروری برای مجموعه دستورالعملها کمک کرد.
با این حال، پیشنهادات پرامپت تولید شده توسط هوش مصنوعی بهطور مداوم بسیار کوتاه بودند و فاقد جزئیات لازم برای هدایت ایجاد یک مقاله جامع بودند. کار واقعی در گرفتن این سرنخهای اولیه ارائه شده توسط هوش مصنوعی و بسط دادن آنها، جاسازی دانش عمیق دامنه در مورد ساختار، لحن، سبک و ملاحظات اخلاقی روزنامهنگاری نهفته بود.
چندین درس غیر شهودی پدیدار شد:
- وضوح بر ظرافت: بهطور شگفتانگیزی، نوشتن پرامپت به سبکی طبیعیتر و روانتر اغلب درک هوش مصنوعی را کاهش میداد. مدلها با ابهام، بهویژه ضمایر (‘او’، ‘آن’، ‘این’) مشکل داشتند. مؤثرترین رویکرد شامل قربانی کردن خوانایی انسانی برای دقت ماشینی بود، با تکرار صریح فاعلها (‘مقاله باید…’، ‘لحن مقاله باید…’، ‘مقدمه مقاله نیاز دارد…’) برای جلوگیری از هرگونه سوءتعبیر احتمالی.
- ماهیت گریزان خلاقیت: علیرغم طراحی دقیق پرامپت با هدف ایجاد انعطافپذیری، مقالات تولید شده توسط هوش مصنوعی بهطور مداوم یک ‘شباهت خانوادگی’ داشتند. ثبت گستره خلاقیت انسانی و تنوع سبکی در یک پرامپت واحد، یا حتی چندین پرامپت رقیب، بهطور استثنایی دشوار بود. به نظر میرسید تنوع واقعی نیازمند تغییرات بنیادیتری است که صرفاً با تنظیم پرامپت قابل دستیابی نیست.
مهندسی پرامپت یک کار یکباره نیست، بلکه یک فرآیند تکراری پالایش، آزمایش و گنجاندن منطق تجاری خاص و ظرایف سبکی است. این امر نیازمند ترکیبی از درک فنی و تخصص عمیق در موضوع مورد نظر است.
تغییر بار کاری: باز کردن پارادوکس هوش مصنوعی
آزمایشها در نهایت به یک درک حیاتی منجر شدند که پارادوکس هوش مصنوعی نامیده میشود: در وضعیت فعلی، برای اینکه هوش مصنوعی بهطور بالقوه مقداری از بار کاری کاربر را کاهش دهد (نوشتن پیشنویس مقاله)، کاربر اغلب باید کار مقدماتی بیشتری سرمایهگذاری کند.
مسئله اصلی ناتوانی هوش مصنوعی در سنجش قابل اعتماد ارتباط در متن خام مصاحبه باقی ماند. برای تولید یک مقاله مرتبط، صرفاً دادن کل متن مصاحبه کافی نبود. یک مرحله میانی ضروری پدیدار شد: پیشپردازش دستی متن مصاحبه. این شامل موارد زیر بود:
- حذف صحبتهای نامربوط، حاشیهرویها و موارد تکراری.
- افزودن بالقوه یادداشتهای زمینهای (حتی اگر برای مقاله نهایی در نظر گرفته نشده باشند) برای هدایت درک هوش مصنوعی.
- انتخاب دقیق و شاید مرتبسازی مجدد بخشهای کلیدی.
این ‘سرپرستی’ متن مصاحبه به زمان و قضاوت انسانی قابل توجهی نیاز دارد. زمان صرفهجویی شده با داشتن هوش مصنوعی برای تولید پیشنویس اول، عملاً با وظیفه جدید آمادهسازی دقیق دادههای ورودی آن جبران شد یا حتی از آن فراتر رفت. بار کاری ناپدید نشد؛ صرفاً از نوشتن مستقیم به آمادهسازی دادهها و پالایش پرامپت منتقل شد.
علاوه بر این، پرامپت دقیق ۱۵۰۰ توکنی بسیار خاص یک نوع مقاله بود (مثلاً مصاحبهای درباره عرضه یک محصول). پوشش دادن طیف متنوعی از قالبهای مقالهای که یک روزنامهنگار روزانه تولید میکند – پروفایل استارتآپها، تحلیلهای استراتژیک، پوشش رویدادها، تحقیقات چند منبعی – نیازمند توسعه، آزمایش و نگهداری یک پرامپت جداگانه و به همان اندازه دقیق برای هر مورد استفاده است. این نشاندهنده یک سرمایهگذاری مهندسی اولیه و مداوم قابل توجه است.
بدتر از آن، این آزمایشهای گسترده که بیش از شش ماه به طول انجامید، تنها سطح موضوع را خراشیدند. آنها بر سادهترین سناریو تمرکز داشتند: تولید مقاله از یک مصاحبه واحد، که اغلب در محیطهای کنترلشده مانند کنفرانسهای مطبوعاتی انجام میشود که در آن نکات مصاحبهشونده تا حدودی ساختار یافته است. وظایف بسیار پیچیدهتر، اما رایج، یعنی ترکیب اطلاعات از چندین مصاحبه، گنجاندن تحقیقات پیشزمینه، یا مدیریت مکالمات کمتر ساختار یافته، به دلیل سرمایهگذاری زمانی مورد نیاز حتی برای مورد پایه، ناشناخته باقی ماندند.
بنابراین، در حالی که اجرای LLMها بهصورت محلی از نظر فنی امکانپذیر است و مزایایی از نظر هزینه و حریم خصوصی دادهها ارائه میدهد، این تصور که بهراحتی باعث صرفهجویی در زمان یا تلاش برای کارهای دانشمحور پیچیده مانند روزنامهنگاری میشود، بر اساس این تحقیق، در حال حاضر توهمی بیش نیست. تلاش مورد نیاز صرفاً تغییر شکل میدهد و به سمت بالادست، به آمادهسازی دادهها و مهندسی پرامپت بسیار خاص منتقل میشود. در مورد این چالشهای خاص – تشخیص ارتباط، نیاز به پیشپردازش گسترده – هوش مصنوعی اجرا شده بهصورت محلی عملکردی قابل مقایسه با خدمات آنلاین پولی داشت، که نشان میدهد اینها محدودیتهای اساسی نسل فعلی LLMها، صرفنظر از روش استقرار هستند. مسیر رسیدن به کمک واقعاً یکپارچه هوش مصنوعی در چنین حوزههایی همچنان پیچیده است و نیازمند تکامل بیشتر هم در قابلیتهای هوش مصنوعی و هم در روشهای تعامل ما با آنها است.