ترويض العقل السيليكوني: استكشاف الذكاء الاصطناعي على الأجهزة للمهام الصحفية

تزداد جاذبية الذكاء الاصطناعي قوة، واعدة بالكفاءة والتحول عبر الصناعات. ومن الآفاق المغرية بشكل خاص تشغيل نماذج الذكاء الاصطناعي القوية مباشرة على أجهزة الكمبيوتر الشخصية، متجاوزة الاعتماد على السحابة ورسوم الاشتراك ومخاوف خصوصية البيانات. لقد أتاحت شركات عملاقة مثل Google و Meta و Mistral AI نماذج لغوية كبيرة (LLMs) متطورة للتنزيل مجانًا. ولكن هل تترجم إمكانية الوصول هذه إلى فائدة عملية؟ هل يمكن لهذه العقول الرقمية، المحصورة في سيليكون جهاز كمبيوتر مكتبي أو محمول، أن تعزز حقًا سير العمل المعقد مثل الكتابة الصحفية؟ يوضح هذا التقرير تجربة واسعة النطاق مصممة للإجابة على هذا السؤال بالتحديد.

تهيئة المسرح: تجربة الذكاء الاصطناعي المحلي

على مدى عدة أشهر، تم بذل جهد مخصص لتقييم الأداء الواقعي لمختلف نماذج LLMs القابلة للتنزيل مجانًا والتي تعمل بالكامل على الأجهزة المحلية. كانت قائمة النماذج قيد الفحص متنوعة، مما يعكس المشهد سريع التطور للذكاء الاصطناعي مفتوح المصدر:

  • Google Gemma (تحديدًا الإصدار 3)
  • Meta Llama (الإصدار 3.3)
  • Anthropic Claude (الإصدار 3.7 Sonnet – على الرغم من أنه يعتمد عادةً على السحابة، إلا أن إدراجه يشير إلى اختبار واسع النطاق)
  • تكرارات متعددة من Mistral AI (بما في ذلك Mistral و Mistral Small 3.1 و Mistral Nemo و Mixtral)
  • IBM Granite (الإصدار 3.2)
  • Alibaba Qwen (الإصدار 2.5)
  • DeepSeek R1 (طبقة استدلال تُطبق غالبًا على إصدارات مقطرة من Qwen أو Llama)

كان الهدف الأساسي طموحًا ولكنه عملي: تحديد ما إذا كانت هذه الذكاءات الاصطناعية التي تعمل محليًا يمكنها تحويل نصوص المقابلات الأولية إلى مقالات مصقولة وقابلة للنشر. تضمن ذلك تقييم ليس فقط الجدوى الفنية - هل يمكن للأجهزة التعامل مع الحمل؟ - ولكن أيضًا المخرجات النوعية - هل كان النص الناتج قابلاً للاستخدام؟ من الأهمية بمكان أن نذكر مقدمًا أن تحقيق مقال آلي بالكامل وجاهز للنشر أثبت أنه بعيد المنال. تحول الهدف الأساسي نحو فهم القدرات والقيود الحقيقية للذكاء الاصطناعي الحالي على الجهاز من خلال حالة الاستخدام المحددة والمتطلبة هذه.

تركزت المنهجية المختارة حول موجه أوامر (prompt) كبير. تضمن هذا حوالي 1500 رمز مميز (token) (ما يقرب من 6000 حرف أو صفحتين كاملتين من النص) تحدد بدقة بنية المقالة المطلوبة وأسلوبها ونبرتها. أُضيف إلى مجموعة التعليمات هذه نص المقابلة نفسه، بمتوسط حوالي 11000 رمز مميز لمحادثة نموذجية مدتها 45 دقيقة. الحجم الهائل لهذا الإدخال المجمع (غالبًا ما يتجاوز 12500 رمز مميز) يتجاوز عادةً حدود الاستخدام المجاني للعديد من منصات الذكاء الاصطناعي عبر الإنترنت. أكد هذا القيد الأساس المنطقي لاستكشاف النشر المحلي، حيث تظل المعالجة مجانية بغض النظر عن حجم الإدخال، وتقتصر فقط على إمكانيات الجهاز.

تضمن تنفيذ هذه الاختبارات استخدام LM Studio، وهو برنامج مجتمعي شائع يوفر واجهة سهلة الاستخدام تشبه برامج الدردشة للتفاعل مع نماذج LLMs التي تعمل محليًا. يدمج LM Studio بشكل ملائم وظائف لتنزيل إصدارات نماذج مختلفة، على الرغم من أن المصدر الأساسي لهذه النماذج المتاحة مجانًا يظل مستودع Hugging Face، وهو مركز رئيسي لمجتمع الذكاء الاصطناعي.

الإبحار في المتاهة التقنية: الأجهزة والذاكرة وحجم النموذج

كشفت الرحلة إلى معالجة الذكاء الاصطناعي المحلي بسرعة عن تفاعل معقد بين البرامج والأجهزة. ارتبطت جودة وسرعة مخرجات الذكاء الاصطناعي ارتباطًا وثيقًا بالموارد المتاحة على جهاز الاختبار - وهو جهاز Mac مزود بنظام Apple Silicon M1 Max على شريحة (SoC) وذاكرة وصول عشوائي (RAM) سخية تبلغ 64 جيجابايت. بشكل حاسم، تتميز هذه البنية ببنية الذاكرة الموحدة (Unified Memory Architecture - UMA)، مما يسمح بمشاركة 48 جيجابايت من ذاكرة الوصول العشوائي ديناميكيًا بين نوى المعالج (CPU) ونوى الرسومات (GPU - المستخدمة لتسريع المتجهات) ونوى وحدة المعالجة العصبية (NPU - المستخدمة لتسريع المصفوفات).

برزت عدة عوامل تقنية رئيسية على أنها حاسمة:

  1. معلمات النموذج (Model Parameters): غالبًا ما تُقاس نماذج LLMs بعدد معلماتها (بالمليارات عادةً). تمتلك النماذج الأكبر عمومًا معرفة وفروق دقيقة أكبر. ومع ذلك، فإنها تتطلب ذاكرة أكبر بكثير.
  2. التكميم (Quantization): يشير هذا إلى الدقة المستخدمة لتخزين معلمات النموذج (على سبيل المثال، 8 بت، 4 بت، 3 بت). تقلل دقة البت المنخفضة بشكل كبير من استهلاك الذاكرة وتزيد من سرعة المعالجة، ولكن غالبًا على حساب الدقة وجودة المخرجات (مما يؤدي إلى حدوث أخطاء أو تكرار أو لغة غير منطقية).
  3. نافذة السياق (Context Window): تحدد هذه الحد الأقصى للمعلومات (موجه الأوامر + بيانات الإدخال) التي يمكن للذكاء الاصطناعي أخذها في الاعتبار مرة واحدة، مقاسة بالرموز المميزة. يتم تحديد حجم النافذة المطلوب بواسطة المهمة؛ في هذه الحالة، استلزم موجه الأوامر الكبير والنص نافذة كبيرة.
  4. ذاكرة الوصول العشوائي المتاحة (Available RAM): يحد مقدار الذاكرة بشكل مباشر من النماذج (وعند أي مستوى تكميم) التي يمكن تحميلها وتشغيلها بفعالية.

تم تحقيق النقطة المثلى، التي توفر أفضل توازن بين الجودة والجدوى على جهاز الاختبار في وقت التقييم، باستخدام نموذج Gemma من Google مع 27 مليار معلمة، مكمم إلى 8 بت (الإصدار “27B Q8_0”). عمل هذا التكوين ضمن نافذة سياق تبلغ 32000 رمز مميز، وتعامل بشكل مريح مع الإدخال البالغ حوالي 15000 رمز مميز (التعليمات + النص). تم تشغيله على أجهزة Mac المحددة، باستخدام 48 جيجابايت من الذاكرة المشتركة.

في ظل هذه الظروف المثلى، تم قياس سرعة المعالجة عند 6.82 رمز مميز في الثانية. على الرغم من أنها وظيفية، إلا أنها بعيدة كل البعد عن كونها فورية. تعتمد تحسينات السرعة دون التضحية بجودة المخرجات بشكل أساسي على أجهزة أسرع - وتحديداً، أنظمة SoC ذات سرعات ساعة أعلى (GHz) أو عدد أكبر من نوى المعالجة (CPU، GPU، NPU).

أدت محاولة تحميل نماذج ذات معلمات أكبر بكثير (على سبيل المثال، 32 مليار، 70 مليار) إلى الوصول بسرعة إلى سقف الذاكرة. فشلت هذه النماذج الأكبر إما في التحميل تمامًا أو أنتجت مخرجات مبتورة بشدة وغير قابلة للاستخدام (مثل فقرة واحدة بدلاً من مقال كامل). على العكس من ذلك، أدى استخدام نماذج ذات معلمات أقل، مع تحرير الذاكرة، إلى انخفاض ملحوظ في جودة الكتابة، تميز بالتكرار والأفكار سيئة الصياغة. وبالمثل، أدى استخدام تكميم أكثر قوة (تقليل المعلمات إلى 3 أو 4 أو 5 أو 6 بت) إلى زيادة السرعة ولكنه أدى إلى تدهور شديد في المخرجات، مما أدى إلى أخطاء نحوية وحتى كلمات ملفقة.

حجم نافذة السياق المطلوبة، الذي تحدده بيانات الإدخال، غير قابل للتفاوض بشكل أساسي للمهمة. إذا كانت بيانات الإدخال تتطلب نافذة، جنبًا إلى جنب مع حجم النموذج المختار والتكميم، تتجاوز ذاكرة الوصول العشوائي المتاحة، فإن الملاذ الوحيد هو اختيار نموذج أصغر، مما يؤدي حتمًا إلى المساومة على الجودة المحتملة للنتيجة النهائية للبقاء ضمن حدود الذاكرة.

البحث عن الجودة: عندما تلتقي البنية بالمضمون (أو انعدامه)

هل نجح الذكاء الاصطناعي الذي يعمل محليًا في إنشاء مقالات قابلة للاستخدام؟ نعم ولا. غالبًا ما أظهرت النصوص التي تم إنشاؤها بنية جيدة بشكل مدهش. لقد التزمت بشكل عام بالتنسيق المطلوب، وتضمنت:

  • زاوية أو تركيز واضح.
  • تدفق متماسك عبر أقسام موضوعية.
  • اقتباسات موضوعة بشكل مناسب من النص.
  • عناوين جذابة وجمل ختامية.

ومع ذلك، ظهر عيب حاسم باستمرار عبر جميع نماذج LLMs التي تم اختبارها، بما في ذلك تلك المصممة خصيصًا للاستدلال المعزز مثل DeepSeek R1: عدم قدرة أساسية على تمييز وتحديد أولويات صلة المعلومات داخل المقابلة بشكل صحيح. فات على نماذج الذكاء الاصطناعي باستمرار جوهر المحادثة، وركزت على نقاط ثانوية أو تفاصيل هامشية.

كانت النتيجة في كثير من الأحيان مقالات سليمة نحويًا ومنظمة جيدًا ولكنها في النهاية سطحية وغير مثيرة للاهتمام. في بعض الحالات، كان الذكاء الاصطناعي يخصص فقرات كبيرة ومحاججة جيدًا لذكر البديهيات - على سبيل المثال، الإسهاب مطولاً في أن الشركة التي تمت مقابلتها تعمل في سوق به منافسون. أبرز هذا فجوة بين الكفاءة اللغوية (تكوين جمل متماسكة) والفهم الحقيقي (فهم الأهمية والسياق).

علاوة على ذلك، تباينت المخرجات الأسلوبية بشكل كبير بين النماذج:

  • Meta’s Llama 3.x: في وقت الاختبار، أنتج جملًا كانت غالبًا معقدة وصعبة الفهم.
  • Mistral Models & Gemma: أظهرت ميلًا نحو أسلوب “لغة التسويق”، باستخدام صفات مبالغ فيها وصياغة إيجابية ولكنها تفتقر إلى المضمون الملموس والتفاصيل المحددة.
  • Alibaba’s Qwen: بشكل مفاجئ، ضمن قيود إعداد الاختبار، أنتج هذا النموذج الصيني بعضًا من أكثر النصوص جمالية باللغة الفرنسية (لغة فريق التقييم الأصلي).
  • Mixtral 8x7B: في البداية، أظهر هذا النموذج “مزيج الخبراء” (الذي يجمع بين ثمانية نماذج أصغر متخصصة بحجم 7 مليارات معلمة) واعدًا. ومع ذلك، تطلب تركيبه ضمن قيود الذاكرة البالغة 48 جيجابايت تكميمًا قويًا بمقدار 3 بت، مما أدى إلى أخطاء نحوية كبيرة. قدم إصدار مكمم بمقدار 4 بت (“Q4_K_M”) حلاً وسطًا أفضل في البداية، لكن التحديثات اللاحقة لبرنامج LM Studio زادت من استهلاكه للذاكرة، مما تسبب في إنتاج هذا التكوين أيضًا لنتائج مبتورة.
  • Mistral Small 3.1: برز نموذج أحدث بـ 24 مليار معلمة عند تكميم 8 بت كمنافس قوي. اقتربت جودة مخرجاته من نموذج Gemma 27B، وقدم ميزة طفيفة في السرعة، حيث عالج بسرعة 8.65 رمز مميز في الثانية.

يؤكد هذا التباين أن اختيار LLM لا يتعلق فقط بالحجم أو السرعة؛ تؤثر بيانات التدريب الأساسية والبنية بشكل كبير على أسلوب كتابته وتحيزاته المحتملة.

بنية الأجهزة: البطل المجهول للذكاء الاصطناعي المحلي

ألقت التجارب الضوء على عامل حاسم غالبًا ما يتم تجاهله: بنية الأجهزة الأساسية، وتحديداً كيفية الوصول إلى الذاكرة. لم يكن الأداء المتفوق الملحوظ على جهاز Apple Silicon Mac يرجع فقط إلى مقدار ذاكرة الوصول العشوائي ولكن اعتمد بشكل حاسم على بنية الذاكرة الموحدة (UMA).

في نظام UMA، تشترك نوى CPU و GPU و NPU جميعها في نفس مجموعة ذاكرة الوصول العشوائي الفعلية ويمكنها الوصول إلى البيانات في نفس عناوين الذاكرة في وقت واحد. هذا يلغي الحاجة إلى نسخ البيانات بين مجمعات ذاكرة منفصلة مخصصة لمعالجات مختلفة (على سبيل المثال، ذاكرة الوصول العشوائي للنظام لوحدة المعالجة المركزية وذاكرة VRAM المخصصة لبطاقة رسومات منفصلة).

لماذا هذا مهم جدًا لنماذج LLMs؟

  • الكفاءة: تتضمن معالجة LLM حسابات مكثفة عبر أنواع مختلفة من النوى. تسمح UMA بمشاركة البيانات بسلاسة، مما يقلل من زمن الوصول والنفقات العامة المرتبطة بتكرار البيانات ونقلها.
  • استخدام الذاكرة: في الأنظمة بدون UMA (مثل جهاز كمبيوتر شخصي نموذجي مزود بوحدة معالجة رسومات منفصلة)، قد يلزم تحميل نفس البيانات في كل من ذاكرة الوصول العشوائي الرئيسية للنظام (لوحدة المعالجة المركزية) وذاكرة VRAM الخاصة بوحدة معالجة الرسومات. هذا يقلل بشكل فعال من الذاكرة القابلة للاستخدام لنموذج LLM نفسه.

التأثير العملي كبير. بينما يمكن لجهاز Mac التجريبي تشغيل نموذج مكمم بـ 27 مليار معلمة و 8 بت بشكل مريح باستخدام 48 جيجابايت من ذاكرة UMA المشتركة، فإن تحقيق أداء مماثل على جهاز كمبيوتر شخصي بدون UMA قد يتطلب ذاكرة وصول عشوائي إجمالية أكبر بكثير. على سبيل المثال، قد يكون جهاز كمبيوتر شخصي مزود بذاكرة وصول عشوائي إجمالية تبلغ 48 جيجابايت مقسمة إلى 24 جيجابايت لوحدة المعالجة المركزية و 24 جيجابايت لوحدة معالجة الرسومات قادرًا فقط على تشغيل نموذج أصغر بكثير بحجم 13 مليار معلمة بشكل فعال، بسبب تقسيم الذاكرة والنفقات العامة لتكرار البيانات.

تفسر هذه الميزة المعمارية الريادة المبكرة التي اكتسبتها أجهزة Mac المزودة بشرائح Apple Silicon في مجال الذكاء الاصطناعي المحلي. وإدراكًا لذلك، أعلن المنافسون مثل AMD عن مجموعة Ryzen AI Max SoC (المتوقعة في أوائل عام 2025) المصممة لتضمين نهج ذاكرة موحد مماثل. في وقت إجراء هذه الاختبارات، لم تكن أنظمة Intel Core Ultra SoCs، على الرغم من دمجها لوحدات CPU و GPU و NPU، تتميز بنفس المستوى من الوصول الموحد بالكامل للذاكرة عبر جميع أنواع النوى. يعد هذا التمييز في الأجهزة اعتبارًا حاسمًا لأي شخص جاد في تشغيل نماذج LLMs أكبر وأكثر قدرة محليًا.

الرقصة المعقدة لهندسة الأوامر (Prompt Engineering)

إن جعل الذكاء الاصطناعي يؤدي مهمة معقدة مثل تحويل مقابلة إلى مقال يتطلب أكثر من مجرد أجهزة قوية ونموذج قادر؛ إنه يتطلب تعليمات متطورة - فن وعلم هندسة الأوامر (prompt engineering). كانت صياغة موجه الأوامر الأولي المكون من 1500 رمز مميز والذي وجهالذكاء الاصطناعي مهمة كبيرة.

تضمنت نقطة انطلاق مفيدة الهندسة العكسية: تزويد الذكاء الاصطناعي بمقال مكتمل كتبه الإنسان جنبًا إلى جنب مع نصه المقابل وسؤاله عن موجه الأوامر الذي كان يجب تقديمه لتحقيق هذه النتيجة. ساعد تحليل اقتراحات الذكاء الاصطناعي عبر عدة أمثلة متنوعة في تحديد العناصر الأساسية لمجموعة التعليمات.

ومع ذلك، كانت اقتراحات موجهات الأوامر التي تم إنشاؤها بواسطة الذكاء الاصطناعي موجزة باستمرار وتفتقر إلى التفاصيل اللازمة لتوجيه إنشاء مقال شامل. يكمن العمل الحقيقي في أخذ هذه الخيوط الأولية التي يوفرها الذكاء الاصطناعي والتوسع فيها، وتضمين معرفة عميقة بالمجال حول البنية الصحفية والنبرة والأسلوب والاعتبارات الأخلاقية.

برزت عدة دروس غير بديهية:

  • الوضوح على الأناقة: بشكل مفاجئ، غالبًا ما أدت كتابة موجه الأوامر بأسلوب طبيعي أكثر سلاسة إلى تقليل فهم الذكاء الاصطناعي. كافحت النماذج مع الغموض، وخاصة الضمائر (“هو”، “هو/هي لغير العاقل”، “هذا”). كان النهج الأكثر فعالية يتضمن التضحية بقابلية القراءة البشرية من أجل الدقة الآلية، وتكرار الموضوعات بشكل صريح (“يجب أن المقال…”، “يجب أن تكون نبرة المقال…”، “تحتاج مقدمة المقال إلى…”) لتجنب أي سوء تفسير محتمل.
  • الطبيعة المراوغة للإبداع: على الرغم من التصميم الدقيق لموجه الأوامر الذي يهدف إلى السماح بالمرونة، إلا أن المقالات التي تم إنشاؤها بواسطة الذكاء الاصطناعي تشاركت باستمرار “تشابهًا عائليًا”. أثبت التقاط اتساع الإبداع البشري والتنوع الأسلوبي ضمن موجه أوامر واحد، أو حتى عدة موجهات أوامر متنافسة، صعوبة بالغة. بدا أن التنوع الحقيقي يتطلب تحولات أساسية أكثر مما يمكن أن يوفره تعديل موجه الأوامر وحده.

هندسة الأوامر ليست مهمة لمرة واحدة ولكنها عملية تكرارية من التحسين والاختبار ودمج منطق العمل المحدد والفروق الأسلوبية الدقيقة. إنها تتطلب مزيجًا من الفهم التقني والخبرة العميقة في الموضوع.

تحول عبء العمل: تفكيك مفارقة الذكاء الاصطناعي

أدت التجارب في النهاية إلى إدراك حاسم، أُطلق عليه مفارقة الذكاء الاصطناعي: في حالته الحالية، لكي يتمكن الذكاء الاصطناعي من تخفيف بعض عبء عمل المستخدم (كتابة مسودة المقال)، غالبًا ما يتعين على المستخدم استثمار عمل تمهيدي أكثر.

ظلت المشكلة الأساسية هي عدم قدرة الذكاء الاصطناعي على قياس الصلة بالموضوع بشكل موثوق ضمن نص المقابلة الأولي. لإنتاج مقال ذي صلة، لم يكن مجرد تغذية النص بأكمله كافيًا. برزت خطوة وسيطة ضرورية: المعالجة المسبقة اليدوية للنص. تضمن ذلك:

  1. إزالة الأحاديث غير ذات الصلة والاستطرادات والتكرارات.
  2. إضافة ملاحظات سياقية محتملة (حتى لو لم تكن مخصصة للمقال النهائي) لتوجيه فهم الذكاء الاصطناعي.
  3. اختيار الأجزاء الرئيسية بعناية وربما إعادة ترتيبها.

يتطلب “تنظيم” النص هذا وقتًا وحكمًا بشريًا كبيرًا. تم تعويض الوقت الذي تم توفيره من خلال جعل الذكاء الاصطناعي ينشئ مسودة أولى، أو حتى تجاوزه، بالمهمة الجديدة المتمثلة في إعداد بيانات الإدخال الخاصة به بدقة. لم يختف عبء العمل؛ لقد تحول ببساطة من الكتابة المباشرة إلى إعداد البيانات وتحسين موجهات الأوامر.

علاوة على ذلك، كان موجه الأوامر المفصل المكون من 1500 رمز مميز محددًا للغاية لنوع واحد من المقالات (على سبيل المثال، مقابلة حول إطلاق منتج). إن تغطية النطاق المتنوع لتنسيقات المقالات التي ينتجها الصحفي يوميًا - ملفات تعريف الشركات الناشئة، والتحليلات الاستراتيجية، وتغطية الأحداث، والتحقيقات متعددة المصادر - سيتطلب تطوير واختبار وصيانة موجه أوامر منفصل ومفصل بنفس القدر لكل حالة استخدام. يمثل هذا استثمارًا هندسيًا كبيرًا مقدمًا ومستمرًا.

والأسوأ من ذلك، أن هذه التجارب المكثفة، التي امتدت لأكثر من ستة أشهر، لم تخدش سوى السطح. لقد ركزت على أبسط سيناريو: إنشاء مقال من مقابلة واحدة، غالبًا ما يتم إجراؤها في بيئات خاضعة للرقابة مثل المؤتمرات الصحفية حيث تكون نقاط الشخص الذي تمت مقابلته منظمة إلى حد ما بالفعل. ظلت المهام الأكثر تعقيدًا، ولكنها شائعة، المتمثلة في تجميع المعلومات من مقابلات متعددة، أو دمج الأبحاث الأساسية، أو التعامل مع المحادثات الأقل تنظيمًا، غير مستكشفة بسبب استثمار الوقت المطلوب حتى للحالة الأساسية.

لذلك، في حين أن تشغيل نماذج LLMs محليًا ممكن تقنيًا ويقدم فوائد من حيث التكلفة وخصوصية البيانات، فإن فكرة أنها توفر الوقت أو الجهد بسهولة لأعمال المعرفة المعقدة مثل الصحافة هي، بناءً على هذا التحقيق، وهمية في الوقت الحاضر. يتحول الجهد المطلوب ببساطة، وينتقل إلى المراحل الأولية في إعداد البيانات وهندسة الأوامر المحددة للغاية. في مواجهة هذه التحديات المحددة - تمييز الصلة بالموضوع، والحاجة إلى معالجة مسبقة واسعة النطاق - كان أداء الذكاء الاصطناعي الذي يعمل محليًا مشابهًا للخدمات المدفوعة عبر الإنترنت، مما يشير إلى أن هذه قيود أساسية للجيل الحالي من نماذج LLMs، بغض النظر عن طريقة النشر. لا يزال الطريق إلى مساعدة الذكاء الاصطناعي السلسة حقًا في مثل هذه المجالات معقدًا ويتطلب مزيدًا من التطور في كل من قدرات الذكاء الاصطناعي وطرق تفاعلنا معها.