ERNIE X1 و ERNIE 4.5: منافسان جديدان في ساحة الذكاء الاصطناعي
أطلقت Baidu، القوة المهيمنة في المشهد التكنولوجي الصيني، تحديثين مهمين لنموذجها الأساسي ERNIE (Enhanced Representation through Knowledge Integration). هذان الإصداران الجديدان، ERNIE X1 و ERNIE 4.5، يمثلان استجابة Baidu الاستراتيجية لمشهد الذكاء الاصطناعي العالمي المتزايد التنافسية، ولا سيما التطورات التي حققتها الشركات الصينية والأمريكية. هذه النماذج ليست مجرد ترقيات تدريجية؛ بل تم تصميمها للتنافس وجهاً لوجه مع بعض أنظمة الذكاء الاصطناعي الأكثر تقدماً المتاحة، وتتميز بقدرات، وفقاً لـ Baidu، إما تتطابق مع قدرات منافسيها أو تتفوق عليها. كلا النموذجين متاحان للمستخدمين من خلال روبوت الدردشة ERNIE Bot، وتخطط Baidu لدمجهما تدريجياً في مجموعة منتجاتها الأوسع، بما في ذلك Baidu Search الرائد.
توقيت هذا الإصدار حاسم. يشهد قطاع الذكاء الاصطناعي التوليدي فترة من الابتكار السريع والتنافس الشديد، مع التركيز بشكل خاص على الديناميكية بين الصين والولايات المتحدة. استحوذت DeepSeek، وهي شركة ناشئة صينية في مجال الذكاء الاصطناعي، على اهتمام الصناعة في أوائل عام 2025 باستخدام R1، وهو نموذج استدلال مفتوح المصدر تفوق على نماذج الذكاء الاصطناعي الرائدة بتكلفة أقل بكثير. هذه الخطوة دفعت DeepSeek إلى الأمام متقدمة على المنافسين في كل من الصين والولايات المتحدة، بما في ذلك Baidu. ومع ذلك، كانت Baidu واحدة من أوائل الشركات الصينية التي قدمت منافساً لـ ChatGPT، وهو ERNIE Bot.
نظرة فاحصة على نماذج Baidu الجديدة: ERNIE X1 و ERNIE 4.5
ERNIE X1 و ERNIE 4.5، على الرغم من تطويرهما بواسطة Baidu، إلا أنهما نموذجان أساسيان متميزان مصممان لتطبيقات مختلفة:
ERNIE X1: يتم وضع هذا النموذج كمحرك استدلال عالي الكفاءة، ويتحدى بشكل مباشر نماذج مثل DeepSeek R1 و OpenAI’s o3 mini. إنه مصمم للمهام التي تتطلب معالجة منطقية معقدة وحل المشكلات متعدد الخطوات.
ERNIE 4.5: هذا النموذج هو نموذج ذكاء اصطناعي كبير متعدد الوسائط، قادر على معالجة وفهم أشكال مختلفة من الوسائط - النص والصور والصوت والفيديو. يتنافس مع نماذج مثل GPT-4o و Google’s Gemini.
أدى ظهور R1 من DeepSeek إلى تحول في أولويات اللاعبين الرئيسيين في مجال الذكاء الاصطناعي مثل Google و OpenAI و Anthropic و xAI. بدأت هذه الشركات في التركيز على الكفاءة والقدرة على تحمل التكاليف، إلى جانب حجم النموذج الخام. يمثل تقديم Baidu لـ ERNIE X1، على وجه الخصوص، دخولها في سباق الذكاء الاصطناعي العالمي هذا، حيث يقدم أداءً مشابهاً لـ R1 والنماذج الأخرى، وربما بسعر أكثر تنافسية.
تؤكد Baidu أن عام 2025 هو عام محوري لتطور نماذج اللغات الكبيرة والتقنيات ذات الصلة. يسلط بيان الشركة الصحفي الضوء على التزامها المستمر بالاستثمار في الذكاء الاصطناعي ومراكز البيانات والبنية التحتية السحابية، بهدف تعزيز قدراتها في مجال الذكاء الاصطناعي وتطوير نماذج الجيل التالي الأكثر قوة.
ERNIE X1: التعمق في الاستدلال العميق
ERNIE X1 هو نموذج لغوي مصمم خصيصاً لـ ‘الاستدلال العميق’. وهذا يميزه عن نماذج اللغة التقليدية التي تتفوق في توليد استجابات سريعة قائمة على الأنماط. نماذج الاستدلال، في المقابل، مصممة لتحليل المشكلات المعقدة إلى سلسلة من الخطوات المنطقية. يقومون بتقييم الحلول المحتملة المختلفة وتحسين إجاباتهم قبل تقديم مخرجات نهائية. وهذا يجعلها مناسبة بشكل خاص للمهام التي تنطوي على التخطيط متعدد الخطوات، والاستنتاج المنطقي، وحل المشكلات المعقدة.
تنسب Baidu براعة الاستدلال في ERNIE X1 إلى العديد من التقنيات المتقدمة، بما في ذلك:
- Progressive Reinforcement Learning: يشير هذا إلى عملية تعلم تكرارية حيث يعمل النموذج باستمرار على تحسين أدائه من خلال التغذية الراجعة.
- End-to-End Training: يشير هذا إلى نهج تدريب شامل حيث يتم تحسين النموذج بأكمله في وقت واحد، بدلاً من المراحل المنفصلة.
- Chains of Thought and Action: من المحتمل أن تمكن هذه التقنية النموذج من اتباع سلسلة من الخطوات المنطقية، مما يحاكي عمليات التفكير البشري.
- Unified Multi-faceted Reward System: يشير هذا إلى نظام متطور لتقييم ومكافأة أداء النموذج عبر جوانب مختلفة من الاستدلال.
في حين أن Baidu لم تكشف عن تفاصيل تقنية شاملة، فإن هذه الأساليب تشير إلى التركيز على التعلم التكراري، والفهم السياقي، والاستدلال المنظم - وهي نقاط قوة تتميز بها أيضاً نماذج الاستدلال الناجحة الأخرى.
في التطبيقات العملية، تدعي Baidu أن ERNIE X1 يُظهر ‘قدرات محسنة في الفهم والتخطيط والتفكير والتطور’. تسلط الشركة الضوء على كفاءتها في مجالات مثل:
- Literary Creation: توليد تنسيقات نصية إبداعية.
- Manuscript Writing: المساعدة في صياغة المستندات الأطول.
- Dialogue: الانخراط في محادثات طبيعية ومتماسكة.
- Logical Reasoning: حل المشكلات التي تتطلب استنتاجاً منطقياً.
- Complex Calculations: إجراء عمليات حسابية معقدة.
- ‘Chinese Knowledge’: تشير هذه القدرة غير المحددة على الأرجح إلى فهم عميق للغة والثقافة والسياق الصيني.
وبالتالي، من المتصور أن يعمل ERNIE X1 على تشغيل مجموعة متنوعة من التطبيقات، بما في ذلك:
- Search Engines: تحسين نتائج البحث بفهم أكثر دقة.
- Document Summarization and Q&A: تقديم ملخصات موجزة وإجابات دقيقة على الأسئلة.
- Image Understanding and Generation: تفسير وإنشاء محتوى مرئي.
- Code Interpretation: تحليل وفهم كود البرمجة.
- Webpage Analysis: استخراج المعلومات الأساسية من صفحات الويب.
- Mind Mapping: إنشاء تمثيلات مرئية للأفكار والمفاهيم.
- Academic Research: المساعدة في مهام البحث عبر مختلف التخصصات.
- Business and Franchise Information Search: توفير المعلومات ذات الصلة لاستفسارات الأعمال.
ERNIE X1: مقارنة مع المنافسة
في حين أن Baidu لم تصدر درجات قياس محددة أو تقييمات مفصلة لـ ERNIE X1، إلا أنها تؤكد أن أداء النموذج ‘على قدم المساواة مع’ DeepSeek R1، بينما يتم تقديمه ‘بنصف السعر فقط’. في الوقت الحالي، لم تقدم Baidu مقارنات مع نماذج الاستدلال الأخرى في السوق. هذا النقص في البيانات المقارنة التفصيلية يجعل من الصعب تقييم مكانة ERNIE X1 التنافسية بشكل كامل، ولكن الادعاء بأداء مماثل بتكلفة أقل جدير بالملاحظة بالتأكيد.
ERNIE 4.5: احتضان القدرات الأصلية متعددة الوسائط
تقدم Baidu نموذج ERNIE 4.5 كـ ‘نموذج أصلي متعدد الوسائط’. وهذا يعني أنه مصمم لدمج وفهم أشكال مختلفة من الوسائط بسلاسة - النص والصور والصوت والفيديو - ضمن إطار عمل موحد. على عكس العديد من أنظمة الذكاء الاصطناعي التي تعالج أنواع الوسائط المختلفة بشكل منفصل، تم تصميم ERNIE 4.5 لدمج هذه الوسائط وحتى التحويل بينها (على سبيل المثال، تحويل النص إلى صوت والعكس).
تسلط Baidu الضوء على أن ERNIE 4.5 ‘يحقق تحسيناً تعاونياً من خلال النمذجة المشتركة للوسائط المتعددة، مما يدل على قدرات فهم استثنائية متعددة الوسائط’. يشير هذا إلى نهج متطور حيث يتعلم النموذج فهم وربط المعلومات عبر أنواع الوسائط المختلفة.
بالإضافة إلى براعته متعددة الوسائط، يتميز ERNIE 4.5 بـ ‘مهارات لغوية محسنة’، مما يعزز قدراته على الفهم والتوليد، بالإضافة إلى قدراته على الاستدلال المنطقي والذاكرة والترميز. تؤكد Baidu أيضاً على ‘الذكاء القوي’ للنموذج و ‘الوعي السياقي’، ولا سيما قدرته على التعرف على المحتوى الدقيق مثل الميمات على الإنترنت والرسوم الكاريكاتورية الساخرة. يشير هذا إلى التركيز على فهم ليس فقط المعنى الحرفي للمحتوى، ولكن أيضاً سياقه الثقافي والاجتماعي.
علاوة على ذلك، تدعي Baidu أن ERNIE 4.5 أقل عرضة لـ ‘الهلوسة’ - وهي مشكلة شائعة في الذكاء الاصطناعي حيث تولد النماذج معلومات خاطئة أو مضللة قد تبدو معقولة للوهلة الأولى. يعد هذا تحسيناً حاسماً، حيث يمكن أن تقوض الهلوسة موثوقية ومصداقية أنظمة الذكاء الاصطناعي.
تنسب Baidu هذه التطورات إلى العديد من التقنيات الرئيسية، بما في ذلك:
- Spatiotemporal Representation Compression: يشير هذا على الأرجح إلى تقنيات لتمثيل ومعالجة المعلومات التي تتغير بمرور الوقت والمساحة بكفاءة، مثل محتوى الفيديو.
- Knowledge-Centric Training Data Construction: يشير هذا إلى التركيز على بناء مجموعات بيانات تدريبية غنية بالمعرفة الواقعية.
- Self-Feedback Enhanced Post-Training: يشير هذا إلى آلية حيث يمكن للنموذج التعلم من مخرجاته الخاصة وتحسين أدائه بمرور الوقت.
- Heterogeneous Multimodal Mixture-of-Experts (MoE): يستخدم هذا النهج نماذج ‘خبيرة’ أصغر ومتخصصة يتم تنشيطها فقط عند الحاجة. يؤدي هذا إلى تحسين الأداء وتقليل تكاليف الحوسبة. غالباً ما تكون نماذج MoE أصغر وأكثر فعالية من حيث التكلفة من النماذج التقليدية القائمة على المحولات، ومع ذلك يمكنها تحقيق أداء مماثل أو حتى متفوق، مما يجعلها خياراً جذاباً لتطوير الذكاء الاصطناعي.
بالنظر إلى المستقبل، تشير التقارير إلى أن Baidu تخطط لإصدار ERNIE 5 في وقت لاحق من عام 2025، واعدة بـ ‘تحسينات كبيرة’ في قدراتها متعددة الوسائط. يشير هذا إلى التزام مستمر بدفع حدود الذكاء الاصطناعي متعدد الوسائط.
ERNIE 4.5: تحليل مقارن
قارنت Baidu بشكل مباشر قدرات ERNIE 4.5 متعددة الوسائط بقدرات GPT-4o من OpenAI. تدعي الشركة أن ERNIE 4.5 تفوق على GPT-4o في كل معيار تقريباً، باستثناء MMU (Massive Multi-discipline Understanding). يقوم MMU بتقييم النماذج على مجموعة واسعة من المهام على مستوى الكلية التي تتطلب معرفة متعمقة بالموضوع واستدلالاً متأنياً. يشير هذا إلى أنه في حين أن ERNIE 4.5 يتفوق في العديد من المجالات، فقد يظل GPT-4o يتمتع بميزة في المهام التي تتطلب معرفة أكاديمية متخصصة.
تقدم Baidu أيضاً نتائج قياس تشير إلى أن ERNIE 4.5 يتفوق على GPT-4o و GPT-4.5 من OpenAI، بالإضافة إلى DeepSeek’s V3، في العديد من المجالات الأخرى، بما في ذلك:
- C-Eval: يقيم هذا المعيار المعرفة المتقدمة وقدرات الاستدلال عبر مختلف التخصصات، من العلوم الإنسانية إلى العلوم والهندسة. يشير أداء ERNIE 4.5 القوي هنا إلى فهم واسع لموضوعات متنوعة.
- CMMLU: يقيم هذا المعيار المعرفة وقدرات الاستدلال ضمن السياق المحدد للغة والثقافة الصينية. يسلط نجاح ERNIE 4.5 هنا الضوء على كفاءته في هذا المجال.
- GSM8K: يقيم هذا المعيار الاستدلال متعدد الخطوات باستخدام مسائل الرياضيات في المدرسة الابتدائية. يشير أداء ERNIE 4.5 إلى قدرات قوية في الاستدلال الرياضي.
- DROP: يقيس هذا المعيار قدرات فهم القراءة لدى LLM. تشير نتائج ERNIE 4.5 إلى مستوى عالٍ من فهم النص.
من المهم أن ندرك، مع ذلك، أن العديد من المعايير التي أظهر فيها ERNIE 4.5 أداءً فائقاً كانت تركز بشكل خاص على اللغة والثقافة الصينية. قد يفسر هذا جزئياً سبب عدم أداء GPT-4o و GPT-4.5، وهما نموذجان طورتهما شركة أمريكية، بشكل جيد. ومع ذلك، تفوق ERNIE 4.5 أيضاً على DeepSeek-V3، وهو نموذج طورته شركة صينية، في العديد من هذه المعايير، مما يشير إلى ميزة تنافسية حقيقية في السياق الصيني.
على العكس من ذلك، ورد أن ERNIE 4.5 لم يكن أداؤه جيداً في بعض المعايير الأخرى، بما في ذلك:
- MMLU-Pro: يقيم هذا المعيار فهم اللغة عبر مجموعة أوسع وأكثر تحدياً من المهام. تفوق GPT-4.5 على ERNIE 4.5 هنا، مما يشير إلى ميزة محتملة في فهم اللغة العام.
- GPQA: يتألف هذا المعيار من مجموعة بيانات من أسئلة الاختيار من متعدد التي كتبها خبراء في علم الأحياء والفيزياء والكيمياء. تفوق GPT-4.5 مرة أخرى على ERNIE 4.5، مما يشير إلى فهم أقوى للمعرفة العلمية المتخصصة.
- Math-500: يختبر هذا المعيار القدرة على حل مسائل الرياضيات الصعبة على مستوى المدرسة الثانوية. تفوق كل من DeepSeek-V3 و GPT-4.5 على ERNIE 4.5، مما يشير إلى الحاجة إلى مزيد من التحسين في الاستدلال الرياضي المتقدم.
- LiveCodeBench: يقيس هذا المعيار قدرات الترميز. تفوق GPT-4.5 على ERNIE 4.5، مما يشير إلى ميزة محتملة في توليد وفهم الكود.
على الرغم من أداء GPT-4.5 المتفوق في بعض المعايير، تؤكد Baidu أن سعر ERNIE 4.5 يبلغ 1% فقط من سعر نموذج OpenAI. هذا الاختلاف الكبير في التكلفة يمكن أن يجعل ERNIE 4.5 خياراً جذاباً للغاية للشركات والمطورين الذين يبحثون عن حل ذكاء اصطناعي متعدد الوسائط فعال من حيث التكلفة.
الوصول إلى ERNIE X1 و ERNIE 4.5
يمكن الوصول إلى ERNIE 4.5 حالياً من خلال واجهة برمجة التطبيقات (API) الخاصة به وعلى منصة Baidu AI Cloud’s MaaS (Model-as-a-Service)، Qianfan. تبدأ أسعار الإدخال من 0.004 يوان صيني لكل ألف رمز، وتبدأ أسعار الإخراج من 0.016 يوان صيني لكل ألف رمز. تذكر Baidu أن ERNIE X1 سيكون متاحاً على المنصة ‘قريباً’، بأسعار إدخال تبدأ من 0.002 يوان صيني لكل ألف رمز وأسعار إخراج تبدأ من 0.008 يوان صيني لكل ألف رمز.
يمكن للمستخدمين أيضاً التفاعل مع كلا النموذجين من خلال روبوت الدردشة الخاص بـ Baidu، ERNIE Bot، مما يوفر واجهة مريحة وسهلة الاستخدام لاستكشاف قدراتهم.
تسلط تفاصيل هيكل التسعير والتوفر المحددة الضوء على التزام Baidu بجعل نماذج الذكاء الاصطناعي المتقدمة هذه في متناول مجموعة واسعة من المستخدمين، من المطورين الأفراد إلى المؤسسات الكبيرة. يضع التسعير التنافسي، خاصة بالنسبة لـ ERNIE X1، Baidu كمنافس قوي في سوق الذكاء الاصطناعي العالمي، حيث يقدم بديلاً مقنعاً للنماذج من عمالقة التكنولوجيا الأمريكيين.