صعود گوگل در عرصه LLM: تغییری در قدرت

در چشم‌انداز مدل‌های زبانی بزرگ (LLM)، شاهد تحولی چشمگیر بوده‌ایم که در آن گوگل به عنوان یک بازیگر برجسته ظاهر شده است، در حالی که متا و OpenAI با چالش‌های قابل توجهی روبرو هستند. در ابتدا، OpenAI با مدل‌های پیشگامانه GPT خود بر این حوزه تسلط داشت و معیارهای جدیدی را برای عملکرد LLM تعیین کرد. متا نیز با ارائه مدل‌های وزن باز که از قابلیت‌های چشمگیری برخوردار بودند و امکان استفاده، اصلاح و استقرار نامحدود کد در دسترس عموم را فراهم می‌کردند، جایگاه قابل توجهی را به دست آورد.

با این حال، این تسلط اولیه، سایر غول‌های فناوری، از جمله گوگل را در موقعیت عقب‌افتاده قرار داد. با وجود مقاله تحقیقاتی مهم گوگل در سال 2017 در مورد معماری ترانسفورماتور که زیربنای LLMها را تشکیل می‌دهد، تلاش‌های اولیه این شرکت تحت الشعاع عرضه گسترده مورد انتقاد Bard در سال 2023 قرار گرفت.

اخیراً، با معرفی LLMهای قدرتمند جدید از گوگل، همراه با شکست‌هایی که متا و OpenAI تجربه کرده‌اند، ورق برگشته است. این تغییر، به طور قابل توجهی پویایی چشم‌انداز LLM را تغییر داده است.

Llama 4 متا: یک اشتباه؟

انتشار غیرمنتظره Llama 4 توسط متا در شنبه، 5 آوریل، باعث تعجب در سراسر صنعت شد.

تصمیم برای عرضه یک مدل بزرگ در آخر هفته، غیرمتعارف تلقی شد و منجر به استقبال کم‌رنگ و پوشاندن این اعلامیه در میان جریان اخبار هفته بعد شد.

در حالی که Llama 4 دارای نقاط قوتی است، از جمله قابلیت‌های چندوجهی آن (پردازش تصاویر، صدا و سایر روش‌ها) و در دسترس بودن آن در سه نسخه (Llama 4 Behemoth، Maverick و Scout) با اندازه‌ها و نقاط قوت مختلف، عرضه آن با انتقاداتی روبرو شد. نسخه Llama 4 Scout، به طور خاص، دارای یک پنجره زمینه قابل توجه تا 10 میلیون توکن بود که مدل را قادر می‌سازد تا مقادیر زیادی از متن را در یک جلسه پردازش و تولید کند.

با این حال، استقبال از مدل زمانی تلخ شد که اختلافاتی در مورد رویکرد رتبه‌بندی متا در LMArena، پلتفرمی که LLMها را بر اساس رای کاربران رتبه‌بندی می‌کند، آشکار شد. مشخص شد که مدل خاص Llama 4 که برای رتبه‌بندی استفاده شده است، با مدلی که در دسترس عموم قرار گرفته است، متفاوت است. LMArena اظهار داشت که متا ‘یک مدل سفارشی برای بهینه‌سازی ترجیحات انسانی’ ارائه کرده است.

علاوه بر این، ادعاهای متا در مورد پنجره زمینه 10 میلیون توکنی Llama 4 Scout با تردید روبرو شد. علیرغم صحت فنی این رقم، معیارها نشان داد که Llama 4 در عملکرد زمینه طولانی از مدل‌های رقیب عقب مانده است.

افزودن به نگرانی‌ها، متا از انتشار یک مدل ‘استدلال’ یا ‘تفکر’ Llama 4 خودداری کرد و انواع کوچکتر را نیز در دسترس قرار نداد، اگرچه این شرکت نشان داده است که یک مدل استدلال در آینده نزدیک عرضه خواهد شد.

بن لوریکا، بنیانگذار شرکت مشاوره هوش مصنوعی Gradient Flow، خاطرنشان کرد که متا از رویه استاندارد یک انتشار منظم‌تر، که در آن تمام اجزا به طور کامل آماده هستند، منحرف شده است. این نشان می‌دهد که متا ممکن است مشتاق بوده است تا یک مدل جدید را به نمایش بگذارد، حتی اگر فاقد عناصر ضروری مانند یک مدل استدلال و نسخه‌های کوچکتر باشد.

GPT-4.5 OpenAI: عقب‌نشینی زودهنگام

OpenAI نیز در ماه‌های اخیر با چالش‌هایی روبرو بوده است.

GPT-4.5، که در 27 فوریه به عنوان یک پیش‌نمایش تحقیقاتی رونمایی شد، به عنوان ‘بزرگترین و بهترین مدل این شرکت برای چت تاکنون’ معرفی شد. معیارهای OpenAI نشان داد که GPT-4.5 به طور کلی عملکرد بهتری نسبت به نسل قبلی خود، GPT-4o دارد.

با این حال، ساختار قیمت‌گذاری مدل با انتقاداتی روبرو شد. OpenAI قیمت دسترسی API را 150 دلار آمریکا به ازای هر یک میلیون توکن خروجی تعیین کرد، که در مقایسه با قیمت 10 دلار به ازای هر یک میلیون توکن GPT-4o، افزایش چشمگیر 15 برابری را نشان می‌دهد. API توسعه‌دهندگان را قادر می‌سازد تا مدل‌های OpenAI را در برنامه‌ها و خدمات خود ادغام کنند.

آلن دی. تامپسون، مشاور و تحلیلگر هوش مصنوعی در Life Architect، تخمین زد که GPT-4.5 احتمالاً بزرگترین LLM سنتی منتشر شده در طول سه ماهه اول سال 2025 با حدود 5.4 تریلیون پارامتر بوده است. وی استدلال کرد که چنین مقیاس عظیمی با توجه به محدودیت‌های سخت‌افزاری فعلی دشوار است و چالش‌های قابل توجهی در ارائه خدمات به پایگاه کاربری بزرگ ایجاد می‌کند.

در 14 آوریل، OpenAI تصمیم خود را برای قطع دسترسی GPT-4.5 از طریق API پس از کمتر از سه ماه اعلام کرد. در حالی که GPT-4.5 همچنان در دسترس خواهد بود، دسترسی به آن از طریق رابط ChatGPT به کاربران ChatGPT محدود خواهد شد.

این اعلامیه همزمان با معرفی GPT-4.1، یک مدل اقتصادی‌تر با قیمت 8 دلار به ازای هر یک میلیون توکن بود. معیارهای OpenAI نشان می‌دهد که GPT-4.1 به طور کلی به اندازه GPT-4.5 توانمند نیست، اگرچه در برخی معیارهای کدنویسی عملکرد بهتری از خود نشان می‌دهد.

OpenAI همچنین اخیراً مدل‌های استدلال جدیدی را با نام‌های o3 و o4-mini منتشر کرده است که مدل o3 عملکرد معیار بسیار قوی را نشان می‌دهد. با این حال، هزینه همچنان یک نگرانی است، زیرا دسترسی API به o3 با قیمت 40 دلار به ازای هر یک میلیون توکن خروجی تعیین شده است.

صعود گوگل: استفاده از فرصت

استقبال مختلط از Llama 4 و ChatGPT-4.5 فرصتی را برای رقبا ایجاد کرد تا از آن بهره‌برداری کنند و آنها از این فرصت استفاده کرده‌اند.

راه‌اندازی مشکل‌دار Llama 4 توسط متا بعید است توسعه‌دهندگان را از پذیرش جایگزین‌هایی مانند DeepSeek-V3، Gemma گوگل و Qwen2.5 علی بابا منصرف کند. این LLMها، که در اواخر سال 2024 معرفی شدند، به مدل‌های وزن باز ترجیحی در LMArena و تابلوهای HuggingFace تبدیل شده‌اند. آنها در معیارهای محبوب با Llama 4 رقابت می‌کنند یا از آن پیشی می‌گیرند، دسترسی API مقرون به صرفه ارائه می‌دهند و در برخی موارد، برای دانلود و استفاده در سخت‌افزار درجه مصرف‌کننده در دسترس هستند.

با این حال، این LLM پیشرفته گوگل، Gemini 2.5 Pro، است که واقعاً توجه را به خود جلب کرده است.

Google Gemini 2.5 Pro که در 25 مارس راه‌اندازی شد، یک ‘مدل تفکر’ شبیه به GPT-o1 و DeepSeek-R1 است که از خودکارسازی برای استدلال در مورد وظایف استفاده می‌کند. Gemini 2.5 Pro چندوجهی است، دارای یک پنجره زمینه یک میلیون توکنی است و از تحقیقات عمیق پشتیبانی می‌کند.

Gemini 2.5 به سرعت به پیروزی‌های معیار دست یافته است، از جمله رتبه برتر در SimpleBench (اگرچه این موقعیت را در 16 آوریل به o3 OpenAI واگذار کرد) و در شاخص ترکیبی هوش مصنوعی Artificial Analysis. Gemini 2.5 Pro در حال حاضر رتبه برتر را در LMArena در اختیار دارد. از 14 آوریل، مدل‌های گوگل 5 اسلات از 10 اسلات برتر را در LMArena اشغال کردند، از جمله Gemini 2.5 Pro، سه نوع Gemini 2.0 و Gemma 3-27B.

گوگل فراتر از عملکرد چشمگیر خود، رهبر قیمت نیز هست. Google Gemini 2.5 در حال حاضر برای استفاده رایگان از طریق برنامه Gemini گوگل و وب سایت AI Studio گوگل در دسترس است. قیمت‌گذاری API گوگل نیز رقابتی است، با قیمت Gemini 2.5 Pro 10 دلار به ازای هر یک میلیون توکن خروجی و قیمت Gemini 2.0 Flash فقط 40 سنت به ازای هر یک میلیون توکن.

لوریکا خاطرنشان می‌کند که برای وظایف استدلال با حجم بالا، او اغلب DeepSeek-R1 یا Google Gemini را انتخاب می‌کند، در حالی که استفاده از مدل‌های OpenAI نیاز به بررسی دقیق‌تر قیمت‌گذاری دارد.

در حالی که متا و OpenAI لزوماً در آستانه فروپاشی نیستند، OpenAI از محبوبیت ChatGPT بهره می‌برد که بر اساس گزارش‌ها یک میلیارد کاربر دارد. با این وجود، رتبه‌بندی قوی Gemini و عملکرد معیار نشان دهنده تغییر در چشم‌انداز LLM است که در حال حاضر به نفع گوگل است.