Meta Platforms، غول فناوری پشت Facebook، Instagram و WhatsApp، با معرفی سری Llama 4 خود، جایگاه خود را در عرصه هوش مصنوعی به طور قابل توجهی ارتقا داده است. این عرضه، تکرار بعدی خانواده تأثیرگذار مدلهای باز Llama این شرکت را نشان میدهد و بیانگر تعهد مستمر به رقابت در خط مقدم توسعه هوش مصنوعی و تغییر بالقوه پویایی رقابتی در این صنعت است. این عرضه، سه مدل متمایز را معرفی میکند که هر کدام با قابلیتها و معماریهای محاسباتی خاصی طراحی شدهاند و هدف آن پاسخگویی به طیف متنوعی از کاربردها، از قابلیتهای چت عمومی گرفته تا وظایف پیچیده پردازش داده است.
معرفی خانواده Llama 4: Scout، Maverick و Behemoth
عرضه اولیه نسل Llama 4 شامل سه مدل با نامهای مشخص است: Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth که هنوز در حال توسعه است. Meta اشاره کرده است که پایه و اساس این مدلها بر روی مجموعه دادههای آموزشی گستردهای استوار است که شامل مقادیر عظیمی از محتوای متنی، تصویری و ویدیویی بدون برچسب است. این رویکرد آموزشی چندوجهی به منظور القای ‘درک بصری گسترده’ و پیچیده به مدلها طراحی شده است و قابلیتهای آنها را فراتر از تعاملات صرفاً مبتنی بر متن گسترش میدهد.
به نظر میرسد مسیر توسعه Llama 4 تحت تأثیر فشارهای رقابتی در بخش هوش مصنوعی که به سرعت در حال تحول است، قرار گرفته است. گزارشها حاکی از آن است که ظهور و کارایی قابل توجه مدلهای باز از آزمایشگاههای بینالمللی هوش مصنوعی، به ویژه با اشاره به آزمایشگاه چینی DeepSeek، باعث شد Meta تلاشهای توسعه خود را تسریع بخشد. مشخص شده است که Meta منابع قابل توجهی را اختصاص داده است، احتمالاً با ایجاد تیمهای تخصصی یا ‘اتاقهای جنگ’، تا روشهای مورد استفاده توسط رقبایی مانند DeepSeek را تجزیه و تحلیل و درک کند، به ویژه با تمرکز بر تکنیکهایی که با موفقیت هزینههای محاسباتی مرتبط با اجرا و استقرار مدلهای پیشرفته هوش مصنوعی را کاهش دادهاند. این جریان پنهان رقابتی، مسابقه شدید بین بازیگران اصلی فناوری و مؤسسات تحقیقاتی برای دستیابی به پیشرفتها در عملکرد هوش مصنوعی و کارایی عملیاتی را برجسته میکند.
دسترسی در میان مجموعه جدید Llama 4 متفاوت است. Scout و Maverick از طریق کانالهای معتبر، از جمله پورتال Llama.com خود Meta و پلتفرمهای شریک مانند مرکز توسعه هوش مصنوعی پرکاربرد Hugging Face، به طور باز در دسترس جامعه توسعهدهندگان و عموم قرار میگیرند. این در دسترس بودن باز، بر استراتژی Meta برای پرورش یک اکوسیستم گستردهتر پیرامون مدلهای Llama خود تأکید میکند. با این حال، Behemoth که به عنوان قدرتمندترین مدل در سری فعلی معرفی شده است، همچنان در دست توسعه است و هنوز برای استفاده عمومی منتشر نشده است. همزمان، Meta در حال ادغام این قابلیتهای جدید در محصولات رو به روی کاربر خود است. این شرکت اعلام کرد که دستیار هوش مصنوعی اختصاصی آن، Meta AI، که در مجموعه برنامههای کاربردی آن مانند WhatsApp، Messenger و Instagram عمل میکند، برای بهرهگیری از قدرت Llama 4 ارتقا یافته است. این ادغام در چهل کشور در حال انجام است، اگرچه ویژگیهای پیشرفته چندوجهی (ترکیب متن، تصویر و به طور بالقوه انواع دیگر دادهها) در ابتدا به کاربران انگلیسی زبان در ایالات متحده محدود میشود.
پیمایش در چشمانداز صدور مجوز
علیرغم تأکید بر باز بودن برخی مدلها، استقرار و استفاده از Llama 4 تحت شرایط مجوز خاصی اداره میشود که ممکن است برای برخی توسعهدهندگان و سازمانها موانعی ایجاد کند. یک محدودیت قابل توجه صراحتاً کاربران و شرکتهایی را که در اتحادیه اروپا مستقر هستند یا محل اصلی کسبوکارشان در آنجا قرار دارد، از استفاده یا توزیع مدلهای Llama 4 منع میکند. این محدودیت جغرافیایی احتمالاً نتیجه مستقیم الزامات حاکمیتی سختگیرانه تحمیل شده توسط قانون جامع هوش مصنوعی اتحادیه اروپا (EU’s AI Act) و مقررات موجود حفظ حریم خصوصی دادهها مانند GDPR است. به نظر میرسد پیمایش در این چارچوبهای نظارتی پیچیده، ملاحظه مهمی است که استراتژی استقرار Meta در منطقه را شکل میدهد.
علاوه بر این، Meta با تکرار ساختار صدور مجوز تکرارهای قبلی Llama، شرطی را برای شرکتهای بزرگ مقیاس اعمال میکند. شرکتهایی که دارای پایگاه کاربری بیش از 700 میلیون کاربر فعال ماهانه هستند، ملزم به درخواست رسمی مجوز ویژه مستقیماً از Meta هستند. نکته مهم این است که تصمیم برای اعطا یا رد این مجوز کاملاً در ‘صلاحدید انحصاری’ Meta قرار دارد. این بند به طور مؤثری به Meta کنترل میدهد که چگونه پیشرفتهترین مدلهایش توسط شرکتهای فناوری بزرگ بالقوه رقیب مورد استفاده قرار میگیرند و علیرغم ماهیت ‘باز’ بخشهایی از اکوسیستم Llama، درجهای از نظارت استراتژیک را حفظ میکند. این نکات ظریف صدور مجوز، تعامل پیچیده بین ترویج نوآوری باز و حفظ کنترل استراتژیک در حوزه پرمخاطره هوش مصنوعی را برجسته میکند.
Meta در ارتباطات رسمی خود به همراه این عرضه، انتشار Llama 4 را به عنوان یک لحظه محوری توصیف کرد. این شرکت در یک پست وبلاگی اظهار داشت: ‘این مدلهای Llama 4 آغازگر دوره جدیدی برای اکوسیستم Llama هستند’، و افزود: ‘این تازه آغاز کار برای مجموعه Llama 4 است’. این بیانیه آیندهنگر، نقشه راهی برای توسعه و گسترش مستمر در نسل Llama 4 را نشان میدهد و این عرضه را نه به عنوان یک مقصد نهایی، بلکه به عنوان یک نقطه عطف مهم در سفر مداوم پیشرفت هوش مصنوعی معرفی میکند.
نوآوریهای معماری: رویکرد Mixture of Experts (MoE)
یک ویژگی فنی کلیدی که سری Llama 4 را متمایز میکند، اتخاذ معماری Mixture of Experts (MoE) است. Meta تأکید میکند که این اولین گروه در خانواده Llama است که از این پارادایم طراحی خاص استفاده میکند. رویکرد MoE نشاندهنده یک تغییر قابل توجه در نحوه ساختاردهی و آموزش مدلهای زبان بزرگ است و مزایای قابل توجهی از نظر کارایی محاسباتی، هم در مرحله آموزش پرمصرف منابع و هم در مرحله عملیاتی هنگام پاسخ به پرسشهای کاربر، ارائه میدهد.
در هسته خود، معماری MoE با تجزیه وظایف پیچیده پردازش داده به زیروظایف کوچکتر و قابل مدیریتتر عمل میکند. این زیروظایف سپس به طور هوشمندانه به مجموعهای از اجزای شبکه عصبی کوچکتر و تخصصی، که به عنوان ‘متخصصان’ (experts) شناخته میشوند، هدایت یا واگذار میشوند. هر متخصص معمولاً برای برتری در انواع خاصی از دادهها یا وظایف آموزش داده میشود. یک مکانیسم دروازهبندی (gating mechanism) در معماری تعیین میکند که کدام متخصص یا ترکیبی از متخصصان برای رسیدگی به بخش خاصی از دادههای ورودی یا پرسش مناسبتر است. این با معماریهای مدل متراکم سنتی که در آن کل مدل هر بخش از ورودی را پردازش میکند، در تضاد است.
دستاوردهای کارایی از این واقعیت ناشی میشود که تنها زیرمجموعهای از کل پارامترهای مدل (پارامترهای ‘فعال’ متعلق به متخصصان منتخب) برای هر وظیفه معین درگیر میشوند. این فعالسازی انتخابی به طور قابل توجهی بار محاسباتی را در مقایسه با فعال کردن کل یک مدل عظیم و متراکم کاهش میدهد.
Meta جزئیات خاصی را برای نشان دادن این معماری در عمل ارائه کرد:
- Maverick: این مدل دارای تعداد پارامتر کل قابل توجه 400 میلیارد است. با این حال، به لطف طراحی MoE که شامل 128 ‘متخصص’ متمایز است، تنها 17 میلیارد پارامتر در هر زمان معین در طول پردازش به طور فعال درگیر میشوند. پارامترها اغلب به عنوان یک نماینده تقریبی برای ظرفیت یادگیری و پیچیدگی حل مسئله یک مدل در نظر گرفته میشوند.
- Scout: با ساختاری مشابه، Scout دارای 109 میلیارد پارامتر کل است که در 16 ‘متخصص’ توزیع شدهاند و منجر به همان 17 میلیارد پارامتر فعال مانند Maverick میشود.
این انتخاب معماری به Meta اجازه میدهد تا مدلهایی با ظرفیت کلی وسیع (تعداد پارامتر کل بالا) بسازد در حالی که تقاضاهای محاسباتی قابل مدیریت برای استنتاج (پردازش پرسش) را حفظ میکند، و آنها را به طور بالقوه برای استقرار و عملیات در مقیاس بزرگ عملیتر میسازد.
معیارهای عملکرد و تخصصهای مدل
Meta مدلهای جدید خود را به صورت رقابتی معرفی کرده و نتایج معیارهای داخلی را منتشر کرده است که Llama 4 را با مدلهای برجسته رقبایی مانند OpenAI، Google و Anthropic مقایسه میکند.
Maverick که توسط Meta به عنوان بهینه برای کاربردهای ‘دستیار عمومی و چت’، از جمله وظایفی مانند نوشتن خلاقانه و تولید کد، تعیین شده است، طبق گزارشها عملکرد برتری نسبت به مدلهایی مانند GPT-4o از OpenAI و Gemini 2.0 از Google در معیارهای خاص نشان میدهد. این معیارها حوزههایی مانند مهارت کدنویسی، استدلال منطقی، قابلیتهای چندزبانه، مدیریت توالیهای طولانی متن (long-context) و درک تصویر را پوشش میدهند. با این حال، دادههای خود Meta نشان میدهد که Maverick به طور مداوم از قابلیتهای جدیدترین و قدرتمندترین مدلهای موجود در حال حاضر، مانند Gemini 2.5 Pro از Google، Claude 3.7 Sonnet از Anthropic یا GPT-4.5 پیشبینیشده از OpenAI، پیشی نمیگیرد. این نشان میدهد که Maverick به دنبال جایگاهی قوی در رده عملکرد بالا است اما ممکن است در برابر جدیدترین مدلهای پرچمدار رقبا در همه معیارها، جایگاه مطلق برتر را ادعا نکند.
Scout، از سوی دیگر، برای نقاط قوت متفاوتی طراحی شده است. قابلیتهای آن در وظایفی شامل خلاصهسازی اسناد گسترده و استدلال بر روی پایگاههای کد بزرگ و پیچیده برجسته شده است. یک ویژگی منحصر به فرد و تعیینکننده Scout، پنجره زمینه (context window) فوقالعاده بزرگ آن است که قادر به مدیریت تا 10 میلیون توکن است. توکنها واحدهای اساسی متن یا کدی هستند که مدلهای زبان پردازش میکنند (به عنوان مثال، یک کلمه ممکن است به چندین توکن مانند ‘un-der-stand-ing’ تجزیه شود). یک پنجره زمینه 10 میلیون توکنی، در عمل، به توانایی دریافت و پردازش همزمان حجم عظیمی از اطلاعات - به طور بالقوه معادل میلیونها کلمه یا کل کتابخانههای کد - ترجمه میشود. این به Scout اجازه میدهد تا انسجام و درک را در اسناد بسیار طولانی یا پروژههای برنامهنویسی پیچیده حفظ کند، کاری که برای مدلهایی با پنجرههای زمینه کوچکتر چالشبرانگیز است. همچنین میتواند تصاویر را در کنار این ورودی متنی وسیع پردازش کند.
الزامات سختافزاری برای اجرای این مدلها مقیاس و معماری آنها را منعکس میکند. طبق برآوردهای Meta:
- Scout نسبتاً کارآمد است و قادر به اجرا بر روی یک GPU پیشرفته Nvidia H100 است.
- Maverick، با تعداد پارامتر کل بیشتر علیرغم کارایی MoE، به منابع قابل توجهتری نیاز دارد و به یک سیستم Nvidia H100 DGX (که معمولاً شامل چندین GPU H100 است) یا قدرت محاسباتی معادل نیاز دارد.
انتظار میرود مدل آتی Behemoth به زیرساخت سختافزاری حتی مهیبتری نیاز داشته باشد. Meta فاش کرد که Behemoth با 288 میلیارد پارامتر فعال (از نزدیک به دو تریلیون پارامتر کل، توزیع شده در 16 متخصص) طراحی شده است. معیارهای داخلی اولیه، Behemoth را در جایگاهی قرار میدهند که از مدلهایی مانند GPT-4.5، Claude 3.7 Sonnet و Gemini 2.0 Pro (اگرچه قابل ذکر است، نه Gemini 2.5 Pro پیشرفتهتر) در چندین ارزیابی متمرکز بر مهارتهای STEM (علوم، فناوری، مهندسی و ریاضیات)، به ویژه در زمینههایی مانند حل مسائل پیچیده ریاضی، بهتر عمل میکند.
با این حال، شایان ذکر است که هیچ یک از مدلهای Llama 4 که در حال حاضر اعلام شدهاند، به صراحت به عنوان مدلهای ‘استدلال’ (reasoning) در ردیف مفاهیم توسعهای o1 و o3-mini از OpenAI طراحی نشدهاند. این مدلهای استدلال تخصصی معمولاً شامل مکانیسمهایی برای بررسی داخلی حقایق و پالایش تکراری پاسخهای خود هستند که منجر به پاسخهای بالقوه قابل اعتمادتر و دقیقتر، به ویژه برای پرسشهای واقعی میشود. نقطه ضعف اغلب افزایش تأخیر (latency) است، به این معنی که تولید پاسخها در مقایسه با مدلهای زبان بزرگ سنتیتر مانند مدلهای خانواده Llama 4 که تولید سریعتر را در اولویت قرار میدهند، زمان بیشتری میبرد.
تنظیم مرزهای مکالمه: موضوعات بحثبرانگیز
یک جنبه جالب از عرضه Llama 4 شامل تنظیم عمدی رفتار پاسخ مدلها توسط Meta، به ویژه در مورد موضوعات حساس یا بحثبرانگیز است. این شرکت صراحتاً اعلام کرد که مدلهای Llama 4 را طوری تنظیم کرده است که کمتر احتمال دارد از پاسخ دادن به سؤالات ‘بحثبرانگیز’ در مقایسه با پیشینیان خود در خانواده Llama 3 امتناع کنند.
به گفته Meta، Llama 4 اکنون تمایل بیشتری به درگیر شدن با موضوعات سیاسی و اجتماعی ‘مورد بحث’ دارد که نسخههای قبلی ممکن بود از آن طفره رفته یا امتناع عمومی ارائه دهند. علاوه بر این، این شرکت ادعا میکند که Llama 4 رویکرد ‘به طور چشمگیری متعادلتری’ را در مورد انواع درخواستهایی که به طور کلی از درگیر شدن با آنها خودداری میکند، نشان میدهد. هدف اعلام شده ارائه پاسخهای مفید و واقعی بدون تحمیل قضاوت است.
سخنگوی Meta در توضیح این تغییر به TechCrunch گفت: ‘[Y]ou can count on [Llama 4] to provide helpful, factual responses without judgment… [W]e’re continuing to make Llama more responsive so that it answers more questions, can respond to a variety of different viewpoints […] and doesn’t favor some views over others.’ (‘میتوانید روی [Llama 4] حساب کنید تا پاسخهای مفید و واقعی بدون قضاوت ارائه دهد… ما به پاسخگوتر کردن Llama ادامه میدهیم تا به سؤالات بیشتری پاسخ دهد، بتواند به دیدگاههای مختلف پاسخ دهد […] و از برخی دیدگاهها نسبت به دیگران طرفداری نکند.’)
این تنظیم در پسزمینه بحثهای عمومی و سیاسی مداوم پیرامون سوگیریهای ادراک شده در سیستمهای هوش مصنوعی رخ میدهد. برخی جناحهای سیاسی و مفسران، از جمله چهرههای برجسته مرتبط با دولت Trump مانند Elon Musk و سرمایهگذار خطرپذیر David Sacks، اتهاماتی را مطرح کردهاند مبنی بر اینکه چتباتهای محبوب هوش مصنوعی سوگیری سیاسی از خود نشان میدهند، که اغلب به عنوان ‘woke’ توصیف میشود، و ادعا میکنند که دیدگاههای محافظهکار را سانسور میکنند یا اطلاعات را به سمت دیدگاه لیبرال منحرف میکنند. Sacks، به عنوان مثال، به طور خاص از ChatGPT OpenAI در گذشته انتقاد کرده و ادعا کرده است که ‘برای woke بودن برنامهریزی شده است’ و در مسائل سیاسی غیرقابل اعتماد است.
با این حال، چالش دستیابی به بیطرفی واقعی و از بین بردن سوگیری در هوش مصنوعی به طور گسترده در جامعه فنی به عنوان یک مشکل فوقالعاده پیچیده و پایدار (‘intractable’) شناخته شده است. مدلهای هوش مصنوعی الگوها و ارتباطات را از مجموعه دادههای عظیمی که بر روی آنها آموزش دیدهاند، یاد میگیرند و این مجموعه دادهها به ناچار سوگیریهای موجود در متن و تصاویر تولید شده توسط انسان را که در آنها وجود دارد، منعکس میکنند. تلاشها برای ایجاد هوش مصنوعی کاملاً بیطرف یا از نظر سیاسی خنثی، حتی توسط شرکتهایی که صراحتاً به دنبال آن هستند، دشوار ثابت شده است. گزارش شده است که شرکت هوش مصنوعی خود Elon Musk، xAI، در توسعه یک چتبات که از تأیید برخی مواضع سیاسی نسبت به دیگران اجتناب کند، با چالشهایی روبرو شده است.
علیرغم مشکلات فنی ذاتی، به نظر میرسد روند در میان توسعهدهندگان اصلی هوش مصنوعی، از جمله Meta و OpenAI، به سمت تنظیم مدلها برای کمتر اجتناب کردن از موضوعات بحثبرانگیز حرکت میکند. این شامل کالیبراسیون دقیق فیلترهای ایمنی و دستورالعملهای پاسخ برای اجازه دادن به تعامل با طیف وسیعتری از سؤالات نسبت به آنچه قبلاً مجاز بود، در حالی که همچنان تلاش میشود تولید محتوای مضر یا آشکارا مغرضانه کاهش یابد. این تنظیم دقیق، عمل ظریف متعادلسازی را که شرکتهای هوش مصنوعی باید بین ترویج گفتمان باز، تضمین ایمنی کاربر و پیمایش انتظارات پیچیده اجتماعی-سیاسی پیرامون فناوریهای قدرتمند خود انجام دهند، منعکس میکند. انتشار Llama 4، با تنظیمات صریحاً اعلام شده خود در رسیدگی به پرسشهای بحثبرانگیز، نشاندهنده آخرین گام Meta در پیمایش این چشمانداز پیچیده است.