هوش مصنوعی، بهویژه شاخهای که با زبان سروکار دارد، در سالهای اخیر تحت سلطه مقیاس و قدرت محض مدلهای زبان بزرگ (LLMs) بوده است. این غولها که بر روی اقیانوسهای وسیعی از دادهها آموزش دیدهاند، قابلیتهای قابلتوجهی از خود نشان دادهاند و تخیل عمومی و دلارهای سرمایهگذاری را به خود جلب کردهاند. با این حال، در زیر تیترهایی که مدلهای بزرگتر و بزرگتر را نوید میدهند، انقلابی آرامتر اما بالقوه تحولآفرینتر در حال شکلگیری است: ظهور مدلهای زبان کوچک (SLMs). این سیستمهای هوش مصنوعی لاغرتر و متمرکزتر به سرعت در حال ایجاد یک جایگاه قابل توجه هستند و نویدبخش ارائه قابلیتهای پیچیده هوش مصنوعی به محیطهایی هستند که پسرعموهای بزرگترشان به سادگی نمیتوانند به طور کارآمد یا اقتصادی عمل کنند.
علاقه فزاینده به SLMها صرفاً آکادمیک نیست؛ بلکه به شتاب ملموس بازار تبدیل میشود. تحلیلگران صنعت، صعود چشمگیری را برای بخش SLM پیشبینی میکنند و گسترش آن را از اندازه بازار تخمینی تقریباً 0.93 میلیارد دلار در سال 2025 به رقم خیرهکننده 5.45 میلیارد دلار تا سال 2032 پیشبینی میکنند. این مسیر نشاندهنده نرخ رشد مرکب سالانه (CAGR) قوی تقریباً 28.7٪ در طول دوره پیشبینی است. چنین رشد انفجاری در خلاء اتفاق نمیافتد؛ بلکه توسط تلاقی نیروهای قدرتمند فناوری و بازار هدایت میشود.
در راس این محرکها، تقاضای بیوقفه برای Edge AI و هوشمندی روی دستگاه (on-device intelligence) قرار دارد. کسبوکارها در بخشهای بیشمار به طور فزایندهای به دنبال راهحلهای هوش مصنوعی هستند که بتوانند مستقیماً روی گوشیهای هوشمند، حسگرها، تجهیزات صنعتی و سایر سیستمهای تعبیهشده، بدون تأخیر، هزینه یا نگرانیهای مربوط به حریم خصوصی مرتبط با اتصال مداوم به ابر، عمل کنند. اجرای محلی هوش مصنوعی، پاسخدهی بلادرنگ را که برای کاربردهایی از سیستمهای خودروهای خودران گرفته تا دستیاران موبایل تعاملی و اتوماسیون کارخانههای هوشمند حیاتی است، امکانپذیر میسازد. SLMها، با ردپای محاسباتی به طور قابل توجهی کوچکتر در مقایسه با LLMها، برای این محیطهای با منابع محدود ایدهآل هستند.
همزمان، پیشرفتهای قابل توجه در تکنیکهای فشردهسازی مدل (model compression techniques) به عنوان یک شتابدهنده قدرتمند عمل کردهاند. نوآوریهایی مانند کوانتیزاسیون (quantization) (کاهش دقت اعداد مورد استفاده در مدل) و هرس (pruning) (حذف اتصالات کماهمیتتر در شبکه عصبی) به توسعهدهندگان اجازه میدهد تا اندازه مدل را کوچک کرده و سرعت پردازش را به طور چشمگیری افزایش دهند. نکته مهم این است که این تکنیکها در حال تکامل هستند تا به کارایی بیشتری دست یابند و در عین حال تأثیر بر عملکرد و دقت مدل را به حداقل برسانند. این مزیت دوگانه - اندازه کوچکتر و قابلیت حفظ شده - SLMها را به طور فزایندهای به جایگزینهای مناسبی برای LLMها برای طیف رو به رشدی از وظایف تبدیل میکند.
علاوه بر این، شرکتها ارزش عملی ادغام SLMها را در عملیات اصلی خود تشخیص میدهند. از اتوماسیون فناوری اطلاعات (IT automation)، جایی که SLMها میتوانند لاگها را تجزیه و تحلیل کرده و خرابیهای سیستم را پیشبینی کنند، تا امنیت سایبری (cybersecurity)، جایی که میتوانند ناهنجاریها را در ترافیک شبکه شناسایی کنند، و کاربردهای تجاری (business applications) متنوع با هدف افزایش بهرهوری و بهبود فرآیندهای تصمیمگیری، تأثیر بالقوه گسترده است. SLMها مسیری را برای استقرار گستردهتر هوش مصنوعی ارائه میدهند، بهویژه در سناریوهای حساس به هزینه، حریم خصوصی یا نیازمند پردازش تقریباً آنی. این تلاقی نیازهای محاسبات لبه، افزایش کارایی از طریق فشردهسازی، و موارد استفاده سازمانی واضح، SLMها را نه تنها به عنوان نسخههای کوچکتر LLMها، بلکه به عنوان یک دسته متمایز و حیاتی از هوش مصنوعی که برای تأثیرگذاری قابل توجه آماده شده است، قرار میدهد.
شکاف استراتژیک: کنترل اکوسیستم در مقابل تخصصگرایی در حوزههای خاص
همانطور که چشمانداز SLM شکل میگیرد، رویکردهای استراتژیک متمایزی در میان بازیگران کلیدی که برای تسلط رقابت میکنند، در حال ظهور است. پویایی رقابتی عمدتاً حول دو فلسفه اصلی در حال شکلگیری است که هر کدام مدلهای تجاری و چشماندازهای بلندمدت متفاوتی را برای چگونگی کسب ارزش هوش مصنوعی منعکس میکنند.
یک مسیر برجسته، استراتژی کنترل اکوسیستم اختصاصی (proprietary ecosystem control strategy) است. این رویکرد مورد علاقه چندین غول فناوری و آزمایشگاههای هوش مصنوعی با بودجه خوب است که هدفشان ایجاد باغهای محصور در اطراف پیشنهادات SLM خود است. شرکتهایی مانند OpenAI، با انواع مشتق شده از تبار GPT (مانند خانواده پیشبینی شده GPT-4 mini)، Google با مدلهای Gemma خود، Anthropic که از Claude Haiku خود دفاع میکند، و Cohere که Command R+ را ترویج میکند، نمونههای بارز آن هستند. استراتژی آنها معمولاً شامل تجاریسازی SLMها به عنوان اجزای جداییناپذیر پلتفرمهای گستردهتر است که اغلب از طریق رابطهای برنامهنویسی کاربردی (APIs) مبتنی بر اشتراک، خدمات ابری یکپارچه (مانند Azure AI یا Google Cloud AI) یا از طریق قراردادهای صدور مجوز سازمانی ارائه میشود.
جذابیت این استراتژی در پتانسیل ادغام تنگاتنگ، عملکرد سازگار، امنیت پیشرفته و استقرار ساده در جریانهای کاری سازمانی تثبیت شده نهفته است. با کنترل اکوسیستم، این ارائهدهندگان میتوانند تضمینهایی در مورد قابلیت اطمینان و پشتیبانی ارائه دهندو SLMهای خود را برای کسبوکارهایی که به دنبال اتوماسیون قوی مبتنی بر هوش مصنوعی، دستیاران ‘copilot’ پیچیده تعبیهشده در مجموعههای نرمافزاری و ابزارهای پشتیبانی تصمیم قابل اعتماد هستند، جذاب کنند. این مدل، کسب ارزش را از طریق ارائه خدمات و قفل شدن در پلتفرم در اولویت قرار میدهد و از زیرساختها و دسترسی به بازار موجود ارائهدهندگان استفاده میکند. این به طور مؤثری به سازمانهایی که ادغام یکپارچه و خدمات هوش مصنوعی مدیریت شده را در اولویت قرار میدهند، پاسخ میدهد.
در تضاد شدید با بازی اکوسیستم، استراتژی مدل تخصصی دامنه-خاص (specialized domain-specific model strategy) قرار دارد. این رویکرد بر توسعه SLMهایی متمرکز است که به دقت برای تقاضاها، واژگان و محدودیتهای نظارتی منحصر به فرد صنایع خاص طراحی و تنظیم شدهاند. به جای هدف قرار دادن کاربرد گسترده، این مدلها برای عملکرد بالا در بخشهای عمودی مانند مالی، مراقبتهای بهداشتی، خدمات حقوقی یا حتی زمینههای فنی تخصصی مانند توسعه نرمافزار، بهینه شدهاند.
پیشگامان در این فضا شامل پلتفرمهایی مانند Hugging Face هستند که میزبان مدلهایی مانند Zephyr 7B است که به صراحت برای وظایف کدنویسی بهینه شدهاند، و بازیگران سازمانی تثبیت شده مانند IBM، که خانواده مدلهای Granite آن با در نظر گرفتن نیازهای هوش مصنوعی سازمانی، از جمله حاکمیت دادهها و انطباق، در هسته خود طراحی شدهاند. مزیت استراتژیک در اینجا به جای وسعت، در عمق نهفته است. با آموزش مدلها بر روی مجموعه دادههای خاص صنعت و بهینهسازی آنها برای وظایف خاص (به عنوان مثال، درک اصطلاحات مالی، تفسیر یادداشتهای پزشکی، تهیه پیشنویس بندهای قانونی)، این SLMها میتوانند به دقت و ارتباط متنی برتر در حوزههای تعیین شده خود دست یابند. این استراتژی به شدت با سازمانهای فعال در بخشهای تنظیمشده یا دانشمحور که مدلهای عمومی ممکن است کوتاهی کنند، طنینانداز میشود و آنها را قادر میسازد تا راهحلهای هوش مصنوعی بسیار دقیق و آگاه از زمینه را برای موارد استفاده تخصصی و حیاتی مستقر کنند. این استراتژی با پرداختن به نقاط درد خاص و الزامات انطباقی که مدلهای گسترده ممکن است نادیده بگیرند، پذیرش را تقویت میکند.
این دو استراتژی غالب لزوماً برای کل بازار متقابلاً انحصاری نیستند، اما تنشهای اصلی شکلدهنده رقابت را نشان میدهند. بازیگران اکوسیستم روی مقیاس، ادغام و قدرت پلتفرم شرطبندی میکنند، در حالی که متخصصان بر عمق، دقت و تخصص صنعتی تمرکز میکنند. تکامل بازار SLM احتمالاً شامل تعامل و رقابت بین این رویکردها خواهد بود و به طور بالقوه با بلوغ فناوری منجر به مدلهای ترکیبی یا تنوع استراتژیک بیشتر میشود.
غولها وارد میدان میشوند: کتاب بازی متصدیان
اختلال و فرصت بالقوه ارائه شده توسط مدلهای زبان کوچک از دید غولهای تثبیت شده دنیای فناوری پنهان نمانده است. این متصدیان با استفاده از منابع عظیم، روابط موجود با مشتریان و زیرساختهای گسترده خود، به طور استراتژیک در حال مانور دادن برای تضمین موقعیت پیشرو در این زمینه نوظهور هستند.
Microsoft
Microsoft، یک قدرت همیشگی در نرمافزارهای سازمانی و رایانش ابری، به شدت در حال بافتن SLMها در تار و پود فناوری خود است. با اتخاذ استراتژی کنترل اکوسیستم اختصاصی، این غول ردموندی در حال ادغام عمیق این مدلهای چابکتر در پلتفرم ابری Azure خود و مجموعه گستردهتر راهحلهای سازمانی است. پیشنهاداتی مانند سری Phi (شامل Phi-2) و خانواده Orca نشاندهنده SLMهای تجاری موجود هستند که به طور خاص برای وظایف هوش مصنوعی سازمانی بهینه شدهاند، ویژگیهای درون دستیاران Copilot خود را تأمین میکنند و ابزارهای قدرتمندی را برای توسعهدهندگانی که بر روی پشته Microsoft میسازند، فراهم میکنند.
یک شایستگی اصلی که زیربنای فشار Microsoft است، بخش تحقیقات هوش مصنوعی قدرتمند آن همراه با زیرساخت ابری Azure جهانی آن است. این ترکیب به Microsoft اجازه میدهد نه تنها مدلهای پیشرفتهای را توسعه دهد، بلکه آنها را به عنوان خدمات مقیاسپذیر، ایمن و قابل اعتماد به پایگاه مشتریان سازمانی عظیم خود ارائه دهد. مشارکت استراتژیک چند میلیارد دلاری این شرکت با OpenAI سنگ بنای استراتژی هوش مصنوعی آن است و به آن دسترسی ممتاز به مدلهای OpenAI (از جمله انواع بالقوه SLM) را میدهد و امکان ادغام تنگاتنگ آنها را در محصولات Microsoft مانند Office 365، Bing و خدمات مختلف Azure AI فراهم میکند. این رابطه همزیستی، هم SLMهای توسعهیافته داخلی و هم دسترسی به مسلماً شناختهشدهترین برند در هوش مصنوعی مولد را برای Microsoft فراهم میکند.
علاوه بر این، خریدهای استراتژیک موقعیت Microsoft را تقویت میکنند. خرید Nuance Communications، پیشرو در هوش مصنوعی مکالمهای و فناوری مستندسازی مراقبتهای بهداشتی، به طور قابل توجهی قابلیتهای آن را در برنامههای کاربردی هوش مصنوعی خاص عمودی، بهویژه در سناریوهای مراقبتهای بهداشتی و اتوماسیون سازمانی که درک زبان تخصصی در آنها بسیار مهم است، تقویت کرد. این اقدامات حسابشده - ترکیب توسعه داخلی، مشارکتهای استراتژیک، خریدها و ادغام عمیق با پلتفرمهای ابری و نرمافزاری غالب خود - Microsoft را به عنوان یک نیروی قدرتمند قرار میدهد که هدف آن تبدیل اکوسیستم خود به انتخاب پیشفرض برای پذیرش SLM سازمانی در صنایع مختلف است.
IBM
International Business Machines (IBM)، با تاریخچه طولانی و ریشهدار خود در محاسبات سازمانی، با تمرکز مشخص بر کاربردهای تجاری محور، اعتماد و حاکمیت به بازار SLM نزدیک میشود. Big Blue به طور فعال در حال توسعه و بهینهسازی SLMها در پلتفرم watsonx.ai خود است و آنها را به عنوان راهحلهای هوش مصنوعی مقرونبهصرفه، کارآمد و آگاه از دامنه که به طور خاص برای نیازهای سازمانی طراحی شدهاند، چارچوببندی میکند.
استراتژی IBM عمداً با رویکردهایی که مدلهای رو به مصرفکننده یا عمومی را در اولویت قرار میدهند، در تضاد است. در عوض، تأکید کاملاً بر ویژگیهای حیاتی برای استقرار سازمانی است: قابلیت اطمینان، حاکمیت دادهها و پایبندی به اصول اخلاقی هوش مصنوعی. این امر باعث میشود پیشنهادات SLM IBM، مانند مدلهای Granite، بهویژه برای استقرار در محیطهای امن و صنایعی که مشمول انطباق نظارتی سختگیرانه هستند، مناسب باشند. IBM میداند که برای بسیاری از سازمانهای بزرگ، بهویژه در امور مالی و مراقبتهای بهداشتی، توانایی ممیزی، کنترل و اطمینان از استفاده مسئولانه از هوش مصنوعی غیرقابل مذاکره است.
با گنجاندن این SLMهای متمرکز بر حاکمیت در راهحلهای ابر ترکیبی و خدمات مشاورهای خود، IBM قصد دارد کسبوکارها را قادر سازد تا اتوماسیون را افزایش دهند، تصمیمگیری مبتنی بر داده را بهبود بخشند و کارایی عملیاتی را بدون به خطر انداختن امنیت یا استانداردهای اخلاقی، سادهسازی کنند. روابط عمیق سازمانی و شهرت آنها برای قابلیت اطمینان به عنوان داراییهای کلیدی در ترویج SLMها به عنوان ابزارهای عملی و قابل اعتماد برای تحول دیجیتال در ساختارهای سازمانی پیچیده عمل میکند. IBM شرط میبندد که برای بسیاری از کسبوکارها، ‘چگونگی’ استقرار هوش مصنوعی - ایمن و مسئولانه - به اندازه ‘چیستی’ آن مهم است.
در حالی که شاید بیشتر با مدلهای مقیاس بزرگ خود مانند Gemini شناخته میشود، Google همچنین یک بازیگر مهم در عرصه SLM است و عمدتاً از اکوسیستم و قابلیتهای تحقیقاتی گسترده خود استفاده میکند. از طریق مدلهایی مانند Gemma (به عنوان مثال، Gemma 7B)، Google مدلهای باز نسبتاً سبک وزن اما توانمندی را ارائه میدهد و هدف آن تقویت پذیرش توسعهدهندگان و ادغام در اکوسیستم خود، بهویژه Google Cloud Platform (GCP) است.
به نظر میرسد استراتژی Google ترکیبی از عناصر کنترل اکوسیستم و پرورش یک جامعه گستردهتر است. با انتشار مدلهایی مانند Gemma، آزمایش را تشویق میکند و به توسعهدهندگان اجازه میدهد تا برنامههایی را با استفاده از زیرساختهای اساسی Google (مانند TPUها برای آموزش و استنتاج کارآمد) بسازند. این رویکرد به افزایش استفاده از خدمات هوش مصنوعی GCP کمک میکند و Google را به عنوان ارائهدهنده مدلهای بنیادی و ابزارهای استقرار مؤثر آنها قرار میدهد. تخصص عمیق آنها در جستجو، موبایل (Android) و زیرساخت ابری، راههای متعددی را برای ادغام SLMها به منظور بهبود محصولات موجود یا ایجاد تجربیات جدید روی دستگاه فراهم میکند. مشارکت Google تضمین میکند که بازار SLM به شدت رقابتی باقی بماند و مرزهای کارایی و دسترسی را جابجا کند.
AWS
Amazon Web Services (AWS)، بازیگر غالب در زیرساخت ابری، به طور طبیعی SLMها را در مجموعه جامع هوش مصنوعی و یادگیری ماشین خود ادغام میکند. از طریق خدماتی مانند Amazon Bedrock، AWS به کسبوکارها امکان دسترسی به مجموعهای منتخب از مدلهای بنیادی، از جمله SLMها از ارائهدهندگان مختلف (بالقوه شامل مدلهای خود، مانند مدلهای Nova مفهومی که در برخی زمینهها ذکر شده است، اگرچه جزئیات ممکن است متفاوت باشد) را میدهد.
استراتژی AWS عمدتاً بر ارائه انتخاب و انعطافپذیری در محیط ابری قدرتمند خود متمرکز است. با ارائه SLMها از طریق Bedrock، AWS به مشتریان خود اجازه میدهد تا به راحتی با استفاده از ابزارها و زیرساختهای آشنای AWS، این مدلها را آزمایش، سفارشیسازی و مستقر کنند. این رویکرد پلتفرم-محور بر در دسترس قرار دادن SLMها به عنوان خدمات مدیریت شده تمرکز دارد و بار عملیاتی را برای کسبوکارهایی که میخواهند از هوش مصنوعی بدون مدیریت سختافزار زیربنایی یا خطوط لوله استقرار مدل پیچیده استفاده کنند، کاهش میدهد. AWS قصد دارد پلتفرم بنیادی باشد که در آن شرکتها میتوانند برنامههای هوش مصنوعی خود را بسازند و اجرا کنند، صرف نظر از اینکه مدلهای بزرگ یا کوچک را انتخاب میکنند، و از مقیاس، امنیت و پیشنهادات خدمات گسترده خود برای حفظ رهبری ابری خود در عصر هوش مصنوعی استفاده میکند.
اخلالگران و متخصصان: ایجاد مسیرهای جدید
فراتر از غولهای فناوری تثبیت شده، گروهی پر جنب و جوش از تازهواردان و شرکتهای تخصصی به طور قابل توجهی بر جهت و پویایی بازار مدلهای زبان کوچک تأثیر میگذارند. این شرکتها اغلب دیدگاههای تازهای را به ارمغان میآورند و بر اصول منبع باز، حوزههای صنعتی خاص یا رویکردهای فناوری منحصر به فرد تمرکز میکنند.
OpenAI
OpenAI، که مسلماً کاتالیزور موج اخیر علاقه به هوش مصنوعی مولد است، حضوری فرماندهی در فضای SLM دارد و بر اساس تحقیقات پیشگامانه و استراتژیهای استقرار موفق خود بنا شده است. در حالی که به خاطر مدلهای بزرگش مشهور است، OpenAI به طور فعال در حال توسعه و استقرار انواع کوچکتر و کارآمدتر، مانند خانواده پیشبینی شده GPT-4o mini، خانواده o1-mini و خانواده o3-mini است. این نشاندهنده درک استراتژیک است که موارد استفاده مختلف به اندازهها و ویژگیهای عملکردی متفاوتی نیاز دارند.
به عنوان یک پیشگام در پردازش زبان طبیعی، مزیت رقابتی OpenAI از تخصص تحقیقاتی عمیق و توانایی اثبات شده آن در تبدیل تحقیقات به محصولات تجاری قابل دوام ناشی میشود. تمرکز آن فراتر از قابلیت خام به جنبههای حیاتی مانند کارایی، ایمنی و استقرار اخلاقی هوش مصنوعی گسترش مییابد، که با گسترش بیشتر مدلها اهمیت ویژهای پیدا میکنند. مدل تحویل مبتنی بر API این شرکت در دموکراتیک کردن دسترسی به هوش مصنوعی قدرتمند نقش اساسی داشته است و به توسعهدهندگان و کسبوکارها در سراسر جهان اجازه میدهد تا فناوری آن را ادغام کنند. مشارکت استراتژیک با Microsoft سرمایه قابل توجه و دسترسی بینظیر به بازار را فراهم میکند و فناوری OpenAI را در یک اکوسیستم سازمانی گسترده تعبیه میکند.
OpenAI با کاوش فعالانه تکنیکهای پیشرفته فشردهسازی مدل و بررسی معماریهای ترکیبی که ممکن است نقاط قوت اندازههای مختلف مدل را برای افزایش عملکرد و در عین حال به حداقل رساندن نیازهای محاسباتی ترکیب کنند، به پیشبرد مرزها ادامه میدهد. رهبری آن در توسعه تکنیکهایی برای تنظیم دقیق و سفارشیسازی مدلها به سازمانها اجازه میدهد تا مدلهای پایه قدرتمند OpenAI را برای نیازهای صنعتی خاص و مجموعه دادههای اختصاصی تطبیق دهند و موقعیت بازار خود را به عنوان یک نوآور و یک توانمندساز کلیدی هوش مصنوعی کاربردی بیشتر تثبیت کنند.
Anthropic
Anthropic با قرار دادن ایمنی، قابلیت اطمینان و ملاحظات اخلاقی در خط مقدم فلسفه توسعه خود، هویتی متمایز در چشمانداز هوش مصنوعی ایجاد کرده است. این تمرکز به وضوح در رویکرد آن به SLMها، که توسط مدلهایی مانند Claude Haiku نمونهسازی شده است، منعکس میشود. Haiku که به صراحت برای عملکرد ایمن و قابل اعتماد در زمینههای سازمانی طراحی شده است، هدف آن ارائه قابلیتهای مفید هوش مصنوعی و در عین حال به حداقل رساندن خطرات تولید محتوای مضر، مغرضانه یا نادرست است.
Anthropic با قرار دادن خود به عنوان ارائهدهنده هوش مصنوعی قابل اعتماد، بهویژه برای سازمانهایی که در حوزههای حساس فعالیت میکنند یا آنهایی که پذیرش مسئولانه هوش مصنوعی را در اولویت قرار میدهند، جذاب است. تأکید آنها بر هوش مصنوعی مبتنی بر قانون اساسی و آزمایش ایمنی دقیق، آنها را از رقبایی که ممکن است عملکرد خام را بالاتر از همه چیز در اولویت قرار دهند، متمایز میکند. با ارائه SLMهایی که نه تنها توانمند هستند بلکه با حفاظهایی در برابر سوء استفاده طراحی شدهاند، Anthropic به تقاضای فزاینده برای راهحلهای هوش مصنوعی که با ارزشهای شرکتی و انتظارات نظارتی همسو هستند، پاسخ میدهد و آنها را به یک رقیب کلیدی تبدیل میکند، بهویژه برای کسبوکارهایی که به دنبال شرکای هوش مصنوعی قابل اعتماد و مبتنی بر اخلاق هستند.
Mistral AI
Mistral AI، یک شرکت فرانسوی که در سال 2023 تأسیس شد و به سرعت از صحنه فناوری اروپا ظهور کرد، امواج قابل توجهی را در بخش SLM ایجاد کرده است. استراتژی اصلی آن حول ایجاد مدلهای هوش مصنوعی فشرده و بسیار کارآمد میچرخد که به صراحت برای عملکرد و قابلیت استقرار، حتی در دستگاههای محلی یا در محیطهای محاسبات لبه، طراحی شدهاند. مدلهایی مانند Mistral 7B (که در ابتدا منتشر شد) به دلیل ارائه عملکرد قابل توجه نسبت به اندازه متوسط خود (7 میلیارد پارامتر) توجه گستردهای را به خود جلب کردند و آنها را برای سناریوهایی که منابع محاسباتی محدود هستند، بسیار مناسب ساختند.
یک تمایز کلیدی برای Mistral AI تعهد قوی آن به توسعه منبع باز است. Mistral AI با انتشار بسیاری از مدلها و ابزارهای خود تحت مجوزهای مجاز، همکاری، شفافیت و نوآوری سریع را در جامعه گستردهتر هوش مصنوعی تقویت میکند. این رویکرد با اکوسیستمهای اختصاصی برخی از بازیگران بزرگتر در تضاد است و به سرعت طرفداران وفاداری را در میان توسعهدهندگان و محققان ایجاد کرده است. فراتر از مدلهای بنیادی خود، این شرکت با تولید انواعی مانند Mistral Saba، متناسب با زبانهای خاورمیانه و آسیای جنوبی، و کاوش در قابلیتهای چندوجهی با مفاهیمی مانند Pixtral (با هدف درک تصویر)، تطبیقپذیری خود را نشان داده است و جاهطلبی خود را برای پرداختن به نیازهای زبانی و عملکردی متنوع به نمایش میگذارد. صعود سریع Mistral AI اشتهای قابل توجه برای جایگزینهای با کارایی بالا، کارآمد و اغلب منبع باز در بازار هوش مصنوعی را برجسته میکند.
Infosys
Infosys، یک stalwart جهانی در خدمات و مشاوره فناوری اطلاعات، از تخصص عمیق صنعتی و روابط با مشتری خود برای ایجاد جایگاهی در بازار SLM، با تمرکز بر راهحلهای خاص صنعت استفاده میکند. راهاندازی Infosys Topaz BankingSLM و Infosys Topaz ITOpsSLM نمونهای از این استراتژی است. این مدلها به طور هدفمند برای رسیدگی به چالشها و جریانهای کاری منحصر به فرد در بخشهای بانکداری و عملیات فناوری اطلاعات ساخته شدهاند.
یک توانمندساز کلیدی برای Infosys مشارکت استراتژیک آن با NVIDIA است که از پشته هوش مصنوعی NVIDIA به عنوان پایه این SLMهای تخصصی استفاده میکند. این مدلها برای ادغام یکپارچه با سیستمهای سازمانی موجود، از جمله پلتفرم بانکی Finacle که به طور گسترده توسط خود Infosys استفاده میشود، طراحی شدهاند. این SLMها که در یک مرکز تعالی اختصاصی متمرکز بر فناوریهای NVIDIA توسعه یافتهاند و از طریق همکاری با شرکایی مانند Sarvam AI بیشتر تقویت شدهاند، از آموزش بر روی دادههای عمومی و خاص بخش بهره میبرند. نکته مهم این است که Infosys فقط مدلها را ارائه نمیدهد؛ بلکه خدمات پیشآموزش و تنظیم دقیق را نیز ارائه میدهد و شرکتها را قادر میسازد تا مدلهای هوش مصنوعی سفارشی متناسب با دادههای اختصاصی و نیازهای عملیاتی خاص خود ایجاد کنند، در حالی که امنیت و انطباق با استانداردهای صنعتی مربوطه را تضمین میکنند. این رویکرد خدماتمحور، Infosys را به عنوان یکپارچهساز و سفارشیساز فناوری SLM برای شرکتهای بزرگ قرار میدهد.
سایر بازیگران قابل توجه
زمینه SLM گستردهتر از این شرکتهای برجسته است. سایر مشارکتکنندگان مهم در حال پیشبرد نوآوری و شکلدهی به بخشهای خاص بازار هستند:
- Cohere: بر هوش مصنوعی سازمانی تمرکز دارد و مدلهایی مانند Command R+ را ارائه میدهد که برای موارد استفاده تجاری طراحی شدهاند و اغلب بر حریم خصوصی دادهها و انعطافپذیری استقرار (به عنوان مثال، در ابرهای مختلف یا داخلی) تأکید میکنند.
- Hugging Face: در حالی که عمدتاً به عنوان یک پلتفرم و مرکز جامعه شناخته میشود، Hugging Face همچنین به توسعه مدل (مانند Zephyr 7B برای کدنویسی) کمک میکند و نقش مهمی در دموکراتیک کردن دسترسی به هزاران مدل، از جمله بسیاری از SLMها، ایفا میکند و تحقیقات و توسعه برنامهها را تسهیل میکند.
- Stability AI: Stability AI که در ابتدا به خاطر کارش در تولید تصویر (Stable Diffusion) مشهور بود، در حال گسترش سبد محصولات خود به مدلهای زبان است و SLMهای فشرده و کارآمد مناسب برای استقرار روی دستگاه و برنامههای کاربردی سازمانی مختلف را کاوش میکند و از تخصص خود در هوش مصنوعی مولد استفاده میکند.
این شرکتها، در کنار بازیگران بزرگتر، به یک اکوسیستم پویا و به سرعت در حال تحول کمک میکنند. استراتژیهای متنوع آنها - که شامل منبع باز، پلتفرمهای اختصاصی، تخصص صنعتی و تحقیقات بنیادی میشود - به طور جمعی پیشرفتها را در کارایی، دسترسی و قابلیت SLM هدایت میکنند و تضمین میکنند که این مدلهای کوچکتر نقش فزایندهای مرکزی در آینده هوش مصنوعی در کاربردها و صنایع بیشمار ایفا کنند.