Sarvam AI، یک استارتآپ مستقر در بنگلور، اخیراً از یک مدل زبان بزرگ (LLM) پیشگامانه با 24 میلیارد پارامتر رونمایی کرده است که با دقت و ظرافت برای برتری در زبانهای هندی و مقابله با وظایف استدلال پیچیده، از جمله ریاضیات و برنامهنویسی طراحی شده است. این مدل نوآورانه که Sarvam-M نامیده میشود (“M” نشاندهنده Mistral است)، نشاندهنده پیشرفت قابل توجهی در قلمرو مدلهای ترکیبی با وزنهای باز است. این مدل بر پایه Mistral Small، یک مدل زبانی جمعوجور اما فوقالعاده قدرتمند با منبع باز، بنا شده و قابلیتهای آن را از طریق آموزش تخصصی و تکنیکهای بهینهسازی افزایش میدهد.
Sarvam-M: رویکردی ترکیبی به مدلسازی زبان
Sarvam-M به دلیل رویکرد ترکیبی خود، که نقاط قوت یک پایه منبع باز را با پیشرفتهای اختصاصی ترکیب میکند، برجسته است. این فلسفه طراحی Sarvam AI را قادر میسازد تا از دانش جمعی و پشتیبانی جامعه پیرامون مدل Mistral Small استفاده کند و در عین حال آن را برای رفع نیازهای خاص بازار هند تنظیم کند. معماری مدل و روشهای آموزشی، کلید درک عملکرد و قابلیتهای آن هستند.
تنظیم دقیق نظارتشده: دقت و صحت
برای ارتقای دقت و صحت مدل، Sarvam AI از یک فرآیند دقیق تنظیم دقیق نظارتشده استفاده کرد. این شامل آموزش مدل بر روی یک مجموعه داده با دقت انتخاب شده از مثالهایی است که به طور خاص برای بهبود عملکرد آن در انواع وظایف طراحی شدهاند. با قرار دادن مدل در معرض طیف متنوعی از سناریوها و ارائه دادههای واضح و برچسبگذاری شده به آن، فرآیند تنظیم دقیق نظارتشده، Sarvam-M را قادر میسازد تا الگوها و روابط پیچیده را در دادهها یاد بگیرد، که منجر به خروجیهای دقیقتر و قابلاعتمادتر میشود.
یادگیری تقویتی با پاداشهای قابل تأیید: مهارت تصمیمگیری
علاوه بر تنظیم دقیق نظارتشده، Sarvam AI یادگیری تقویتی با پاداشهای قابل تأیید را برای افزایش قابلیتهای تصمیمگیری مدل گنجانده است. این تکنیک شامل آموزش مدل برای یادگیری از بازخوردی است که به اهداف واضح و قابل اندازهگیری، مانند حل صحیح یک مسئله ریاضی گره خورده است. با پاداش دادن به مدل برای دستیابی به این اهداف، فرآیند یادگیری تقویتی آن را تشویق میکند تا تصمیمات بهتری بگیرد و عملکرد خود را در طول زمان بهینه کند. این رویکرد به ویژه برای وظایفی که به استدلال پیچیده و مهارتهای حل مسئله نیاز دارند مؤثر است.
بهینهسازیشده برای استفاده در زمان واقعی: کارایی و پاسخدهی
Sarvam AI با درک اهمیت عملکرد در زمان واقعی، Sarvam-M را با دقت بهینه کرده است تا به طور کارآمدتر و دقیقتر در هنگام تولید پاسخها، به ویژه در طول استفاده در زمان واقعی، پاسخ دهد. این شامل تنظیم دقیق معماری و الگوریتمهای مدل برای به حداقل رساندن تأخیر و به حداکثر رساندن توان عملیاتی است، که تضمین میکند کاربران میتوانند پاسخهای بهموقع و مرتبط به سؤالات خود دریافت کنند. تلاشهای بهینهسازی بر کاهش سربار محاسباتی و بهبود توانایی مدل در مدیریت درخواستهای همزمان متمرکز بود، و آن را برای استقرار در محیطهای پر تقاضا مناسب ساخت.
محکزنی عملکرد: تعیین استانداردهای جدید
ادعای Sarvam AI مبنی بر اینکه Sarvam-M یک معیار جدید برای مدلهای هم اندازه خود در زبانهای هندی و وظایف ریاضی و برنامهنویسی تعیین میکند، توسط دادههای وسیع محکزنی پشتیبانی میشود. این استارتآپ ارزیابیهای دقیقی از عملکرد مدل در انواع معیارهای استاندارد انجام داد و نتایج آن را با نتایج سایر مدلهای پیشرفته مقایسه کرد. نتایج این ارزیابیها نشاندهنده بهبودهای قابل توجهی است که توسط Sarvam-M در چندین زمینه کلیدی به دست آمده است.
معیارهای زبان هندی: میانگین 20٪ افزایش عملکرد
بر اساس پست وبلاگی منتشر شده توسط SarvamAI، Sarvam-M بهبودهای عمدهای را نسبت به مدل پایه نشان میدهد، با میانگین افزایش عملکرد 20٪ در معیارهای زبان هندی. این بهبود اساسی بر اثربخشی فرآیند تنظیم دقیق نظارتشده در افزایش درک و تولید زبانهای هندی توسط مدل تأکید میکند. توانایی مدل در رسیدگی به تفاوتهای ظریف و پیچیدگیهای این زبانها برای پذیرش و استفاده از آن در بازار هند بسیار مهم است. معیارهای خاص مورد استفاده برای ارزیابی عملکرد شامل وظایفی مانند طبقهبندی متن، پاسخ به سؤالات و ترجمه ماشینی بود که طیف متنوعی از چالشهای زبانی را پوشش میداد.
وظایف ریاضی: میانگین 21.6٪ افزایش عملکرد
Sarvam-M علاوه بر زبانهای هندی، افزایش عملکرد چشمگیری را در وظایف ریاضی نیز نشان میدهد، با میانگین بهبود 21.6٪. این افزایش قابل توجه در دقت و توانایی حل مسئله، اثربخشی یادگیری تقویتی با تکنیک پاداشهای قابل تأیید را در افزایش قابلیتهای استدلال مدل برجسته میکند. توانایی مدل در حل مسائل ریاضی برای کاربرد آن در زمینههایی مانند مدلسازی مالی، تحقیقات علمی و تجزیه و تحلیل دادهها ضروری است. معیارهای مورد استفاده برای ارزیابی عملکرد در وظایف ریاضی شامل مسائلی از حوزههای مختلف، مانند جبر، حساب دیفرانسیل و انتگرال و آمار بود. مدل در توانایی خود برای ارائه نه تنها پاسخهای صحیح، بلکه نشان دادن فرآیند استدلال و توجیه راه حلهای خود نیز مورد ارزیابی قرار گرفت.
تستهای برنامهنویسی: میانگین 17.6% افزایش عملکرد
عملکرد Sarvam-M در تستهای برنامهنویسی به همان اندازه قابل توجه است، با میانگین افزایش 17.6٪. این بهبود نشاندهنده توانایی مدل در درک و تولید کد در زبانهای برنامهنویسی مختلف است و آن را به ابزاری ارزشمند برای توسعهدهندگان و مهندسان نرمافزار تبدیل میکند. مهارت مدل در برنامهنویسی برای کاربرد آن در زمینههایی مانند تولید کد، تشخیص باگ و تست خودکار بسیار مهم است. معیارهای مورد استفاده برای ارزیابی عملکرد در تستهای برنامهنویسی شامل وظایفی مانند تکمیل کد، تعمیر کد و تولید کد از توضیحات زبان طبیعی بود. مدل در توانایی خود برای تولید کد از نظر نحوی صحیح و از نظر معنایی معنادار که الزامات داده شده را برآورده میکند، مورد ارزیابی قرار گرفت.
وظایف ترکیبی: عملکرد استثنایی
این مدل حتی عملکرد بهتری در وظایفی دارد که زبانهای هندی و ریاضی را با هم ترکیب میکنند، که نشاندهنده تطبیقپذیری و توانایی آن در مدیریت سناریوهای پیچیدهای است که هم به مهارتهای زبانی و هم به مهارتهای استدلال نیاز دارند. به عنوان مثال، این مدل به 86٪ بهبود در نسخه زبان هندی رومی شده معیار GSM-8K دست یافت. این بهبود قابل توجه بر توانایی مدل در استفاده از دانش خود از هر دو زبان هندی و مفاهیم ریاضی برای حل مسائل چالش برانگیز تأکید میکند. معیار GSM-8K یک مجموعه داده پرکاربرد است که توانایی یک مدل را در حل مسائل ریاضی مدرسه ابتدایی که به زبان طبیعی بیان شده است، آزمایش میکند. عملکرد مدل در این معیار نشاندهنده توانایی آن در درک بیان مسئله، شناسایی اطلاعات مرتبط و اعمال عملیات ریاضی مناسب برای رسیدن به راه حل صحیح است. بهبود 86 درصدی به دست آمده توسط Sarvam-M گواهی بر قابلیتهای استدلال پیشرفته و توانایی آن در مدیریت وظایف پیچیده و چندوجهی است.
مقایسه با سایر مدلها: Sarvam-M جایگاه خود را دارد
پست وبلاگ Sarvam AI مقایسههایی بین Sarvam-M و سایر مدلهای زبانی برجسته انجام میدهد و بر عملکرد رقابتی آن تأکید میکند. این تحلیل مقایسهای بینشهای ارزشمندی را در مورد نقاط قوت و ضعف مدل ارائه میدهد و به کاربران اجازه میدهد تا تصمیمات آگاهانهای در مورد مناسب بودن آن برای نیازهای خاص خود بگیرند. این پست وبلاگی این واقعیت را برجسته میکند که Sarvam-M از Llama-2 7B در اکثر معیارها بهتر عمل میکند و با مدلهای متراکم بزرگتر مانند Llama-3 70B و مدلهایی مانند Gemma 27B، که از قبل روی توکنهای بسیار بیشتری آموزش دیدهاند، قابل مقایسه است. این مقایسهها بر کارایی روش آموزش Sarvam-M و توانایی آن در دستیابی به عملکرد رقابتی با اندازه پارامتر نسبتاً کوچکتر تأکید میکند. توانایی دستیابی به عملکرد قابل مقایسه با پارامترهای کمتر به معنای هزینههای محاسباتی پایینتر و سرعت استنتاج سریعتر است، و Sarvam-M را به یک راه حل عملیتر و در دسترستر برای بسیاری از کاربران تبدیل میکند.
معیارهای مبتنی بر دانش انگلیسی: جای پیشرفت وجود دارد
Sarvam AI با وجود عملکرد چشمگیر در زبانهای هندی و وظایف استدلال، اذعان میکند که Sarvam-M هنوز در معیارهای مبتنی بر دانش انگلیسی مانند MMLU نیاز به بهبود دارد. در این معیارها، Sarvam-M حدود 1 واحد درصد کمتر از مدل پایه عمل میکند. این افت جزئی در عملکرد نشان میدهد که دادههای آموزشی مدل ممکن است به سمت زبانهای هندی و وظایف استدلال سوگیری داشته باشد، و در نتیجه درک کمی ضعیفتر از دانش انگلیسی ایجاد شده است. با این حال، Sarvam AI به طور فعال در تلاش است تا این مشکل را با گنجاندن دادههای زبان انگلیسی بیشتر در مجموعه دادههای آموزشی مدل و با تنظیم دقیق معماری مدل برای مدیریت بهتر وظایف مبتنی بر دانش انگلیسی برطرف کند. این شرکت متعهد به دستیابی به برابری با سایر مدلهای پیشرفته در معیارهای زبان انگلیسی است و اطمینان میدهد که Sarvam-M یک مدل زبانی همهکاره و رقابتی در سطح جهانی است.
تطبیقپذیری و کاربردها: طیف گستردهای از احتمالات
Sarvam-M برای تطبیقپذیری ساخته شده و برای پشتیبانی از طیف گستردهای از کاربردها، از جمله عوامل مکالمه، ترجمه و ابزارهای آموزشی طراحی شده است. توانایی آن در درک و تولید زبانهای هندی، همراه با قابلیتهای استدلال آن، آن را به یک دارایی ارزشمند برای مشاغل و سازمانهایی که در بازار هند فعالیت میکنند تبدیل میکند.
عوامل مکالمه: بهبود خدمات مشتری
از Sarvam-M میتوان برای قدرت بخشیدن به عوامل مکالمه استفاده کرد که میتوانند با مشتریان به زبان مادری خود تعامل داشته باشند و خدمات مشتری شخصی و کارآمد ارائه دهند. این عوامل میتوانند طیف گستردهای از وظایف را انجام دهند، مانند پاسخ دادن به سؤالات متداول، ارائه اطلاعات محصول و رفع شکایات مشتریان. Sarvam-M با توانمندسازی مشتریان برای برقراری ارتباط به زبان دلخواه خود، میتواند رضایت و وفاداری مشتری را بهبود بخشد. عوامل مکالمهای که توسط Sarvam-M تامین میشوند، میتوانند در پلتفرمهای مختلف، مانند وبسایتها، برنامههای تلفن همراه و پلتفرمهای پیامرسانی مستقر شوند، و تجربه ارتباطی یکپارچه و راحت را برای مشتریان فراهم کنند.
ترجمه: از بین بردن موانع زبانی
از قابلیتهای ترجمه Sarvam-M میتوان برای از بین بردن موانع زبانی و تسهیل ارتباط بین افرادی که به زبانهای مختلف صحبت میکنند، استفاده کرد. این مدل میتواند متن و گفتار بین انگلیسی و زبانهای مختلف هندی را ترجمه کند و مشاغل را قادر سازد تا دامنه دسترسی خود را به بازارهای جدید گسترش دهند و افراد را قادر سازد تا با افرادی از فرهنگهای مختلف ارتباط برقرار کنند. خدمات ترجمه ارائه شده توسط Sarvam-M میتوانند در برنامههای مختلف، مانند ابزارهای ترجمه سند، پلاگینهای ترجمه وبسایت و برنامههای ترجمه بیدرنگ ادغام شوند، و قابلیتهای ترجمه یکپارچه و دقیقی را در اختیار کاربران قرار دهند.
ابزارهای آموزشی: تجربیات یادگیری شخصیسازیشده
از Sarvam-M میتوان برای توسعه ابزارهای آموزشی استفاده کرد که تجربیات یادگیری شخصیسازیشده را برای دانشآموزان در تمام سنین فراهم میکند. این مدل میتواند مواد یادگیری سفارشیشده تولید کند، بازخورد در مورد کار دانشآموز ارائه دهد و به سؤالات دانشآموز پاسخ دهد. Sarvam-M با تنظیم تجربه یادگیری بر اساس نیازهای فردی و سبک یادگیری هر دانشآموز، میتواند مشارکت دانشآموز و عملکرد تحصیلی را بهبود بخشد. ابزارهای آموزشی که توسط Sarvam-M تامین میشوند، میتوانند در پلتفرمهای مختلف، مانند پلتفرمهای یادگیری آنلاین، برنامههای تلفن همراه و کتابهای درسی تعاملی مستقر شوند، و دسترسی دانشآموزان به منابع یادگیری شخصیسازیشده را در هر زمان و هر مکان فراهم کنند.
دسترسی و در دسترس بودن: توانمندسازی توسعهدهندگان
Sarvam AI Sarvam-M را به راحتی در دسترس توسعهدهندگان و محققان قرار داده است و نوآوری و همکاری را در جامعه هوش مصنوعی تقویت میکند. این مدل برای دانلود در Hugging Face، یک پلتفرم محبوب برای به اشتراک گذاری و دسترسی به مدلهای هوش مصنوعی منبع باز، در دسترس است. توسعهدهندگان همچنین میتوانند مدل را در زمین بازی Sarvam AI آزمایش کنند، یک رابط مبتنی بر وب که به کاربران اجازه میدهد تا قابلیتهای مدل را آزمایش کنند و پتانسیل کاربردهای آن را کشف کنند. علاوه بر این، Sarvam AI APIهایی را ارائه میدهد که به توسعهدهندگان اجازه میدهد تا Sarvam-M را در برنامهها و خدمات خود ادغام کنند. Sarvam AI با فراهم کردن دسترسی آسان به مدل و ابزارهای مرتبط با آن، توسعهدهندگان را قادر میسازد تا راه حلهای نوآورانهای بسازند که از قدرت هوش مصنوعی استفاده میکنند.
برنامههای آینده: ایجاد یک اکوسیستم هوش مصنوعی مستقل در هند
Sarvam AI قصد دارد به طور منظم مدلها را به عنوان بخشی از تلاش خود برای ایجاد یک اکوسیستم هوش مصنوعی مستقل در هند منتشر کند. این مدل اولین مدل در آن مجموعه از مشارکتها است. این شرکت متعهد به توسعه و استقرار فناوریهای هوش مصنوعی است که با نیازها و ارزشهای مردم هند همسو باشد. Sarvam AI با تقویت یک صنعت قوی هوش مصنوعی داخلی، قصد دارد وابستگی هند به فناوریهای خارجی را کاهش دهد و رشد اقتصادی و توسعه اجتماعی را ارتقا دهد. چشم انداز این شرکت ایجاد یک اکوسیستم هوش مصنوعی است که هم نوآورانه و هم فراگیر باشد و اطمینان دهد که همه هندیها به مزایای هوش مصنوعی دسترسی دارند.
در اواخر آوریل، دولت هند Sarvam را برای ساخت LLM مستقل این کشور به عنوان بخشی از مأموریت IndiaAI، یک تلاش ملی برای تقویت قابلیتهای داخلی در فناوریهای نوظهور، انتخاب کرد. این انتخاب بر اعتماد دولت به توانایی Sarvam AI برای تحقق بخشیدن به چشم انداز خود از یک اکوسیستم هوش مصنوعی مستقل در هند تأکید میکند. مأموریت IndiaAI یک ابتکار جامع است که هدف آن ترویج تحقیق و توسعه در هوش مصنوعی، تقویت نوآوری و کارآفرینی و ایجاد یک نیروی کار ماهر برای حمایت از صنعت هوش مصنوعی است. دولت با مشارکت با Sarvam AI، گامی مهم در جهت دستیابی به اهداف خود و تثبیت هند به عنوان یک رهبر جهانی در هوش مصنوعی برداشته است.