Sarvam AI Lancar LLM 24B: Lompatan untuk Bahasa India

Sarvam AI, sebuah syarikat permulaan yang berpangkalan di Bengaluru, baru-baru ini melancarkan model bahasa besar (LLM) 24 bilion parameter yang inovatif yang direka dengan teliti untuk cemerlang dalam bahasa India dan menangani tugas penaakulan yang rumit, termasuk matematik dan pengaturcaraan. Model inovatif ini, yang dinamakan Sarvam-M (dengan "M" menandakan Mistral), mewakili kemajuan yang ketara dalam bidang model hibrid berat terbuka. Ia dibina berdasarkan asas Mistral Small, model bahasa sumber terbuka yang padat namun sangat berkuasa, meningkatkan keupayaannya melalui teknik latihan dan pengoptimuman khusus.

Sarvam-M: Pendekatan Hibrid untuk Pemodelan Bahasa

Sarvam-M menonjol kerana pendekatan hibridnya, menggabungkan kekuatan asas sumber terbuka dengan peningkatan proprietari. Falsafah reka bentuk ini membolehkan Sarvam AI memanfaatkan pengetahuan kolektif dan sokongan komuniti di sekeliling model Mistral Small sambil menyesuaikannya untuk memenuhi keperluan khusus pasaran India. Seni bina dan metodologi latihan model adalah kunci untuk memahami prestasi dan keupayaannya.

Penalaan Halus Diselia: Ketepatan dan Kejituan

Untuk meningkatkan ketepatan dan kejituan model, Sarvam AI menggunakan proses penalaan halus diselia yang teliti. Ini melibatkan melatih model pada set data contoh yang dipilih susun dengan teliti yang direka khusus untuk meningkatkan prestasinya dalam pelbagai tugas. Dengan mendedahkan model kepada pelbagai senario dan memberikannya data berlabel yang jelas, proses penalaan halus diselia membolehkan Sarvam-M mempelajari corak dan hubungan yang rumit dalam data, menghasilkan output yang lebih tepat dan boleh dipercayai.

Pembelajaran Pengukuhan dengan Ganjaran yang Boleh Disahkan: Kehebatan Membuat Keputusan

Selain penalaan halus diselia, Sarvam AI menggabungkan pembelajaran pengukuhan dengan ganjaran yang boleh disahkan untuk meningkatkan keupayaan membuat keputusan model. Teknik ini melibatkan melatih model untuk belajar daripada maklum balas yang terikat dengan matlamat yang jelas dan boleh diukur, seperti menyelesaikan masalah matematik dengan betul. Dengan memberi ganjaran kepada model untuk mencapai matlamat ini, proses pembelajaran pengukuhan menggalakkannya untuk membuat keputusan yang lebih baik dan mengoptimumkan prestasinya dari semasa ke semasa. Pendekatan ini amat berkesan untuk tugas yang memerlukan penaakulan yang kompleks dan kemahiran menyelesaikan masalah.

Dioptimumkan untuk Penggunaan Masa Nyata: Kecekapan dan Responsif

Menyedari kepentingan prestasi masa nyata, Sarvam AI dengan teliti mengoptimumkan Sarvam-M untuk bertindak balas dengan lebih cekap dan tepat apabila menjana jawapan, terutamanya semasa penggunaan masa nyata. Ini melibatkan penalaan halus seni bina dan algoritma model untuk meminimumkan kependaman dan memaksimumkan daya pemprosesan, memastikan pengguna dapat menerima respons yang tepat pada masanya dan relevan kepada pertanyaan mereka. Usaha pengoptimuman memfokuskan pada mengurangkan overhed pengiraan dan meningkatkan keupayaan model untuk mengendalikan permintaan serentak, menjadikannya sesuai untuk penggunaan dalam persekitaran permintaan tinggi.

Penanda Aras Prestasi: Menetapkan Standard Baharu

Dakwaan Sarvam AI bahawa Sarvam-M menetapkan penanda aras baharu untuk model saiznya dalam bahasa India dan tugas matematik dan pengaturcaraan disokong oleh data penanda arasan yang meluas. Syarikat permulaan itu menjalankan penilaian rapi terhadap prestasi model pada pelbagai penanda aras standard, membandingkan hasilnya dengan model canggih yang lain. Hasil daripada penilaian ini menunjukkan peningkatan ketara yang dicapai oleh Sarvam-M dalam beberapa bidang utama.

Penanda Aras Bahasa India: Peningkatan Prestasi Purata 20%

Menurut catatan blog yang dikeluarkan oleh SarvamAI, Sarvam-M mempamerkan peningkatan utama berbanding model asas, dengan peningkatan prestasi purata sebanyak 20% pada penanda aras bahasa India. Peningkatan ketara ini menggariskan keberkesanan proses penalaan halus diselia dalam meningkatkan pemahaman dan penjanaan bahasa India model. Keupayaan model untuk mengendalikan nuansa dan kerumitan bahasa ini adalah penting untuk penerimaan dan penggunaannya di pasaran India. Penanda aras khusus yang digunakan untuk menilai prestasi termasuk tugas seperti pengelasan teks, menjawab soalan dan terjemahan mesin, meliputi pelbagai cabaran linguistik.

Tugas Matematik: Peningkatan Prestasi Purata 21.6%

Selain bahasa India, Sarvam-M juga menunjukkan peningkatan prestasi yang mengagumkan pada tugas matematik, dengan peningkatan purata sebanyak 21.6%. Peningkatan ketara dalam ketepatan dan keupayaan menyelesaikan masalah ini menyerlahkan keberkesanan pembelajaran pengukuhan dengan teknik ganjaran yang boleh disahkan dalam meningkatkan keupayaan penaakulan model. Keupayaan model untuk menyelesaikan masalah matematik adalah penting untuk penggunaannya dalam bidang seperti pemodelan kewangan, penyelidikan saintifik dan analisis data. Penanda aras yang digunakan untuk menilai prestasi pada tugas matematik termasuk masalah daripada pelbagai domain, seperti algebra, kalkulus dan statistik. Model dinilai pada keupayaannya bukan sahaja memberikan jawapan yang betul tetapi juga untuk menunjukkan proses penaakulannya dan mewajarkan penyelesaiannya.

Ujian Pengaturcaraan: Peningkatan Prestasi Purata 17.6%

Prestasi Sarvam-M pada ujian pengaturcaraan juga ketara, dengan keuntungan purata sebanyak 17.6%. Peningkatan ini mencerminkan keupayaan model untuk memahami dan menjana kod dalam pelbagai bahasa pengaturcaraan, menjadikannya alat yang berharga untuk pembangun perisian dan jurutera. Kecekapan model dalam pengaturcaraan adalah penting untuk penggunaannya dalam bidang seperti penjanaan kod, pengesanan pepijat dan ujian automatik. Penanda aras yang digunakan untuk menilai prestasi pada ujian pengaturcaraan termasuk tugas seperti pelengkapan kod, pembaikan kod dan penjanaan kod daripada penerangan bahasa semula jadi. Model dinilai pada keupayaannya untuk menjana kod betul dari segi sintaks dan bermakna dari segi semantik yang memenuhi keperluan yang diberikan.

Tugas Gabungan: Prestasi Luar Biasa

Model ini berprestasi lebih baik pada tugas-tugas yang menggabungkan bahasa India dan matematik, menggambarkan fleksibiliti dan keupayaannya untuk mengendalikan senario kompleks yang memerlukan kedua-dua kemahiran linguistik dan penaakulan. Contohnya, ia mencapai peningkatan 86% pada versi bahasa India yang diromanisasi bagi penanda aras GSM-8K. Peningkatan ketara ini menggariskan keupayaan model untuk memanfaatkan pengetahuannya tentang kedua-dua bahasa India dan konsep matematik untuk menyelesaikan masalah yang mencabar. Penanda aras GSM-8K ialah set data yang digunakan secara meluas yang menguji keupayaan model untuk menyelesaikan masalah matematik sekolah gred yang dinyatakan dalam bahasa semula jadi. Prestasi model pada penanda aras ini menunjukkan keupayaannya untuk memahami pernyataan masalah, mengenal pasti maklumat yang berkaitan dan menggunakan operasi matematik yang sesuai untuk mencapai penyelesaian yang betul. Peningkatan 86% yang dicapai oleh Sarvam-M adalah bukti keupayaan penaakulan lanjutannya dan keupayaannya untuk mengendalikan tugas yang kompleks dan pelbagai aspek.

Perbandingan dengan Model Lain: Sarvam-M Kekal Utuh

Catatan blog Sarvam AI membuat perbandingan antara Sarvam-M dan model bahasa terkemuka yang lain, menekankan prestasi kompetitifnya. Analisis perbandingan ini memberikan pandangan yang berharga tentang kekuatan dan kelemahan model, membolehkan pengguna membuat keputusan yang berinformasi tentang kesesuaiannya untuk keperluan khusus mereka. Catatan blog itu menyerlahkan fakta bahawa Sarvam-M mengatasi Llama-2 7B pada kebanyakan penanda aras dan setanding dengan model padat yang lebih besar seperti Llama-3 70B, dan model seperti Gemma 27B, yang dipratatih pada lebih banyak token yang ketara. Perbandingan ini menggariskan kecekapan metodologi latihan Sarvam-M dan keupayaannya untuk mencapai prestasi kompetitif dengan saiz parameter yang agak kecil. Keupayaan untuk mencapai prestasi yang setanding dengan kurang parameter diterjemahkan kepada kos pengiraan yang lebih rendah dan kelajuan inferens yang lebih pantas, menjadikan Sarvam-M penyelesaian yang lebih praktikal dan boleh diakses untuk ramai pengguna.

Penanda Aras Berasaskan Pengetahuan Bahasa Inggeris: Ruang untuk Penambahbaikan

Walaupun prestasinya yang mengagumkan pada bahasa India dan tugas penaakulan, Sarvam AI mengakui bahawa Sarvam-M masih memerlukan peningkatan dalam penanda aras berasaskan pengetahuan Bahasa Inggeris seperti MMLU. Dalam penanda aras ini, Sarvam-M berprestasi kira-kira 1 mata peratusan lebih rendah daripada model asas. Penurunan kecil dalam prestasi ini menunjukkan bahawa data latihan model mungkin berat sebelah ke arah bahasa India dan tugas penaakulan, menghasilkan pemahaman yang sedikit lemah tentang pengetahuan Bahasa Inggeris. Walau bagaimanapun, Sarvam AI sedang berusaha secara aktif untuk menangani isu ini dengan memasukkan lebih banyak data bahasa Inggeris ke dalam set latihan model dan dengan menala halus seni bina model untuk mengendalikan tugas berasaskan pengetahuan Bahasa Inggeris dengan lebih baik. Syarikat itu komited untuk mencapai pariti dengan model canggih yang lain pada penanda aras bahasa Inggeris, memastikan bahawa Sarvam-M ialah model bahasa yang serba boleh dan berdaya saing di peringkat global.

Fleksibiliti dan Aplikasi: Pelbagai Kemungkinan

Sarvam-M dibina untuk fleksibiliti dan direka untuk menyokong pelbagai aplikasi, termasuk ejen perbualan, terjemahan dan alat pendidikan. Keupayaannya untuk memahami dan menjana bahasa India, ditambah dengan keupayaan penaakulannya, menjadikannya aset yang berharga untuk perniagaan dan organisasi yang beroperasi di pasaran India.

Ejen Perbualan: Meningkatkan Perkhidmatan Pelanggan

Sarvam-M boleh digunakan untuk menguasakan ejen perbualan yang boleh berinteraksi dengan pelanggan dalam bahasa ibunda mereka, memberikan perkhidmatan pelanggan yang diperibadikan dan cekap. Ejen ini boleh mengendalikan pelbagai tugas, seperti menjawab soalan lazim, memberikan maklumat produk dan menyelesaikan aduan pelanggan. Dengan membolehkan pelanggan berkomunikasi dalam bahasa pilihan mereka, Sarvam-M boleh meningkatkan kepuasan dan kesetiaan pelanggan. Ejen perbualan yang dikuasakan oleh Sarvam-M boleh digunakan pada pelbagai platform, seperti tapak web, aplikasi mudah alih dan platform pemesejan, memberikan pelanggan pengalaman komunikasi yang lancar dan mudah.

Terjemahan: Memecahkan Halangan Bahasa

Keupayaan terjemahan Sarvam-M boleh digunakan untuk memecahkan halangan bahasa dan memudahkan komunikasi antara orang yang bertutur dalam bahasa yang berbeza. Model ini boleh menterjemah teks dan pertuturan antara Bahasa Inggeris dan pelbagai bahasa India, membolehkan perniagaan meluaskan jangkauan mereka ke pasaran baharu dan individu untuk berhubung dengan orang daripada budaya yang berbeza. Perkhidmatan terjemahan yang dikuasakan oleh Sarvam-M boleh disepadukan ke dalam pelbagai aplikasi, seperti alat terjemahan dokumen, pemalam terjemahan tapak web dan aplikasi terjemahan masa nyata, memberikan pengguna keupayaan terjemahan yang lancar dan tepat.

Alat Pendidikan: Pengalaman Pembelajaran yang Diperibadikan

Sarvam-M boleh digunakan untuk membangunkan alat pendidikan yang menyediakan pengalaman pembelajaran yang diperibadikan untuk pelajar dari semua peringkat umur. Model ini boleh menjana bahan pembelajaran tersuai, memberikan maklum balas tentang kerja pelajar dan menjawab soalan pelajar. Dengan menyesuaikan pengalaman pembelajaran dengan keperluan dan gaya pembelajaran individu setiap pelajar, Sarvam-M boleh meningkatkan penglibatan pelajar dan prestasi akademik. Alat pendidikan yang dikuasakan oleh Sarvam-M boleh digunakan pada pelbagai platform, seperti platform pembelajaran dalam talian, aplikasi mudah alih dan buku teks interaktif, memberikan pelajar akses kepada sumber pembelajaran yang diperibadikan pada bila-bila masa, di mana sahaja.

Akses dan Ketersediaan: Memperkasakan Pembangun

Sarvam AI telah menjadikan Sarvam-M mudah diakses oleh pembangun dan penyelidik, memupuk inovasi dan kerjasama dalam komuniti AI. Model ini tersedia untuk dimuat turun di Hugging Face, platform popular untuk berkongsi dan mengakses model AI sumber terbuka. Pembangun juga boleh menguji model pada taman permainan Sarvam AI, antara muka berasaskan web yang membolehkan pengguna bereksperimen dengan keupayaan model dan meneroka aplikasi potensinya. Selain itu, Sarvam AI menawarkan API yang membolehkan pembangun menyepadukan Sarvam-M ke dalam aplikasi dan perkhidmatan mereka sendiri. Dengan menyediakan akses mudah kepada model dan alatan berkaitan, Sarvam AI memperkasakan pembangun untuk membina penyelesaian inovatif yang memanfaatkan kuasa AI.

Rancangan Masa Depan: Membina Ekosistem AI Berdaulat di India

Sarvam AI merancang untuk mengeluarkan model secara berkala sebagai sebahagian daripada usahanya untuk membina ekosistem AI berdaulat di India. Model ini adalah yang pertama dalam siri sumbangan itu. Syarikat itu komited untuk membangunkan dan menggunakan teknologi AI yang selaras dengan keperluan dan nilai rakyat India. Dengan memupuk industri AI domestik yang kukuh, Sarvam AI menyasarkan untuk mengurangkan pergantungan India pada teknologi asing dan menggalakkan pertumbuhan ekonomi dan pembangunan sosial. Visi syarikat adalah untuk mewujudkan ekosistem AI yang inovatif dan inklusif, memastikan semua rakyat India mempunyai akses kepada faedah AI.

Pada lewat April, kerajaan India memilih Sarvam untuk membina LLM berdaulat negara itu sebagai sebahagian daripada Misi IndiaAI, usaha nasional untuk mengukuhkan keupayaan domestik dalam teknologi baru muncul. Pemilihan ini menggariskan keyakinan kerajaan terhadap keupayaan Sarvam AI untuk menyampaikan visinya tentang ekosistem AI berdaulat di India. Misi IndiaAI ialah inisiatif komprehensif yang bertujuan untuk menggalakkan penyelidikan dan pembangunan dalam AI, memupuk inovasi dan keusahawanan, dan mewujudkan tenaga kerja mahir untuk menyokong industri AI. Dengan bekerjasama dengan Sarvam AI, kerajaan mengambil langkah penting ke arah mencapai matlamatnya dan menubuhkan India sebagai peneraju global dalam AI.