Muon dan Moonlight Latih Model Besar Efisien
Penyelidik Moonshot AI perkenal Muon dan Moonlight optimumkan model bahasa besar dengan teknik latihan cekap jimat kos dan masa
Penyelidik Moonshot AI perkenal Muon dan Moonlight optimumkan model bahasa besar dengan teknik latihan cekap jimat kos dan masa
Kimi Moonshot AI memperkenalkan model pakar hibrid 'Moonlight' 30 bilion dan 160 bilion parameter dilatih pada seni bina Muon dengan 57 trilion token mencapai kecekapan Pareto yang unggul dan mengurangkan FLOPs.
Baichuan-M1 ialah siri model bahasa besar yang dilatih pada 20T token dengan fokus untuk meningkatkan keupayaan perubatan dan menangani cabaran data.
Kajian baru mendedahkan kelemahan ketara dalam pemahaman sejarah dunia oleh model kecerdasan buatan (AI), termasuk GPT-4, Llama, dan Gemini. Model-model ini hanya menjawab 46% soalan sejarah dengan betul, menunjukkan bias serantau dan kecenderungan untuk membuat kesimpulan daripada data yang diketahui. Ini menimbulkan kebimbangan tentang kebolehpercayaan AI dalam bidang yang memerlukan pemahaman sejarah yang kukuh, dan menekankan keperluan untuk pendekatan yang lebih bernuansa dan komprehensif dalam pembangunan AI.
Kajian ini meneroka penskalaan masa inferens dalam model difusi, menunjukkan peningkatan kualiti sampel dengan peningkatan sumber pengiraan. Ia memperkenalkan rangka kerja carian untuk bunyi pensampelan optimum, menggunakan 'verifier' untuk penilaian dan algoritma untuk penambahbaikan. Penemuan menunjukkan fleksibiliti dalam konfigurasi komponen dan kesan pelbagai strategi carian pada kualiti imej yang dijana. Penskalaan terbukti berkesan dalam senario teks-ke-imej berskala besar dan model yang ditala halus, menunjukkan kecekapan dalam mengimbangi sumber latihan dengan pengiraan penjanaan.
Artikel ini membincangkan mekanisme perhatian baru, Multi-matrix Factorization Attention (MFA) dan variannya MFA-Key-Reuse (MFA-KR), yang secara signifikan mengurangkan kos inferensi model bahasa sambil meningkatkan prestasi. MFA dan MFA-KR mengatasi MLA dalam prestasi dan menyamai prestasi MHA tradisional sambil mengurangkan penggunaan KV Cache sehingga 93.7%. Mekanisme ini mudah, mudah direproduksi, tidak sensitif terhadap hiperparameter, dan serasi dengan pelbagai kaedah Pos-embedding.
ESM3 Evolutionaryscale, model biologi terkemuka dengan 98 bilion parameter, merevolusikan pemahaman dan manipulasi protein. Dengan API percuma, ia mempercepatkan ramalan protein, mendapat sokongan Yann LeCun, dan menunjukkan kuasa pengiraan yang luar biasa dalam penjanaan protein baru.
Ant Group berjaya melatih model AI Ling-Plus-Base (MoE) menggunakan GPU domestik, mengelak sekatan AS. Ini mengurangkan kos pengkomputeran sebanyak 20% sambil mengekalkan prestasi setanding model lain, menunjukkan kebolehlaksanaan cip tempatan dalam pembangunan AI canggih dan mengurangkan kebergantungan pada Nvidia.