Foxconn Teroka LLM Cina Tradisional: FoxBrain

Kemajuan Pantas: Latihan Cekap dan Kepakaran Tempatan

Pembangunan FoxBrain adalah kisah kecekapan yang luar biasa. Dalam masa empat minggu sahaja, pasukan Foxconn berjaya menghasilkan LLM yang canggih ini. Kitaran pembangunan yang pantas ini menekankan pendekatan strategik yang memfokuskan pada pengoptimuman proses latihan dan bukannya hanya bergantung pada kuasa pengkomputeran semata-mata. Dr. Yung-Hui Li, Pengarah Pusat Penyelidikan AI di Institut Penyelidikan Hon Hai, menekankan perkara ini, dengan menyatakan, ‘Model FoxBrain kami menggunakan strategi latihan yang sangat cekap, memfokuskan pada pengoptimuman proses latihan dan bukannya pengumpulan kuasa pengkomputeran secara membuta tuli.’

Kecekapan ini tidak menjejaskan keupayaan. FoxBrain direka khusus untuk nuansa Bahasa Cina Tradisional, mempamerkan keupayaan penaakulan yang kukuh yang dioptimumkan untuk corak bahasa tempatan. Tumpuan pada penyetempatan ini adalah penting, membolehkan model memahami dan bertindak balas terhadap kerumitan bahasa dengan cara yang mungkin sukar dilakukan oleh model generik.

Melangkaui Aplikasi Dalaman: Visi Sumber Terbuka

Walaupun pada mulanya direka untuk menyelaraskan operasi dalaman Foxconn, merangkumi tugas seperti analisis data, sokongan keputusan, kerjasama dokumen, dan juga penjanaan kod. Ia direka untuk matematik, penaakulan dan penyelesaian masalah. Namun, takdir FoxBrain melangkaui tembok syarikat. Foxconn dengan berani mengisytiharkan hasratnya untuk mengeluarkan model itu sebagai teknologi sumber terbuka. Langkah ini bersedia untuk mendemokrasikan akses kepada keupayaan AI termaju, memperkasakan pembangun dan penyelidik di seluruh Taiwan dan berpotensi melangkauinya untuk memanfaatkan potensi FoxBrain.

Komitmen terhadap sumber terbuka ini sejajar dengan trend yang lebih luas dalam komuniti AI, mengiktiraf bahawa kerjasama dan perkongsian pengetahuan adalah pemacu utama inovasi. Dengan menjadikan FoxBrain tersedia kepada komuniti yang lebih luas, Foxconn bukan sahaja menyumbang kepada kemajuan AI tetapi juga memupuk semangat kemajuan bersama.

Kuasa Perkongsian: Memanfaatkan Kepakaran Nvidia

Penciptaan FoxBrain adalah usaha sama, dengan Nvidia memainkan peranan penting. Proses latihan memanfaatkan kuasa 120 GPU Nvidia H100, yang saling bersambung melalui teknologi rangkaian Quantum-2 InfiniBand Nvidia. Persediaan ini membolehkan pemindahan data berkelajuan tinggi, faktor kritikal dalam melatih model skala ini dengan cekap.

Sokongan Nvidia melangkaui penyediaan perkakasan. Kemudahan Superkomputer Taipei-1 dan perundingan teknikal syarikat memainkan peranan penting dalam membolehkan Foxconn menggunakan rangka kerja NeMo Nvidia, kit alat yang berkuasa untuk membina dan menyesuaikan model AI. Perkongsian ini menunjukkan contoh sinergi antara kepakaran perkakasan dan perisian, menonjolkan kepentingan kerjasama dalam menolak sempadan pembangunan AI.

Membina Asas Kukuh: Seni Bina Llama 3.1

Seni bina FoxBrain berakar umbi dalam Llama 3.1 Meta, bukti kuasa kerjasama sumber terbuka. Asas ini menyediakan rangka kerja yang teguh dan teruji, menggabungkan 70 bilion parameter yang mengejutkan. Parameter ini ialah nilai boleh laras yang diperhalusi oleh sistem AI semasa ia belajar daripada data, mewakili pengetahuan terkumpul model.

Pilihan Llama 3.1 sebagai titik permulaan mencerminkan keputusan strategik untuk memanfaatkan teknologi sedia ada yang terbukti dan bukannya mencipta semula roda. Pendekatan ini membolehkan Foxconn menumpukan usahanya untuk menyesuaikan model dengan keperluan khusus Bahasa Cina Tradisional dan mengoptimumkan prestasinya untuk aplikasi yang dimaksudkan.

Mengatasi Persaingan: Penanda Aras Keupayaan FoxBrain

Ujian dalaman Foxconn mendedahkan bahawa FoxBrain mengatasi Llama-3-Taiwan-70B, satu lagi model bahasa Cina Tradisional bersaiz setanding, merentasi beberapa kategori utama. Prestasi unggul ini menekankan keberkesanan strategi latihan Foxconn dan tumpuannya pada penyetempatan.

Terutama, FoxBrain menunjukkan peningkatan ketara dalam prestasi matematik berbanding model asas Meta Llama 3.1. Keupayaan matematik yang dipertingkatkan ini amat relevan untuk aplikasi dalam pembuatan, pengurusan rantaian bekalan, dan bidang lain yang bergantung pada analisis kuantitatif.

Penyelaman Mendalam ke dalam Prestasi: Penanda Aras TMMLU+

Untuk menilai keupayaan FoxBrain dengan teliti, Foxconn menggunakan penanda aras TMMLU+, ujian komprehensif yang mengukur prestasi merentasi pelbagai domain pengetahuan. Hasilnya menyerlahkan kekuatan FoxBrain dalam matematik dan penaakulan logik, seterusnya mengesahkan potensinya untuk aplikasi dunia sebenar.

Penanda aras TMMLU+ menyediakan cara piawai untuk membandingkan prestasi FoxBrain dengan model lain, menawarkan gambaran jelas tentang kekuatannya dan bidang untuk potensi penambahbaikan. Komitmen terhadap penilaian objektif ini menekankan dedikasi Foxconn terhadap ketelusan dan penambahbaikan berterusan.

Seni Pembesaran Data: Memperluas Korpus Latihan

Ramuan utama dalam kejayaan FoxBrain ialah strategi pembesaran datanya yang canggih. Ini melibatkan penggunaan teknik untuk mengembangkan dan meningkatkan data latihan, memastikan model itu didedahkan kepada pelbagai corak linguistik yang pelbagai dan representatif.

Pasukan Foxconn membangunkan kaedah pembesaran data proprietari merentasi 24 kategori topik yang berbeza, menghasilkan set data pra-latihan besar-besaran sebanyak 98 bilion token untuk Bahasa Cina Tradisional. Token mewakili unit teks yang diproses oleh sistem AI, biasanya terdiri daripada perkataan atau bahagian perkataan. Set data yang luas ini adalah penting untuk melatih model yang boleh memahami dan bertindak balas kepada pelbagai nuansa linguistik.

Konteks adalah Raja: Tetingkap Luas untuk Pemahaman

FoxBrain mempunyai tetingkap konteks 128,000 token. Kapasiti yang mengagumkan ini menentukan jumlah maklumat yang boleh dipertimbangkan oleh model sekaligus, membolehkannya mengekalkan kesedaran tentang sejarah perbualan atau kandungan dokumen yang luas. Ini adalah kelebihan ketara berbanding model dengan tetingkap konteks yang lebih kecil, membolehkan FoxBrain memahami konteks perbualan atau teks yang lebih luas, yang membawa kepada respons yang lebih koheren dan relevan.

Tetingkap konteks yang lebih besar amat bermanfaat untuk tugas yang memerlukan pemahaman hubungan kompleks antara bahagian teks yang berbeza, seperti meringkaskan dokumen panjang atau menjawab soalan yang memerlukan penyepaduan maklumat daripada pelbagai sumber.

Inovasi Utama: Ringkasan Pencapaian Teknikal

Pembangunan FoxBrain oleh Foxconn ditandai dengan beberapa inovasi utama:

  • Pembesaran Data Proprietari: Penciptaan teknik pembesaran data dan penilaian kualiti yang unik untuk 24 kategori topik memperkayakan data latihan dengan ketara.
  • Penggunaan GPU yang Cekap: Model itu dilatih menggunakan 120 GPU Nvidia H100 selama 2,688 hari GPU, menunjukkan penggunaan sumber pengkomputeran yang sangat cekap.
  • Latihan Selari Berbilang Nod: Rangka kerja latihan selari berbilang nod telah dilaksanakan untuk memastikan prestasi optimum dan kestabilan sistem, membolehkan model berskala dengan berkesan.
  • Refleksi Penaakulan Adaptif: Kaedah Refleksi Penaakulan Adaptif yang inovatif telah diperkenalkan untuk meningkatkan keupayaan penaakulan autonomi model, membolehkannya belajar dan meningkatkan kemahiran penaakulannya dari semasa ke semasa.

Sekilas Pandang ke Masa Depan: Penambahbaikan dan Kerjasama Berterusan

Dr. Yung-Hui Li mengakui bahawa walaupun FoxBrain menunjukkan prestasi yang mengagumkan, masih ada ruang untuk pertumbuhan. Beliau menyatakan jurang prestasi berbanding model penyulingan DeepSeek, satu lagi sistem AI yang memfokuskan pada pemindahan pengetahuan yang cekap. Walau bagaimanapun, beliau menekankan bahawa prestasi FoxBrain menghampiri ‘piawaian terkemuka dunia.’

Komitmen terhadap penambahbaikan berterusan ini adalah ciri pendekatan Foxconn. Syarikat itu merancang untuk terus memperhalusi FoxBrain, meneroka teknik baharu dan memanfaatkan maklum balas daripada komuniti sumber terbuka untuk meningkatkan lagi keupayaannya.

Memperluas Horizon: Aplikasi Kolaboratif

Walaupun pada mulanya direka untuk kegunaan dalaman, Foxconn membayangkan masa depan di mana keupayaan FoxBrain melangkaui operasinya sendiri. Syarikat itu merancang untuk bekerjasama secara aktif dengan rakan kongsi teknologi untuk meneroka aplikasi baharu dan mempromosikan penggunaan AI dalam pembuatan, pengurusan rantaian bekalan dan proses membuat keputusan.

Pendekatan kolaboratif ini sejajar dengan falsafah sumber terbuka Foxconn, mengiktiraf bahawa potensi sebenar AI hanya boleh dicapai melalui perkongsian pengetahuan dan usaha kolektif. Dengan bekerjasama dengan organisasi lain, Foxconn berhasrat untuk mempercepatkan penggunaan AI dan memacu inovasi merentasi pelbagai industri.

Mempamerkan Inovasi: Pembentangan di Nvidia GTC 2025

Komitmen Foxconn untuk berkongsi kemajuannya dengan komuniti AI yang lebih luas ditunjukkan lagi oleh pembentangan yang dirancang di persidangan Nvidia GTC 2025. Sesi itu, bertajuk ‘From Open Source to Frontier AI: Build, Customize and Extend Foundation Models,’ akan menyediakan platform untuk mempamerkan pembangunan FoxBrain dan membincangkan implikasi yang lebih luas daripada AI sumber terbuka.

Pembentangan ini menekankan komitmen Foxconn terhadap ketelusan dan keinginannya untuk menyumbang kepada dialog berterusan mengenai masa depan AI. Dengan berkongsi pengalaman dan pandangannya, Foxconn berhasrat untuk memberi inspirasi kepada inovasi dan kerjasama selanjutnya dalam komuniti AI. Pembentangan itu berlangsung pada 20 Mac.