Arm dan Alibaba Membawa AI Multimodal yang Dipertingkatkan ke Peranti Hujung
Perkembangan pesat AI sedang memulakan era baharu model multimodal. Sistem-sistem canggih ini mempunyai keupayaan untuk memproses dan mentafsir maklumat daripada pelbagai sumber, termasuk teks, imej, audio, video, dan juga data sensor. Walau bagaimanapun, penggunaan model-model berkuasa ini pada peranti hujung (edge devices) memberikan halangan yang ketara. Kekangan yang wujud dalam kapasiti kuasa dan memori perkakasan peranti hujung, digabungkan dengan tugas rumit memproses pelbagai jenis data secara serentak, mewujudkan cabaran yang kompleks.
Arm Kleidi: Mengoptimumkan Inferens AI pada CPU Arm
Arm Kleidi direka khusus untuk menangani cabaran ini, menyediakan pengoptimuman prestasi yang lancar untuk semua beban kerja inferens AI yang dijalankan pada CPU Arm. Teras Kleidi ialah KleidiAI, suit sumber terbuka yang diperkemas dan sangat cekap yang dibina untuk mempercepatkan AI.
KleidiAI sudah disepadukan ke dalam versi terkini rangka kerja AI yang digunakan secara meluas untuk peranti hujung. Ini termasuk ExecuTorch, Llama.cpp, LiteRT melalui XNNPACK, dan MediaPipe. Penyepaduan yang meluas ini menawarkan kelebihan yang ketara kepada berjuta-juta pembangun, yang kini boleh mendapat manfaat secara automatik daripada pengoptimuman prestasi AI tanpa sebarang usaha tambahan.
Kerjasama dengan Alibaba: Model Qwen2-VL-2B-Instruct
Satu pencapaian baharu dalam kemajuan AI multimodal pada peranti hujung telah dicapai melalui kerjasama erat dengan MNN. MNN ialah rangka kerja pembelajaran mendalam sumber terbuka yang ringan, dibangunkan dan diselenggara oleh Alibaba. Kerjasama ini telah menghasilkan penyepaduan KleidiAI yang berjaya, membolehkan beban kerja AI multimodal dijalankan dengan cekap pada peranti mudah alih menggunakan CPU Arm. Kunci kepada pencapaian ini ialah model Qwen2-VL-2B-Instruct 2B parameter Alibaba yang ditala arahan. Model ini direka khusus untuk pemahaman imej, penaakulan teks-ke-imej, dan penjanaan multimodal merentas pelbagai bahasa, semuanya disesuaikan untuk kekangan peranti hujung.
Keuntungan Prestasi yang Boleh Diukur
Penyepaduan KleidiAI dengan MNN telah menghasilkan peningkatan prestasi yang ketara dan boleh diukur untuk model Qwen2-VL-2B-Instruct. Masa tindak balas yang lebih pantas telah diperhatikan merentas kes penggunaan multimodal AI yang penting di peranti hujung. Peningkatan ini membuka kunci pengalaman pengguna yang dipertingkatkan dalam pelbagai aplikasi tertumpu pelanggan Alibaba. Contohnya termasuk:
- Chatbot untuk perkhidmatan pelanggan: Menyediakan respons yang lebih pantas dan cekap kepada pertanyaan pelanggan.
- Aplikasi e-dagang: Membolehkan carian foto-ke-barang, membolehkan pelanggan mencari item yang mereka cari dengan cepat dengan hanya memuat naik imej.
Peningkatan kelajuan dalam aplikasi ini adalah hasil langsung daripada peningkatan prestasi yang ketara:
- Peningkatan Pra-isi (Pre-fill): Peningkatan prestasi 57 peratus yang luar biasa telah dicapai dalam pra-isi. Ini merujuk kepada peringkat penting di mana model AI mengendalikan input prom pelbagai sumber sebelum menjana respons.
- Peningkatan Nyahkod (Decode): Peningkatan prestasi 28 peratus yang ketara telah diperhatikan dalam nyahkod. Ini ialah proses di mana model AI menjana teks selepas memproses prom.
Selain kelajuan, penyepaduan KleidiAI juga menyumbang kepada pemprosesan beban kerja AI yang lebih cekap di peranti hujung. Ini dicapai dengan menurunkan kos pengiraan keseluruhan yang berkaitan dengan beban kerja multimodal. Keuntungan prestasi dan kecekapan ini boleh diakses dengan mudah oleh berjuta-juta pembangun. Mana-mana pembangun yang menjalankan aplikasi dan beban kerja pada rangka kerja MNN, serta rangka kerja AI popular lain untuk peranti hujung di mana KleidiAI disepadukan, boleh mendapat manfaat serta-merta.
Demonstrasi Dunia Nyata: Pameran MWC
Keupayaan praktikal model Qwen2-VL-2B-Instruct, yang dikuasakan oleh penyepaduan KleidiAI baharu dengan MNN, telah dipamerkan di Mobile World Congress (MWC). Demonstrasi di gerai Arm menyerlahkan keupayaan model untuk memahami pelbagai kombinasi input visual dan teks. Model itu kemudiannya bertindak balas dengan ringkasan ringkas kandungan imej. Keseluruhan proses ini dilaksanakan pada CPU Arm telefon pintar, mempamerkan kuasa dan kecekapan penyelesaian. Telefon pintar ini dibina pada system-on-chip (SoC) mudah alih Dimensity 9400 berkuasa Arm MediaTek, termasuk Siri vivo X200.
Langkah Penting ke Hadapan dalam Pengalaman Pengguna
Penyepaduan KleidiAI Arm dengan rangka kerja MNN untuk model Qwen2-VL-2B-Instruct Alibaba mewakili lonjakan besar ke hadapan dalam pengalaman pengguna untuk beban kerja AI multimodal. Kemajuan ini menyampaikan pengalaman yang dipertingkatkan ini secara langsung di peranti hujung, semuanya dikuasakan oleh CPU Arm. Keupayaan ini sedia ada pada peranti mudah alih, dengan aplikasi terkemuka yang dihadapi pelanggan sudah memanfaatkan faedah KleidiAI.
Masa Depan AI Multimodal pada Peranti Hujung
Melihat ke hadapan, pengoptimuman lancar KleidiAI untuk beban kerja AI akan terus memperkasakan berjuta-juta pembangun. Mereka akan dapat mencipta pengalaman multimodal yang semakin canggih pada peranti hujung. Inovasi berterusan ini akan membuka jalan kepada gelombang pengkomputeran pintar yang seterusnya, menandakan langkah penting ke hadapan dalam evolusi AI yang berterusan.
Petikan daripada Kepimpinan Alibaba
‘Kami berbesar hati melihat kerjasama antara model bahasa besar Alibaba Cloud Qwen, Arm KleidiAI, dan MNN. Mengintegrasikan rangka kerja inferens pada peranti MNN dengan Arm KleidiAI telah meningkatkan kependaman dan kecekapan tenaga Qwen dengan ketara. Perkongsian ini mengesahkan potensi LLM pada peranti mudah alih dan meningkatkan pengalaman pengguna AI. Kami berharap untuk meneruskan usaha dalam memajukan pengkomputeran AI pada peranti.’ - Dong Xu, GM Perniagaan Model Besar Tongyi, Alibaba Cloud.
‘Penyepaduan teknikal antara rangka kerja inferens MNN dan Arm KleidiAI menandakan satu kejayaan besar dalam pecutan pada peranti. Dengan pengoptimuman bersama seni bina, kami telah meningkatkan kecekapan inferens pada peranti Tongyi LLM dengan ketara, merapatkan jurang antara kuasa pengkomputeran mudah alih yang terhad dan keupayaan AI termaju. Pencapaian ini menyerlahkan kepakaran teknikal dan kerjasama merentas industri kami. Kami berharap untuk meneruskan perkongsian ini untuk meningkatkan ekosistem pengkomputeran pada peranti, menyampaikan pengalaman AI yang lebih lancar dan cekap pada mudah alih.’ - Xiaotang Jiang, Ketua MNN, Kumpulan Taobao dan Tmall, Alibaba.
Menyelami Aspek Teknikal dengan Lebih Mendalam
Untuk menghargai sepenuhnya kepentingan kerjasama ini, adalah berguna untuk mengkaji beberapa butiran teknikal yang mendasarinya.
Peranan MNN
Falsafah reka bentuk MNN berpusat pada kecekapan dan kemudahalihan. Ia mencapai ini melalui beberapa ciri utama:
- Seni Bina Ringan: MNN direka untuk mempunyai jejak kecil, meminimumkan keperluan storan dan memori pada peranti hujung.
- Operasi Dioptimumkan: Rangka kerja ini menggabungkan operasi matematik yang sangat dioptimumkan yang disesuaikan khusus untuk CPU Arm, memaksimumkan prestasi.
- Keserasian Merentas Platform: MNN menyokong pelbagai sistem pengendalian dan platform perkakasan, menjadikannya pilihan serba boleh untuk pembangun.
Sumbangan KleidiAI
KleidiAI melengkapkan kekuatan MNN dengan menyediakan satu set rutin khusus yang mempercepatkan lagi inferens AI. Rutin ini memanfaatkan pengalaman luas Arm dalam seni bina CPU untuk membuka kunci keuntungan prestasi yang sukar dicapai sebaliknya. Aspek utama sumbangan KleidiAI termasuk:
- Kernel yang Sangat Dioptimumkan: KleidiAI menyediakan kernel yang sangat dioptimumkan untuk operasi AI biasa, seperti pendaraban matriks dan konvolusi. Kernel ini ditala dengan teliti untuk memanfaatkan ciri khusus CPU Arm.
- Penyepaduan Automatik: Penyepaduan lancar KleidiAI ke dalam rangka kerja AI yang popular bermakna pembangun tidak perlu memasukkan pengoptimuman ini secara manual. Faedah prestasi digunakan secara automatik, memudahkan proses pembangunan.
- Penambahbaikan Berterusan: Arm komited untuk terus mengemas kini dan menambah baik KleidiAI, memastikan ia kekal di barisan hadapan dalam teknologi pecutan AI.
Qwen2-VL-2B-Instruct: Model Multimodal Berkuasa
Model Qwen2-VL-2B-Instruct ialah bukti kepakaran Alibaba dalam model bahasa besar dan AI multimodal. Ciri-ciri utamanya termasuk:
- Penalaan Arahan: Model ini ditala khusus untuk mengikut arahan, menjadikannya sangat mudah disesuaikan dengan pelbagai tugas.
- Keupayaan Multimodal: Ia cemerlang dalam memahami dan memproses kedua-dua maklumat visual dan teks, membolehkan aplikasi seperti kapsyen imej dan menjawab soalan visual.
- Sokongan Berbilang Bahasa: Model ini direka untuk berfungsi dengan pelbagai bahasa, meluaskan kebolehgunaannya merentas rantau dan pangkalan pengguna yang berbeza.
- Dioptimumkan untuk Peranti Hujung: Walaupun keupayaannya yang berkuasa, model ini direka dengan teliti untuk beroperasi dalam kekangan sumber peranti hujung.
Memperluas Skop AI Multimodal
Kemajuan yang dibincangkan di sini tidak terhad kepada telefon pintar. Prinsip dan teknologi yang sama boleh digunakan pada pelbagai peranti hujung, termasuk:
- Peranti Rumah Pintar: Membolehkan pembantu suara, pengecaman imej untuk kamera keselamatan dan ciri pintar lain.
- Peranti Boleh Dipakai: Menjana pemantauan kesihatan, penjejakan kecergasan dan aplikasi realiti terimbuh.
- IoT Perindustrian: Memudahkan penyelenggaraan ramalan, kawalan kualiti dan automasi dalam tetapan pembuatan.
- Automotif: Meningkatkan sistem bantuan pemandu, hiburan dalam kabin dan keupayaan pemanduan autonomi.
Potensi aplikasi AI multimodal di peranti hujung adalah luas dan terus berkembang. Apabila model menjadi lebih canggih dan perkakasan menjadi lebih berkuasa, kita boleh menjangkakan untuk melihat kes penggunaan yang lebih inovatif dan berkesan muncul. Kerjasama antara Arm dan Alibaba ini merupakan langkah penting ke arah itu, membawa kuasa AI multimodal kepada audiens yang lebih luas dan membolehkan generasi baharu peranti pintar. Tumpuan pada kecekapan, prestasi dan kebolehcapaian pembangun memastikan bahawa kemajuan ini akan memberi kesan yang luas dan berkekalan kepada masa depan teknologi.