Kolaborasi Arm & Alibaba: AI Multimodal di Edge

Arm Kleidi: Mengoptimalkan Inferensi AI pada CPU Arm

Evolusi pesat AI mengantarkan era baru model multimodal. Sistem canggih ini memiliki kemampuan untuk memproses dan menginterpretasikan informasi dari berbagai sumber, termasuk teks, gambar, audio, video, dan bahkan data sensor. Namun, penerapan model yang kuat ini pada perangkat edge menghadirkan rintangan yang signifikan. Keterbatasan inheren dalam daya dan kapasitas memori perangkat keras edge, dikombinasikan dengan tugas rumit memproses berbagai jenis data secara bersamaan, menciptakan tantangan yang kompleks.

Arm Kleidi dirancang khusus untuk mengatasi tantangan ini, memberikan optimasi kinerja yang mulus untuk semua beban kerja inferensi AI yang berjalan pada CPU Arm. Inti dari Kleidi adalah KleidiAI, rangkaian open-source Arm yang efisien dan ringkas yang dibangun untuk mempercepat AI.

KleidiAI sudah terintegrasi ke dalam versi terbaru dari kerangka kerja AI yang banyak digunakan untuk perangkat edge. Ini termasuk ExecuTorch, Llama.cpp, LiteRT melalui XNNPACK, dan MediaPipe. Integrasi yang luas ini menawarkan keuntungan signifikan bagi jutaan pengembang, yang sekarang dapat secara otomatis mendapatkan manfaat dari optimasi kinerja AI tanpa usaha ekstra.

Kemitraan dengan Alibaba: Model Qwen2-VL-2B-Instruct

Tonggak baru dalam kemajuan AI multimodal pada perangkat edge telah dicapai melalui kolaborasi erat dengan MNN. MNN adalah kerangka kerja pembelajaran mendalam (deep learning) open-source yang ringan, yang dikembangkan dan dikelola oleh Alibaba. Kemitraan ini menghasilkan integrasi KleidiAI yang sukses, memungkinkan beban kerja AI multimodal berjalan efisien pada perangkat seluler menggunakan CPU Arm. Kunci keberhasilan ini adalah model Qwen2-VL-2B-Instruct 2B parameter yang disetel instruksi (instruction-tuned) dari Alibaba. Model ini dirancang khusus untuk pemahaman gambar, penalaran teks-ke-gambar, dan pembuatan multimodal dalam berbagai bahasa, semuanya disesuaikan untuk batasan perangkat edge.

Peningkatan Kinerja yang Terukur

Integrasi KleidiAI dengan MNN telah menghasilkan peningkatan kinerja yang signifikan dan terukur untuk model Qwen2-VL-2B-Instruct. Waktu respons yang lebih cepat telah diamati di seluruh kasus penggunaan AI multimodal yang krusial di edge. Peningkatan ini membuka pengalaman pengguna yang lebih baik dalam berbagai aplikasi Alibaba yang berfokus pada pelanggan. Contohnya termasuk:

  • Chatbots untuk layanan pelanggan: Memberikan respons yang lebih cepat dan efisien untuk pertanyaan pelanggan.
  • Aplikasi e-shopping: Mengaktifkan pencarian foto-ke-barang, memungkinkan pelanggan dengan cepat menemukan barang yang mereka cari hanya dengan mengunggah gambar.

Peningkatan kecepatan dalam aplikasi ini merupakan hasil langsung dari peningkatan kinerja yang substansial:

  • Peningkatan Pre-fill: Peningkatan kinerja 57 persen yang luar biasa telah dicapai dalam pre-fill. Ini mengacu pada tahap krusial di mana model AI menangani input prompt multi-sumber sebelum menghasilkan respons.
  • Peningkatan Decode: Peningkatan kinerja 28 persen yang signifikan telah diamati dalam decode. Ini adalah proses di mana model AI menghasilkan teks setelah memproses prompt.

Selain kecepatan, integrasi KleidiAI juga berkontribusi pada pemrosesan beban kerja AI yang lebih efisien di edge. Ini dicapai dengan menurunkan biaya komputasi keseluruhan yang terkait dengan beban kerja multimodal. Peningkatan kinerja dan efisiensi ini mudah diakses oleh jutaan pengembang. Setiap pengembang yang menjalankan aplikasi dan beban kerja pada kerangka kerja MNN, serta kerangka kerja AI populer lainnya untuk perangkat edge di mana KleidiAI terintegrasi, dapat langsung mendapatkan manfaat.

Demonstrasi Dunia Nyata: Pameran MWC

Kemampuan praktis model Qwen2-VL-2B-Instruct, yang didukung oleh integrasi KleidiAI baru dengan MNN, dipamerkan di Mobile World Congress (MWC). Sebuah demonstrasi di stan Arm menyoroti kemampuan model untuk memahami berbagai kombinasi input visual dan teks. Model kemudian merespons dengan ringkasan singkat dari konten gambar. Seluruh proses ini dieksekusi pada CPU Arm smartphone, menampilkan kekuatan dan efisiensi solusi. Smartphone ini dibangun di atas system-on-chip (SoC) seluler Dimensity 9400 bertenaga Arm dari MediaTek, termasuk vivo X200 Series.

Langkah Maju yang Signifikan dalam Pengalaman Pengguna

Integrasi KleidiAI Arm dengan kerangka kerja MNN untuk model Qwen2-VL-2B-Instruct Alibaba merupakan lompatan besar ke depan dalam pengalaman pengguna untuk beban kerja AI multimodal. Kemajuan ini memberikan pengalaman yang ditingkatkan ini secara langsung di edge, semuanya didukung oleh CPU Arm. Kemampuan ini sudah tersedia di perangkat seluler, dengan aplikasi terkemuka yang berhadapan dengan pelanggan yang sudah memanfaatkan KleidiAI.

Masa Depan AI Multimodal pada Perangkat Edge

Ke depan, optimasi KleidiAI yang mulus untuk beban kerja AI akan terus memberdayakan jutaan pengembang. Mereka akan dapat menciptakan pengalaman multimodal yang semakin canggih pada perangkat edge. Inovasi berkelanjutan ini akan membuka jalan bagi gelombang komputasi cerdas berikutnya, menandai langkah maju yang signifikan dalam evolusi AI yang sedang berlangsung.

Kutipan dari Pimpinan Alibaba

‘Kami senang melihat kolaborasi antara model bahasa besar Qwen Alibaba Cloud, Arm KleidiAI, dan MNN. Mengintegrasikan kerangka kerja inferensi on-device MNN dengan Arm KleidiAI telah secara signifikan meningkatkan latensi dan efisiensi energi Qwen. Kemitraan ini memvalidasi potensi LLM pada perangkat seluler dan meningkatkan pengalaman pengguna AI. Kami menantikan upaya berkelanjutan dalam memajukan komputasi AI on-device.’ - Dong Xu, GM Tongyi Large Model Business, Alibaba Cloud.

‘Integrasi teknis antara kerangka kerja inferensi MNN dan Arm KleidiAI menandai terobosan besar dalam akselerasi on-device. Dengan optimasi bersama arsitektur, kami telah sangat meningkatkan efisiensi inferensi on-device Tongyi LLM, menjembatani kesenjangan antara daya komputasi seluler yang terbatas dan kemampuan AI yang canggih. Pencapaian ini menyoroti keahlian teknis dan kolaborasi lintas industri kami. Kami berharap dapat melanjutkan kemitraan ini untuk meningkatkan ekosistem komputasi on-device, memberikan pengalaman AI yang lebih lancar dan efisien di perangkat seluler.’ - Xiaotang Jiang, Head of MNN, Taobao and Tmall Group, Alibaba.

Mendalami Aspek Teknis

Untuk sepenuhnya menghargai pentingnya kolaborasi ini, ada baiknya untuk memeriksa beberapa detail teknis yang mendasarinya.

Peran MNN

Filosofi desain MNN berpusat pada efisiensi dan portabilitas. Ini mencapai hal ini melalui beberapa fitur utama:

  • Arsitektur Ringan: MNN dirancang untuk memiliki footprint kecil, meminimalkan persyaratan penyimpanan dan memori pada perangkat edge.
  • Operasi yang Dioptimalkan: Kerangka kerja ini menggabungkan operasi matematika yang sangat dioptimalkan yang dirancang khusus untuk CPU Arm, memaksimalkan kinerja.
  • Kompatibilitas Lintas Platform: MNN mendukung berbagai sistem operasi dan platform perangkat keras, menjadikannya pilihan serbaguna bagi pengembang.

Kontribusi KleidiAI

KleidiAI melengkapi kekuatan MNN dengan menyediakan serangkaian rutinitas khusus yang selanjutnya mempercepat inferensi AI. Rutinitas ini memanfaatkan pengalaman luas Arm dalam arsitektur CPU untuk membuka peningkatan kinerja yang sulit dicapai sebaliknya. Aspek kunci dari kontribusi KleidiAI meliputi:

  • Kernel yang Sangat Dioptimalkan: KleidiAI menyediakan kernel yang sangat dioptimalkan untuk operasi AI umum, seperti perkalian matriks dan konvolusi. Kernel ini disetel dengan cermat untuk memanfaatkan fitur khusus CPU Arm.
  • Integrasi Otomatis: Integrasi KleidiAI yang mulus ke dalam kerangka kerja AI yang populer berarti bahwa pengembang tidak perlu secara manual memasukkan optimasi ini. Manfaat kinerja diterapkan secara otomatis, menyederhanakan proses pengembangan.
  • Peningkatan Berkelanjutan: Arm berkomitmen untuk terus memperbarui dan meningkatkan KleidiAI, memastikan bahwa KleidiAI tetap menjadi yang terdepan dalam teknologi akselerasi AI.

Qwen2-VL-2B-Instruct: Model Multimodal yang Kuat

Model Qwen2-VL-2B-Instruct adalah bukti keahlian Alibaba dalam model bahasa besar dan AI multimodal. Fitur utamanya meliputi:

  • Instruction Tuning: Model ini secara khusus disetel untuk mengikuti instruksi, membuatnya sangat mudah beradaptasi dengan berbagai tugas.
  • Kemampuan Multimodal: Model ini unggul dalam memahami dan memproses informasi visual dan tekstual, memungkinkan aplikasi seperti image captioning dan visual question answering.
  • Dukungan Multibahasa: Model ini dirancang untuk bekerja dengan berbagai bahasa, memperluas penerapannya di berbagai wilayah dan basis pengguna.
  • Dioptimalkan untuk Perangkat Edge: Meskipun memiliki kemampuan yang kuat, model ini dirancang dengan cermat untuk beroperasi dalam batasan sumber daya perangkat edge.

Memperluas Cakupan AI Multimodal

Kemajuan yang dibahas di sini tidak terbatas pada smartphone. Prinsip dan teknologi yang sama dapat diterapkan pada berbagai perangkat edge, termasuk:

  • Perangkat Rumah Pintar: Mengaktifkan asisten suara, pengenalan gambar untuk kamera keamanan, dan fitur cerdas lainnya.
  • Perangkat Wearable: Mendukung pemantauan kesehatan, pelacakan kebugaran, dan aplikasi augmented reality.
  • IoT Industri: Memfasilitasi pemeliharaan prediktif, kontrol kualitas, dan otomatisasi dalam pengaturan manufaktur.
  • Otomotif: Meningkatkan sistem bantuan pengemudi, hiburan dalam kabin, dan kemampuan mengemudi otonom.

Potensi aplikasi AI multimodal di edge sangat luas dan terus berkembang. Seiring model menjadi lebih canggih dan perangkat keras menjadi lebih kuat, kita dapat berharap untuk melihat kasus penggunaan yang lebih inovatif dan berdampak muncul. Kolaborasi antara Arm dan Alibaba ini merupakan langkah signifikan ke arah itu, membawa kekuatan AI multimodal ke audiens yang lebih luas dan memungkinkan generasi baru perangkat cerdas. Fokus pada efisiensi, kinerja, dan aksesibilitas pengembang memastikan bahwa kemajuan ini akan memiliki dampak luas dan abadi pada masa depan teknologi.