Gemma 3n: Era Baharu AI yang Merentasi Sempadan

Gemma 3n Google telah muncul, menandakan era baharu untuk AI generatif. Model ini kecil dan sangat pantas, tetapi yang lebih mengagumkan ialah ia boleh berjalan di luar talian pada telefon bimbit, membawa teknologi kecerdasan buatan canggih ke peranti yang kita gunakan setiap hari. Gemma 3n bukan sahaja boleh memahami audio, imej dan teks, tetapi juga sangat tepat, malah mengatasi GPT-4.1 Nano dalam Chatbot Arena.

Seni Bina Inovatif Gemma 3n

Untuk menyambut masa depan AI di peranti, Google DeepMind telah bekerjasama rapat dengan peneraju dalam bidang perkakasan mudah alih seperti Qualcomm Technologies, MediaTek dan Samsung System LSI untuk membangunkan seni bina baharu.

Seni bina ini bertujuan untuk mengoptimumkan prestasi AI generatif pada peranti terhad sumber seperti telefon bimbit, tablet dan komputer riba. Untuk mencapai matlamat ini, seni bina ini menggunakan tiga inovasi utama: Cache Embedded Layerwise (PLE), Seni Bina MatFormer dan Pemuatan Parameter Bersyarat.

Cache PLE: Memecahkan Had Memori

Cache PLE ialah mekanisme pintar yang membolehkan model memunggah parameter terbenam lapisan demi lapisan ke memori luaran yang pantas, dengan itu mengurangkan penggunaan memori dengan ketara tanpa menjejaskan prestasi. Parameter ini dijana di luar memori operasi model dan dapat diambil semasa pelaksanaan seperti yang diperlukan, yang membolehkan operasi yang cekap walaupun pada peranti terhad sumber.

Bayangkan anda menjalankan model AI yang kompleks, tetapi peranti anda mempunyai memori terhad. Cache PLE adalah seperti pustakawan pintar yang menyimpan buku (parameter) yang jarang digunakan di gudang berdekatan (memori luaran). Apabila model memerlukan parameter ini, pustakawan akan mengambilnya dengan pantas, memastikan model berjalan lancar tanpa mengambil ruang memori yang berharga.

Khususnya, cache PLE mengoptimumkan penggunaan dan prestasi memori dengan cara berikut:

  • Mengurangkan Jejak Memori: Dengan menyimpan parameter yang jarang digunakan dalam memori luaran, cache PLE boleh mengurangkan jumlah memori yang diperlukan oleh model semasa masa jalan. Ini membolehkan model AI besar dijalankan pada peranti terhad sumber.

  • Meningkatkan Prestasi: Walaupun mengambil parameter daripada storan luaran mengambil sedikit masa, cache PLE meminimumkan kependaman dengan bijak menjangka parameter mana yang akan digunakan pada masa hadapan dan memuatkannya ke dalam cache lebih awal. Ini memastikan model boleh berjalan dengan kelajuan hampir masa nyata.

  • Menyokong Model yang Lebih Besar: Dengan mengurangkan keperluan memori, cache PLE membolehkan kami membina model AI yang lebih besar dan lebih kompleks. Model ini mempunyai keupayaan ekspresif yang lebih kuat dan boleh menyelesaikan tugas yang lebih kompleks.

Seni Bina MatFormer: Reka Bentuk Halus seperti Anak Patung Rusia

Seni bina Matryoshka Transformer (MatFormer) memperkenalkan reka bentuk Transformer bersarang, di mana submodel yang lebih kecil terbenam dalam model yang lebih besar, sama seperti anak patung Rusia. Struktur ini membolehkan pengaktifan selektif submodel, membolehkan model melaraskan saiz dan keperluan pengiraannya secara dinamik mengikut tugas. Fleksibiliti ini mengurangkan kos pengiraan, masa tindak balas dan penggunaan tenaga, menjadikannya sesuaiuntuk penggunaan tepi dan awan.

Idea teras seni bina MatFormer ialah tidak semua tugas memerlukan model AI yang lengkap. Untuk tugas yang mudah, hanya submodel yang lebih kecil perlu diaktifkan untuk menjimatkan sumber pengiraan. Untuk tugas yang kompleks, submodel yang lebih besar boleh diaktifkan untuk ketepatan yang lebih tinggi.

Mari kita ilustrasikan kelebihan seni bina MatFormer dengan contoh. Andaikan anda menggunakan model AI untuk mengenal pasti objek dalam imej. Untuk imej yang mudah, seperti imej yang hanya mengandungi satu objek, submodel yang lebih kecil boleh diaktifkan, yang mengkhusus dalam mengenal pasti jenis objek tertentu itu. Untuk imej yang kompleks, seperti imej yang mengandungi berbilang objek, submodel yang lebih besar boleh diaktifkan, yang boleh mengenal pasti pelbagai objek yang berbeza.

Kelebihan seni bina MatFormer ialah:

  • Mengurangkan Kos Pengiraan: Dengan hanya mengaktifkan submodel yang diperlukan, seni bina MatFormer boleh mengurangkan kos pengiraan dengan ketara. Ini penting untuk menjalankan model AI pada peranti terhad sumber.

  • Memendekkan Masa Tindak Balas: Memandangkan seni bina MatFormer boleh melaraskan saiz model secara dinamik mengikut tugas, masa tindak balas boleh dipendekkan. Ini membolehkan model AI bertindak balas dengan lebih pantas kepada permintaan pengguna.

  • Mengurangkan Penggunaan Tenaga: Dengan mengurangkan kos pengiraan, seni bina MatFormer juga boleh mengurangkan penggunaan tenaga. Ini penting untuk memanjangkan hayat bateri.

Pemuatan Parameter Bersyarat: Muat Atas Permintaan, Mengoptimumkan Sumber

Pemuatan parameter bersyarat membolehkan pembangun melangkau pemuatan parameter yang tidak digunakan (seperti parameter untuk pemprosesan audio atau visual) ke dalam memori. Jika perlu, parameter ini boleh dimuatkan secara dinamik semasa masa jalan, seterusnya mengoptimumkan penggunaan memori dan membolehkan model menyesuaikan diri dengan pelbagai peranti dan tugas.

Bayangkan anda menggunakan model AI untuk memproses teks. Jika tugas anda tidak memerlukan sebarang pemprosesan audio atau visual, maka memuatkan parameter untuk pemprosesan audio atau visual akan membazirkan sumber. Pemuatan parameter bersyarat membolehkan model memuatkan hanya parameter yang diperlukan, dengan itu meminimumkan penggunaan memori dan meningkatkan prestasi.

Cara pemuatan parameter bersyarat berfungsi adalah seperti berikut:

  1. Model menganalisis tugas semasa untuk menentukan parameter mana yang diperlukan.
  2. Model memuatkan hanya parameter yang diperlukan ke dalam memori.
  3. Apabila tugas selesai, model melepaskan parameter yang tidak lagi diperlukan.

Kelebihan pemuatan parameter bersyarat ialah:

  • Mengoptimumkan Penggunaan Memori: Dengan memuatkan hanya parameter yang diperlukan, pemuatan parameter bersyarat boleh mengoptimumkan penggunaan memori dengan ketara. Ini penting untuk menjalankan model AI pada peranti terhad sumber.

  • Meningkatkan Prestasi: Dengan mengurangkan bilangan parameter yang dimuatkan, pemuatan parameter bersyarat boleh meningkatkan prestasi. Ini membolehkan model AI bertindak balas dengan lebih pantas kepada permintaan pengguna.

  • Menyokong Pelbagai Peranti: Dengan mengoptimumkan penggunaan memori, pemuatan parameter bersyarat membolehkan model AI berjalan pada pelbagai peranti, termasuk peranti dengan memori terhad.

Ciri-ciri Cemerlang Gemma 3n

Gemma 3n memperkenalkan beberapa teknologi dan ciri inovatif yang mentakrifkan semula kemungkinan AI di peranti.

Mari kita lihat fungsi utamanya dengan lebih mendalam:

  1. Prestasi dan Kecekapan di Peranti yang Dioptimumkan: Gemma 3n adalah kira-kira 1.5x lebih pantas daripada pendahulunya (Gemma 3 4B), sambil mengekalkan kualiti output yang jauh lebih tinggi. Ini bermakna anda boleh mendapatkan hasil yang lebih tepat dengan lebih pantas pada peranti anda tanpa bergantung pada sambungan awan.

  2. Cache PLE: Sistem cache PLE membolehkan Gemma 3n menyimpan parameter dalam storan setempat yang pantas, dengan itu mengurangkan jejak memori dan meningkatkan prestasi.

  3. Seni Bina MatFormer: Gemma 3n menggunakan seni bina MatFormer, yang secara selektif mengaktifkan parameter model berdasarkan permintaan tertentu. Ini membolehkan model melaraskan saiz dan keperluan pengiraannya secara dinamik, dengan itu mengoptimumkan penggunaan sumber.

  4. Pemuatan Parameter Bersyarat: Untuk menjimatkan sumber memori, Gemma 3n boleh melangkau memuatkan parameter yang tidak perlu, seperti tidak memuatkan parameter yang sepadan apabila visual atau audio tidak diperlukan. Ini meningkatkan lagi kecekapan dan mengurangkan penggunaan kuasa.

  5. Keutamaan Privasi dan Sedia Luar Talian: Menjalankan fungsi AI secara setempat tanpa memerlukan sambungan internet memastikan privasi pengguna. Ini bermakna data anda tidak meninggalkan peranti anda dan anda boleh menggunakan fungsi AI tanpa sambungan rangkaian.

  6. Kefahaman Berbilang Moda: Gemma 3n menyediakan sokongan lanjutan untuk input audio, teks, imej dan video, membolehkan interaksi berbilang moda masa nyata yang kompleks. Ini membolehkan model AI memahami dan bertindak balas kepada pelbagai input yang berbeza, dengan itu menyediakan pengalaman pengguna yang lebih semula jadi dan intuitif.

  7. Fungsi Audio: Ia menyediakan pengecaman pertuturan automatik (ASR) dan terjemahan pertuturan ke teks, dengan transkripsi berkualiti tinggi dan sokongan berbilang bahasa. Ini bermakna anda boleh menggunakan Gemma 3n untuk menukar perkataan yang dituturkan kepada teks dan menterjemah pertuturan daripada satu bahasa ke bahasa lain.

  8. Keupayaan Berbilang Bahasa yang Dipertingkatkan: Prestasi yang dipertingkatkan dengan ketara untuk bahasa seperti Jepun, Jerman, Korea, Sepanyol dan Perancis. Ini membolehkan Gemma 3n memahami dan menjana teks dalam pelbagai bahasa yang berbeza dengan lebih tepat.

  9. Konteks Token 32K: Ia boleh memproses sejumlah besar data dalam satu permintaan, membolehkan perbualan yang lebih panjang dan tugas yang lebih kompleks. Ini bermakna anda boleh memberikan input teks yang lebih panjang kepada Gemma 3n tanpa perlu risau tentang melebihi tetingkap konteksnya.

Bermula dengan Cepat dengan Gemma 3n

Bermula menggunakan Gemma 3n adalah sangat mudah, dan terdapat dua kaedah utama untuk pembangun meneroka dan menyepadukan model yang berkuasa ini.

1. Google AI Studio: Prototaip Pantas

Hanya log masuk ke Google AI Studio, pergi ke studio, pilih model Gemma 3n E4B, dan anda boleh mula meneroka fungsi Gemma 3n. Studio ini sesuai untuk pembangun yang ingin prototaip dengan pantas dan menguji idea sebelum pelaksanaan penuh.

Anda boleh mendapatkan kunci API dan menyepadukan model ke dalam bot sembang AI setempat anda, khususnya melalui aplikasi Msty.

Di samping itu, anda boleh menggunakan Google GenAI Python SDK, yang membolehkan anda menyepadukan model ke dalam aplikasi anda dengan hanya beberapa baris kod. Ini memudahkan penyepaduan Gemma 3n ke dalam projek anda.

2. Pembangunan di Peranti menggunakan Google AI Edge: Membina Aplikasi Setempat

Bagi pembangun yang ingin menyepadukan Gemma 3n terus ke dalam aplikasi mereka, Google AI Edge menyediakan alat dan pustaka yang diperlukan untuk pembangunan di peranti pada peranti Android dan Chrome. Kaedah ini sesuai untuk membina aplikasi yang memanfaatkan fungsi Gemma 3n secara setempat.

Google AI Edge menyediakan pelbagai alat dan pustaka yang memudahkan pembangun menyepadukan Gemma 3n ke dalam aplikasi mereka. Alat ini termasuk:

  • TensorFlow Lite: Rangka kerja ringan untuk menjalankan model AI pada peranti mudah alih.
  • ML Kit: Koleksi API untuk menambah fungsi pembelajaran mesin pada aplikasi mudah alih.
  • Android Neural Networks API (NNAPI): API untuk memanfaatkan pemecut perkakasan pada peranti untuk menjalankan model AI.

Dengan menggunakan Google AI Edge, pembangun boleh membina pelbagai aplikasi inovatif, termasuk:

  • Pengecaman Pertuturan Luar Talian: Membenarkan pengguna menggunakan arahan suara untuk mengawal peranti mereka tanpa sambungan internet.
  • Pengecaman Imej Masa Nyata: Membenarkan pengguna mengenal pasti objek dalam imej tanpa memuat naik imej ke awan.
  • Penjanaan Teks Pintar: Membenarkan pengguna menjana pelbagai jenis teks, seperti e-mel, artikel dan kod.