Gemma 3n: Revolusi Inferensi On-Device | id

Google telah meluncurkan Gemma 3n, model bahasa kecil multimodal inovatif yang kini tersedia dalam pratinjau di komunitas LiteRT Hugging Face yang inovatif, bersama dengan serangkaian model yang telah diluncurkan sebelumnya. Gemma 3n dirancang untuk memproses berbagai input, termasuk teks, gambar, video, dan audio. Selain itu, Gemma 3n memfasilitasi fine-tuning, penyesuaian melalui retrieval-augmented generation (RAG), dan panggilan fungsi, semuanya didukung oleh AI Edge SDKs yang baru.

Gemma 3n: Mengungkap Kekuatan di Dalamnya

Gemma 3n ditawarkan dalam dua varian parameter yang berbeda: Gemma 3n 2B dan Gemma 3n 4B. Kedua iterasi dilengkapi untuk menangani input teks dan gambar, dengan dukungan audio yang dijadwalkan untuk diintegrasikan dalam waktu dekat, menurut proyeksi Google. Ini menandakan lompatan substansial dalam skala dibandingkan dengan pendahulunya, Gemma 3 1B non-multimodal, yang memulai debutnya awal tahun ini dan membutuhkan hanya 529MB untuk mengelola 2.585 token per detik yang mengesankan pada GPU seluler.

Menurut spesifikasi teknis Google, Gemma 3n memanfaatkan aktivasi parameter selektif, teknik inovatif yang dirancang untuk pengelolaan parameter yang efisien. Ini menyiratkan bahwa kedua model mencakup jumlah parameter yang lebih besar daripada 2B atau 4B yang secara aktif terlibat selama inferensi. Pendekatan strategis ini mengoptimalkan pemanfaatan sumber daya dan meningkatkan kinerja.

Fine-Tuning dan Kuantisasi: Melepaskan Kustomisasi

Google menggarisbawahi kemampuan bagi para pengembang untuk menyempurnakan model dasar dan selanjutnya mengonversi dan mengkuantisasinya menggunakan alat kuantisasi mutakhir yang dapat diakses melalui Google AI Edge. Ini memberdayakan pengembang untuk menyesuaikan model dengan aplikasi tertentu dan mengoptimalkan karakteristik kinerjanya.

Integrasi RAG: Memperkaya Model Bahasa dengan Data Kontekstual

Sebagai alternatif fine-tuning, model Gemma 3n dapat digunakan untuk Retrieval Augmented Generation (RAG) on-device, metodologi yang memperkaya model bahasa dengan data khusus aplikasi. Augmentasi ini difasilitasi oleh pustaka AI Edge RAG, yang saat ini eksklusif untuk Android tetapi dengan rencana untuk ekspansi ke platform lain dalam persiapan.

Pustaka RAG beroperasi melalui pipeline yang disederhanakan yang terdiri dari beberapa tahapan kunci:

Impor Data: Memasukkan data yang relevan ke dalam sistem.
Chunking dan Pengindeksan: Membagi dan mengatur data untuk pengambilan yang efisien.
Pembuatan Embeddings: Membuat representasi vektor data untuk pemahaman semantik.
Pengambilan Informasi: Mengidentifikasi dan mengekstrak informasi yang relevan berdasarkan kueri pengguna.
Pembuatan Respons: Membuat respons yang koheren dan relevan secara kontekstual menggunakan LLM.

Kerangka kerja yang kuat ini memungkinkan penyesuaian komprehensif dari pipeline RAG, yang mencakup dukungan untuk basis data khusus, strategi chunking, dan fungsi pengambilan.

AI Edge On-device Function Calling SDK: Menjembatani Kesenjangan Antara Model dan Tindakan Dunia Nyata

Bersamaan dengan peluncuran Gemma 3n, Google memperkenalkan AI Edge On-device Function Calling SDK, yang awalnya hanya tersedia di Android. SDK ini memberdayakan model untuk memanggil fungsi tertentu, sehingga menjalankan tindakan dunia nyata.

Untuk mengintegrasikan LLM dengan mulus dengan fungsi eksternal, fungsi tersebut harus dijelaskan dengan cermat dengan menentukan namanya, narasi deskriptif yang menjelaskan kapan LLM harus menggunakannya, dan parameter yang diperlukan. Metadata ini dienkapsulasi di dalam objek Tool, yang selanjutnya diteruskan ke model bahasa besar melalui konstruktor GenerativeModel. Function calling SDK menggabungkan dukungan untuk menerima panggilan fungsi dari LLM berdasarkan deskripsi yang diberikan dan mengirimkan hasil eksekusi kembali ke LLM.

Menjelajahi Potensi: Galeri Google AI Edge

Bagi mereka yang ingin mempelajari lebih dalam alat inovatif ini, Galeri Google AI Edge menjadi sumber daya yang tak ternilai harganya. Aplikasi eksperimental ini menampilkan beragam model dan memfasilitasi pemrosesan teks, gambar, dan audio.

Menyelami Lebih Dalam: Nuansa Gemma 3n dan Ekosistemnya

Munculnya Gemma 3n menandai langkah signifikan dalam evolusi pembelajaran mesin on-device, menawarkan kombinasi ampuh antara efisiensi, kemampuan beradaptasi, dan fungsionalitas. Kemampuan multimodalnya, ditambah dengan dukungan untuk RAG dan panggilan fungsi, membuka banyak kemungkinan bagi pengembang yang ingin membuat aplikasi cerdas dan sadar konteks.

Aktivasi Parameter Selektif: Pendalaman

Teknik aktivasi parameter selektif yang digunakan oleh Gemma 3n memerlukan pemeriksaan lebih dekat. Pendekatan inovatif ini memungkinkan model untuk secara dinamis mengaktifkan hanya parameter yang diperlukan untuk tugas tertentu, sehingga meminimalkan overhead komputasi dan memaksimalkan efisiensi. Ini sangat penting untuk penerapan on-device, di mana sumber daya seringkali terbatas.

Prinsip yang mendasari aktivasi parameter selektif terletak pada pengamatan bahwa tidak semua parameter dalam jaringan saraf sama pentingnya untuk semua tugas. Dengan secara selektif mengaktifkan hanya parameter yang paling relevan, model dapat mencapai kinerja yang sebanding dengan biaya komputasi yang jauh lebih rendah.

Implementasi aktivasi parameter selektif biasanya melibatkan mekanisme untuk menentukan parameter mana yang akan diaktifkan untuk input tertentu. Ini dapat dicapai melalui berbagai teknik, seperti:

Mekanisme Perhatian: Memperhatikan bagian input yang paling relevan dan mengaktifkan parameter yang sesuai.
Mekanisme Gating: Menggunakan fungsi gating untuk mengontrol aliran informasi melalui berbagai bagian jaringan.
Pelatihan Sparse: Melatih jaringan untuk mempelajari koneksi sparse, sehingga hanya subset parameter yang aktif selama inferensi.

Pilihan teknik tergantung pada arsitektur spesifik model dan karakteristik tugas. Namun, tujuan utamanya adalah untuk mengidentifikasi dan mengaktifkan hanya parameter yang paling relevan untuk input yang diberikan, sehingga mengurangi biaya komputasi dan meningkatkan efisiensi.

RAG: Menambah Pengetahuan dan Konteks

Retrieval Augmented Generation (RAG) mewakili perubahan paradigma dalam cara model bahasa digunakan. Dengan mengintegrasikan sumber pengetahuan eksternal, RAG memungkinkan model bahasa untuk menghasilkan respons yang lebih terinformasi, akurat, dan relevan secara kontekstual.

Pipeline RAG terdiri dari beberapa tahapan kunci:

Pengindeksan Data: Pada tahap ini, sumber pengetahuan eksternal diindeks untuk memungkinkan pengambilan informasi yang relevan secara efisien. Ini biasanya melibatkan pembuatan representasi vektor dari setiap dokumen di sumber pengetahuan, yang kemudian dapat digunakan untuk dengan cepat mengidentifikasi dokumen yang mirip dengan kueri yang diberikan.
Pengambilan Informasi: Ketika kueri diterima, sistem RAG mengambil dokumen yang paling relevan dari sumber pengetahuan yang diindeks. Ini biasanya dilakukan menggunakan algoritma pencarian kesamaan, yang membandingkan representasi vektor kueri dengan representasi vektor dokumen di sumber pengetahuan.
Kontekstualisasi: Dokumen yang diambil kemudian digunakan untuk menambah konteks kueri. Ini dapat dilakukan dengan hanya menggabungkan dokumen yang diambil ke kueri, atau dengan menggunakan teknik yang lebih canggih untuk mengintegrasikan informasi dari dokumen yang diambil ke dalam representasi kueri.
Pembuatan Respons: Akhirnya, kueri yang ditambah dimasukkan ke dalam model bahasa, yang menghasilkan respons berdasarkan informasi gabungan dari kueri dan dokumen yang diambil.

RAG menawarkan beberapa keuntungan dibandingkan model bahasa tradisional:

Peningkatan Akurasi: Dengan memasukkan pengetahuan eksternal, model RAG dapat menghasilkan respons yang lebih akurat dan faktual.
Peningkatan Pemahaman Kontekstual: Model RAG dapat lebih memahami konteks kueri dengan memanfaatkan informasi dalam dokumen yang diambil.
Pengurangan Halusinasi: Model RAG cenderung tidak berhalusinasi atau menghasilkan respons yang tidak masuk akal, karena mereka didasarkan pada pengetahuan eksternal.
Kemampuan Beradaptasi dengan Informasi Baru: Model RAG dapat dengan mudah beradaptasi dengan informasi baru dengan hanya memperbarui sumber pengetahuan yang diindeks.

Function Calling: Berinteraksi dengan Dunia Nyata

AI Edge On-device Function Calling SDK mewakili langkah signifikan menuju memungkinkan model bahasa untuk berinteraksi dengan dunia nyata. Dengan mengizinkan model untuk memanggil fungsi eksternal, SDK membuka berbagai kemungkinan untuk membuat aplikasi cerdas dan sadar konteks.

Proses panggilan fungsi biasanya melibatkan langkah-langkah berikut:

Definisi Fungsi: Pengembang mendefinisikan fungsi yang dapat dipanggil oleh model bahasa. Ini termasuk menentukan nama fungsi, deskripsi tentang apa yang dilakukan fungsi, dan parameter yang diterima oleh fungsi.
Pembuatan Objek Alat: Pengembang membuat objek Tool yang merangkum definisi fungsi. Objek ini kemudian diteruskan ke model bahasa.
Pembuatan Panggilan Fungsi: Ketika model bahasa perlu melakukan tindakan dunia nyata, ia menghasilkan panggilan fungsi. Panggilan ini mencakup nama fungsi yang akan dipanggil dan nilai parameter yang akan diteruskan ke fungsi.
Eksekusi Fungsi: Panggilan fungsi kemudian dieksekusi oleh sistem. Ini biasanya melibatkan pemanggilan API atau layanan yang sesuai.
Transmisi Hasil: Hasil eksekusi fungsi kemudian dikirimkan kembali ke model bahasa.
Pembuatan Respons: Akhirnya, model bahasa menggunakan hasil eksekusi fungsi untuk menghasilkan respons.

Function calling SDK memungkinkan model bahasa untuk melakukan berbagai tugas, seperti:

Mengakses Informasi dari Sumber Eksternal: Model dapat memanggil fungsi untuk mengambil informasi dari basis data, API, dan sumber eksternal lainnya.
Mengontrol Perangkat dan Peralatan: Model dapat memanggil fungsi untuk mengontrol perangkat rumah pintar, seperti lampu, termostat, dan peralatan.
Melakukan Transaksi: Model dapat memanggil fungsi untuk melakukan transaksi keuangan, seperti melakukan pembayaran dan mentransfer dana.
Mengotomatiskan Tugas: Model dapat memanggil fungsi untuk mengotomatiskan tugas yang kompleks, seperti menjadwalkan janji temu dan mengirim email.

Galeri Google AI Edge: Pameran Inovasi

Galeri Google AI Edge berfungsi sebagai platform penting untuk menampilkan kemampuan Gemma 3n dan alat terkaitnya. Dengan menyediakan lingkungan interaktif di mana pengembang dapat bereksperimen dengan teknologi ini, galeri mendorong inovasi dan mempercepat pengembangan aplikasi baru.

Galeri ini menampilkan beragam model dan demo, yang menampilkan potensi Gemma 3n untuk berbagai tugas, seperti:

Pengenalan Gambar: Mengidentifikasi objek dan pemandangan dalam gambar.
Pemrosesan Bahasa Alami: Memahami dan menghasilkan bahasa manusia.
Pengenalan Ucapan: Mentranskripsikan bahasa lisan ke dalam teks.
Pemrosesan Audio: Menganalisis dan memanipulasi sinyal audio.

Galeri ini juga menyediakan akses ke AI Edge SDKs, memungkinkan pengembang untuk mengintegrasikan teknologi ini ke dalam aplikasi mereka sendiri.

Masa Depan Pembelajaran Mesin On-Device

Munculnya Gemma 3n dan ekosistem yang menyertainya mengumumkan era baru untuk pembelajaran mesin on-device. Dengan menggabungkan efisiensi, kemampuan beradaptasi, dan fungsionalitas, Gemma 3n memberdayakan pengembang untuk membuat aplikasi cerdas dan sadar konteks yang dapat berjalan langsung di perangkat, tanpa memerlukan koneksi internet yang konstan.

Ini memiliki implikasi yang mendalam bagi berbagai industri, termasuk:

Seluler: Memungkinkan aplikasi seluler yang lebih cerdas dan responsif.
IoT: Memberdayakan perangkat pintar yang dapat beroperasi secara mandiri dan otonom.
Otomotif: Meningkatkan keselamatan dan kenyamanan kendaraan otonom.
Perawatan Kesehatan: Meningkatkan akurasi dan efisiensi diagnosis dan perawatan medis.

Seiring dengan terus berkembangnya teknologi pembelajaran mesin on-device, kita dapat mengharapkan untuk melihat lebih banyak aplikasi inovatif dan berdampak muncul di tahun-tahun mendatang. Gemma 3n mewakili langkah signifikan dalam perjalanan ini, membuka jalan bagi masa depan di mana kecerdasan terintegrasi dengan mulus ke dalam kehidupan kita sehari-hari.

diperbarui pada 2025-05-31

# Google # Gemma # RAG