Ilusi Fine-Tuning
Fine-tuning dan Retrieval Augmented Generation (RAG) umumnya dianggap sebagai metode yang mapan untuk meningkatkan pengetahuan dan kemampuan model AI yang telah dilatih sebelumnya. Namun, CEO Aleph Alpha, Jonas Andrulis, menunjukkan bahwa kenyataannya lebih kompleks.
“Setahun yang lalu, ada kepercayaan luas bahwa fine-tuning adalah solusi ajaib. Jika sistem AI tidak berfungsi seperti yang diinginkan, jawabannya hanyalah fine-tuning. Tidak sesederhana itu,” jelasnya.
Meskipun fine-tuning dapat memodifikasi gaya atau perilaku model, itu bukanlah pendekatan yang paling efektif untuk mengajarkan informasi baru. Ekspektasi bahwa fine-tuning saja dapat menyelesaikan semua masalah aplikasi AI adalah kesalahpahaman.
RAG: Pendekatan Alternatif
RAG menawarkan alternatif dengan berfungsi seperti pustakawan yang mengambil informasi dari arsip eksternal. Pendekatan ini memungkinkan pembaruan dan perubahan pada informasi dalam database tanpa melatih ulang atau fine-tuning model. Selain itu, hasil yang dihasilkan dapat dikutip dan diaudit untuk akurasi.
“Pengetahuan spesifik harus selalu didokumentasikan dan tidak disimpan dalam parameter LLM,” Andrulis menekankan.
Meskipun RAG memberikan banyak manfaat, keberhasilannya bergantung pada dokumentasi yang tepat dari proses-proses kunci, prosedur, dan pengetahuan institusional dalam format yang dapat dipahami oleh model. Sayangnya, ini seringkali tidak terjadi.
Bahkan ketika dokumentasi ada, perusahaan mungkin menghadapi masalah jika dokumen atau proses bergantung pada data di luar distribusi – data yang berbeda secara signifikan dari data yang digunakan untuk melatih model dasar. Misalnya, model yang dilatih hanya pada dataset bahasa Inggris akan kesulitan dengan dokumentasi bahasa Jerman, terutama jika berisi rumus ilmiah. Dalam banyak kasus, model mungkin tidak dapat menginterpretasikan data sama sekali.
Oleh karena itu, Andrulis menyarankan bahwa kombinasi fine-tuning dan RAG biasanya diperlukan untuk mencapai hasil yang berarti. Pendekatan hibrida ini memanfaatkan kekuatan kedua metode untuk mengatasi keterbatasan masing-masing.
Menjembatani Kesenjangan
Aleph Alpha bertujuan untuk membedakan dirinya sebagai DeepMind Eropa dengan mengatasi tantangan yang mencegah perusahaan dan negara-negara dari mengembangkan AI berdaulat mereka sendiri.
AI berdaulat mengacu pada model yang dilatih atau di-fine-tune menggunakan dataset internal suatu negara pada perangkat keras yang dibangun atau digunakan di dalam perbatasannya. Pendekatan ini memastikan privasi data, keamanan, dan kontrol, yang sangat penting bagi banyak organisasi dan pemerintah.
“Kami berusaha untuk menjadi sistem operasi, fondasi bagi perusahaan dan pemerintah untuk membangun strategi AI berdaulat mereka sendiri,” kata Andrulis. “Kami bertujuan untuk berinovasi jika diperlukan, sambil juga memanfaatkan sumber terbuka dan teknologi canggih jika memungkinkan.”
Meskipun ini kadang-kadang melibatkan pelatihan model, seperti Pharia-1-LLM Aleph, Andrulis menekankan bahwa mereka tidak mencoba untuk mereplikasi model yang ada seperti Llama atau DeepSeek. Fokus mereka adalah pada menciptakan solusi unik yang mengatasi tantangan spesifik.
“Saya selalu mengarahkan penelitian kami untuk fokus pada hal-hal yang berbeda secara bermakna, bukan hanya menyalin apa yang dilakukan orang lain, karena itu sudah ada,” kata Andrulis. “Kita tidak perlu membangun Llama atau DeepSeek lain karena mereka sudah ada.”
Sebagai gantinya, Aleph Alpha berkonsentrasi pada pembangunan kerangka kerja yang menyederhanakan dan memperlancar adopsi teknologi ini. Contoh terbaru adalah arsitektur pelatihan bebas tokenizer, atau “T-Free,” baru mereka, yang bertujuan untuk fine-tuning model yang dapat memahami data di luar distribusi dengan lebih efisien.
Pendekatan berbasis tokenizer tradisional seringkali membutuhkan sejumlah besar data di luar distribusi untuk secara efektif fine-tuning model. Ini mahal secara komputasi dan mengasumsikan bahwa data yang cukup tersedia.
Arsitektur T-Free Aleph Alpha melewati masalah ini dengan menghilangkan tokenizer. Pengujian awal pada Pharia LLM mereka dalam bahasa Finlandia menunjukkan pengurangan 70 persen dalam biaya pelatihan dan jejak karbon dibandingkan dengan pendekatan berbasis tokenizer. Pendekatan inovatif ini membuat fine-tuning lebih mudah diakses dan berkelanjutan.
Aleph Alpha juga telah mengembangkan alat untuk mengatasi kesenjangan dalam pengetahuan yang terdokumentasi yang dapat menyebabkan kesimpulan yang tidak akurat atau tidak membantu.
Misalnya, jika dua kontrak yang relevan dengan pertanyaan kepatuhan saling bertentangan, “sistem dapat mendekati manusia dan berkata, ‘Saya menemukan perbedaan… bisakah Anda memberikan umpan balik apakah ini konflik yang sebenarnya?’” Andrulis menjelaskan.
Informasi yang dikumpulkan melalui kerangka kerja ini, yang disebut Pharia Catch, dapat dimasukkan kembali ke dalam basis pengetahuan aplikasi atau digunakan untuk fine-tuning model yang lebih efektif. Umpan balik ini meningkatkan akurasi dan keandalan sistem AI dari waktu ke waktu.
Menurut Andrulis, alat-alat ini telah menarik mitra seperti PwC, Deloitte, Capgemini, dan Supra, yang bekerja dengan pelanggan akhir untuk mengimplementasikan teknologi Aleph Alpha. Kemitraan ini menunjukkan nilai dan kepraktisan solusi Aleph Alpha dalam aplikasi dunia nyata.
Faktor Perangkat Keras
Perangkat lunak dan data bukanlah satu-satunya tantangan yang dihadapi oleh para pengadopsi AI Berdaulat. Perangkat keras adalah pertimbangan penting lainnya.
Perusahaan dan negara yang berbeda mungkin memiliki persyaratan khusus untuk berjalan pada perangkat keras yang dikembangkan di dalam negeri atau mungkin hanya menentukan di mana beban kerja dapat berjalan. Kendala ini dapat secara signifikan mempengaruhi pilihan perangkat keras dan infrastruktur.
Ini berarti bahwa Andrulis dan timnya harus mendukung berbagai pilihan perangkat keras. Aleph Alpha telah menarik sekelompok mitra perangkat keras yang eklektik, termasuk AMD, Graphcore, dan Cerebras.
Bulan lalu, Aleph Alpha mengumumkan kemitraan dengan AMD untuk menggunakan akselerator seri MI300-nya. Kolaborasi ini akan memanfaatkan perangkat keras canggih AMD untuk mempercepat pelatihan dan inferensi AI.
Andrulis juga menyoroti kolaborasi dengan Graphcore, yang diakuisisi oleh Softbank, dan Cerebras, yang akselerator skala wafer CS-3-nya digunakan untuk melatih model AI untuk angkatan bersenjata Jerman. Kemitraan ini menunjukkan komitmen Aleph Alpha untuk bekerja dengan beragam penyedia perangkat keras untuk memenuhi kebutuhan spesifik pelanggannya.
Terlepas dari kolaborasi ini, Andrulis menegaskan bahwa tujuan Aleph Alpha bukanlah untuk menjadi penyedia layanan terkelola atau penyedia cloud. “Kami tidak akan pernah menjadi penyedia cloud,” katanya. “Saya ingin pelanggan saya bebas dan tanpa terkunci.” Komitmen terhadap kebebasan dan fleksibilitas pelanggan ini membedakan Aleph Alpha dari banyak perusahaan AI lainnya.
Jalan ke Depan: Meningkatnya Kompleksitas
Ke depan, Andrulis mengantisipasi bahwa membangun aplikasi AI akan menjadi lebih kompleks karena industri bergeser dari chatbot ke sistem AI agentik yang mampu memecahkan masalah yang lebih canggih.
AI agentik telah mendapatkan perhatian yang signifikan selama setahun terakhir, dengan pembangun model, pengembang perangkat lunak, dan vendor perangkat keras menjanjikan sistem yang dapat menyelesaikan proses multi-langkah secara asinkron. Contoh awal termasuk Operator OpenAI dan API penggunaan komputer Anthropic. Sistem AI agentik ini merupakan kemajuan signifikan dalam kemampuan AI.
“Tahun lalu, kami terutama berfokus pada tugas-tugas sederhana seperti peringkasan dokumen atau bantuan menulis,” katanya. “Sekarang, ini menjadi lebih menarik dengan hal-hal yang, pada pandangan pertama, bahkan tidak tampak seperti masalah genAI, di mana pengalaman pengguna bukanlah chatbot.” Pergeseran ke arah aplikasi AI yang lebih kompleks dan terintegrasi ini menghadirkan tantangan dan peluang baru bagi industri.
Tantangan Utama dalam Membangun Aplikasi AI Perusahaan:
- Menjembatani kesenjangan antara pelatihan model dan integrasi aplikasi: Menerjemahkan kemampuan LLM ke dalam aplikasi praktis secara efektif tetap menjadi rintangan yang signifikan.
- Mengatasi keterbatasan fine-tuning: Fine-tuning saja seringkali tidak cukup untuk mengajarkan model AI informasi baru atau mengadaptasinya ke tugas-tugas tertentu.
- Memastikan kualitas dan aksesibilitas data: RAG bergantung pada data yang terdokumentasi dengan baik dan mudah diakses, yang seringkali kurang di banyak organisasi.
- Menangani data di luar distribusi: Model AI harus dapat menangani data yang berbeda dari data yang mereka latih, yang membutuhkan teknik khusus.
- Mengatasi kendala perangkat keras: Perusahaan dan negara yang berbeda memiliki persyaratan perangkat keras yang bervariasi yang harus dipertimbangkan.
- Menjaga privasi dan keamanan data: AI Berdaulat membutuhkan kepastian bahwa data diproses dan disimpan dengan aman di dalam perbatasan suatu negara.
- Mengembangkan sistem AI agentik: Membangun aplikasi AI yang dapat melakukan proses multi-langkah yang kompleks secara asinkron adalah bidang penelitian yang menantang namun menjanjikan.
Peluang Utama dalam Membangun Aplikasi AI Perusahaan:
- Mengembangkan solusi AI yang inovatif: Tantangan dalam membangun aplikasi AI perusahaan menciptakan peluang untuk mengembangkan solusi inovatif yang memenuhi kebutuhan spesifik.
- Memanfaatkan teknologi sumber terbuka: Teknologi sumber terbuka dapat membantu mengurangi biaya dan mempercepat pengembangan aplikasi AI.
- Berkolaborasi dengan mitra perangkat keras: Berkolaborasi dengan mitra perangkat keras dapat membantu memastikan bahwa aplikasi AI dioptimalkan untuk platform perangkat keras tertentu.
- Membangun kemampuan AI berdaulat: AI berdaulat dapat memberikan negara dan organisasi kontrol yang lebih besar atas data dan infrastruktur AI mereka.
- Mentransformasi industri dengan AI: AI memiliki potensi untuk mentransformasi industri dengan mengotomatiskan tugas, meningkatkan pengambilan keputusan, dan menciptakan produk dan layanan baru.
Masa Depan Aplikasi AI Perusahaan:
Masa depan aplikasi AI perusahaan kemungkinan akan ditandai oleh:
- Peningkatan kompleksitas: Aplikasi AI akan menjadi lebih kompleks dan terintegrasi, membutuhkan keahlian dan alat khusus.
- Fokus yang lebih besar pada kualitas data: Kualitas data akan menjadi semakin penting karena aplikasi AI bergantung pada data yang akurat dan andal.
- Penekanan yang lebih besar pada keamanan dan privasi: Keamanan dan privasi akan menjadi yang terpenting karena aplikasi AI menangani data sensitif.
- Adopsi AI agentik yang lebih luas: Sistem AI agentik akan menjadi lebih umum karena organisasi berusaha untuk mengotomatiskan tugas-tugas yang kompleks.
- Inovasi berkelanjutan: Bidang AI akan terus berkembang pesat, mengarah pada terobosan dan peluang baru.
Dengan mengatasi tantangan dan merangkul peluang, organisasi dapat memanfaatkan kekuatan AI untuk mentransformasi bisnis mereka dan menciptakan masa depan yang lebih baik.