Meta Llama, yang awalnya dikenal sebagai LLaMA (Large Language Model Meta AI), muncul ke permukaan pada Februari 2023, menandai masuknya Meta ke dunia kompetitif model bahasa besar (LLM). Rilis Llama 2 pada Juli 2023 adalah sebuah pengubah permainan, karena Meta mengadopsi lisensi permisif terbuka, mendemokratisasi akses dan mendorong adopsi luas. Melalui penyempurnaan berkelanjutan dan beberapa iterasi, Llama telah terus meningkatkan kemampuannya, memperkuat posisinya di antara raksasa industri seperti OpenAI, Anthropic, dan Google.
Keluarga Llama berkembang lebih jauh pada tanggal 5 April 2025, dengan diperkenalkannya keluarga model Llama 4, juga dikenal sebagai kawanan Llama 4, mengumumkan era baru LLM multimodal.
Apa itu Meta Llama 4?
Meta Llama 4 mewakili lompatan signifikan dalam teknologi LLM, menawarkan kemampuan multimodal yang memungkinkannya untuk memproses dan menafsirkan data teks, gambar, dan video. Model generasi keempat ini melampaui batasan bahasa dengan mendukung berbagai bahasa dari seluruh dunia.
Inovasi utama dalam model Llama 4 adalah adopsi arsitektur mixture-of-experts, yang pertama untuk keluarga Llama. Arsitektur ini secara dinamis mengaktifkan hanya subset dari total parameter untuk setiap token masukan, mencapai keseimbangan harmonis antara daya dan efisiensi.
Meskipun lisensi komunitas Llama 4 tidak secara resmi diakui sebagai lisensi yang disetujui Open Source Initiative, Meta mengkarakterisasi model Llama 4-nya sebagai sumber terbuka. Lisensi tersebut memberikan hak penggunaan dan modifikasi gratis untuk model Llama 4, tunduk pada batasan tertentu. Pada April 2025, batasnya dibatasi pada 700 juta pengguna bulanan, di atas itu diperlukan lisensi komersial.
Jajaran Llama 4 terdiri dari tiga versi utama: Scout, Maverick, dan Behemoth. Scout dan Maverick diluncurkan secara bersamaan, sementara Behemoth masih dalam pengembangan. Model-model ini berbeda secara signifikan dalam spesifikasi mereka:
- Llama 4 Scout: Menampilkan 17 miliar parameter aktif, 16 ahli, 109 miliar total parameter, jendela konteks 10 juta token, dan batas pengetahuan Agustus 2024.
- Llama 4 Maverick: Juga menampilkan 17 miliar parameter aktif, tetapi menawarkan 128 ahli, 400 miliar total parameter, jendela konteks 1 juta token, dan batas pengetahuan yang sama dengan Scout.
- Llama 4 Behemoth: Yang paling kuat dari ketiganya, dengan 288 miliar parameter aktif, 16 ahli, 2 triliun total parameter, dan jendela konteks dan batas pengetahuan yang tidak ditentukan.
Kemampuan Meta Llama 4
Model Meta Llama 4 membuka spektrum aplikasi yang beragam, termasuk:
- Multimodalitas Asli: Kemampuan untuk secara bersamaan memahami teks, gambar, dan video. Hal ini memungkinkan model untuk memperoleh konteks dan makna dari berbagai sumber informasi.
- Ringkasan Konten: Model Llama 4 dapat secara efisien meringkas informasi dari berbagai jenis konten, aspek penting dari pemahaman multimodal. Misalnya, model dapat menganalisis video, mengekstrak adegan kunci, dan menghasilkan ringkasan singkat dari konten.
- Pemrosesan Konteks Panjang: Llama 4 Scout secara khusus direkayasa untuk memproses volume informasi yang substansial, difasilitasi oleh jendela konteks 10 juta token yang luas. Kemampuan ini sangat berharga untuk tugas-tugas seperti menganalisis makalah penelitian yang ekstensif atau memproses dokumen yang panjang.
- Modalitas Multibahasa: Semua model Llama 4 menunjukkan kemahiran multibahasa, mendukung berbagai bahasa untuk pemrosesan teks: Arab, Inggris, Prancis, Jerman, Hindi, Indonesia, Italia, Portugis, Spanyol, Tagalog, Thailand, dan Vietnam. Namun, pemahaman gambar saat ini terbatas pada bahasa Inggris.
- Pembuatan Teks: Model Llama 4 unggul dalam menghasilkan teks yang koheren dan relevan secara kontekstual, termasuk upaya penulisan kreatif. Model dapat beradaptasi dengan berbagai gaya penulisan dan menghasilkan teks berkualitas manusia.
- Penalaran Tingkat Lanjut: Model-model ini memiliki kapasitas untuk bernalar melalui masalah ilmiah dan matematika yang rumit. Mereka dapat menguraikan logika yang kompleks dan mencapai kesimpulan yang akurat.
- Pembuatan Kode: Llama 4 mampu memahami dan menghasilkan kode aplikasi, membantu pengembang dalam merampingkan alur kerja mereka. Model dapat menghasilkan potongan kode, menyelesaikan fungsi, dan bahkan mengembangkan seluruh aplikasi.
- Fungsi Model Dasar: Sebagai model terbuka, Llama 4 berfungsi sebagai elemen dasar untuk pengembangan model turunan. Peneliti dan pengembang dapat menyempurnakan Llama 4 untuk tugas-tugas tertentu, memanfaatkan kemampuan yang ada untuk membangun aplikasi khusus.
Metodologi Pelatihan Meta Llama 4
Meta menggunakan serangkaian teknik canggih untuk melatih LLM keluarga Llama generasi keempatnya, yang bertujuan untuk meningkatkan akurasi dan kinerja dibandingkan dengan versi sebelumnya. Teknik-teknik ini meliputi:
- Data Pelatihan: Landasan dari setiap LLM adalah data pelatihannya, dan Meta mengakui bahwa lebih banyak data berarti kinerja yang lebih baik. Untuk tujuan ini, Llama 4 dilatih pada lebih dari 30 triliun token, dua kali lipat jumlah data yang digunakan untuk melatih Llama 3.
- Multimodalitas Fusi Awal: Seri Llama 4 mengadopsi pendekatan “fusi awal”, yang mengintegrasikan token teks dan visi ke dalam model terpadu. Pendekatan ini, menurut Meta, menumbuhkan pemahaman yang lebih alami antara informasi visual dan tekstual, menghilangkan kebutuhan akan encoder dan decoder terpisah.
- Optimasi Hyperparameter: Teknik ini melibatkan penyempurnaan hyperparameter model yang penting, seperti tingkat pembelajaran per lapisan, untuk mencapai hasil pelatihan yang lebih andal dan konsisten. Dengan mengoptimalkan parameter-parameter ini, Meta dapat meningkatkan stabilitas dan kinerja keseluruhan Llama 4.
- Arsitektur iRoPE: Arsitektur lapisan perhatian yang diselingi tanpa penyematan posisi, atau arsitektur iRoPE, meningkatkan penanganan urutan panjang selama pelatihan dan memfasilitasi jendela konteks 10 juta token di Llama 4 Scout. Arsitektur ini memungkinkan model untuk mempertahankan informasi dari bagian-bagian urutan masukan yang jauh, memungkinkannya untuk memproses dokumen yang lebih panjang dan lebih kompleks.
- MetaCLIP Vision Encoder: Encoder visi Meta yang baru menerjemahkan gambar ke dalam representasi token, yang mengarah pada peningkatan pemahaman multimodal. Encoder ini memungkinkan Llama 4 untuk secara efektif memproses dan menafsirkan informasi visual.
- Pelatihan Keamanan GOAT: Meta menerapkan Generative Offensive Agent Tester (GOAT) selama pelatihan untuk mengidentifikasi kerentanan LLM dan meningkatkan keamanan model. Teknik ini membantu mengurangi risiko model menghasilkan konten yang berbahaya atau bias.
Evolusi Model Llama
Menyusul peluncuran terobosan ChatGPT pada November 2022, perusahaan-perusahaan di seluruh industri berlomba untuk membangun pijakan di pasar LLM. Meta adalah salah satu responden awal, memperkenalkan model Llama awalnya pada awal 2023, meskipun dengan akses terbatas. Dimulai dengan rilis Llama 2 pada pertengahan 2023, semua model berikutnya telah tersedia di bawah lisensi terbuka.
- Llama 1: Model Llama asli, diluncurkan pada Februari 2023 dengan akses terbatas.
- Llama 2: Dirilis pada Juli 2023 sebagai model Llama pertama dengan lisensi terbuka, Llama 2 menawarkan akses dan penggunaan gratis. Iterasi ini mencakup versi parameter 7B, 13B, dan 70B, yang melayani beragam kebutuhan komputasi.
- Llama 3: Model Llama 3 memulai debutnya pada April 2024, awalnya dengan versi parameter 8B dan 70B.
- Llama 3.1: Diluncurkan pada Juli 2024, Llama 3.1 menambahkan model parameter 405B, mendorong batas kemampuan LLM.
- Llama 3.2: Model ini, LLM multimodal penuh pertama Meta, dirilis pada Oktober 2024, menandai tonggak penting dalam evolusi keluarga Llama.
- Llama 3.3: Meta mengklaim pada rilis Desember 2024-nya bahwa varian 70B Llama 3.3 memberikan kinerja yang sama dengan varian 405B 3.1, sambil membutuhkan lebih sedikit sumber daya komputasi, yang menunjukkan upaya optimasi berkelanjutan.
Llama 4 Dibandingkan dengan Model Lain
Lanskap AI generatif menjadi semakin kompetitif, menampilkan pemain terkemuka seperti GPT-4o OpenAI, Google Gemini 2.0, dan berbagai proyek sumber terbuka termasuk DeepSeek.
Kinerja Llama 4 dapat dinilai menggunakan beberapa tolok ukur, termasuk:
- MMMU (Massive Multi-discipline Multimodal Understanding): Mengevaluasi kemampuan penalaran gambar.
- LiveCodeBench: Menilai kemahiran pengkodean.
- GPQA Diamond (Graduate-Level Google-Proof Q&A Diamond): Mengukur penalaran dan pengetahuan.
Skor yang lebih tinggi pada tolok ukur ini menunjukkan kinerja yang lebih baik.
Llama 4 Maverick | Gemini 2.0 Flash | GPT-4o | |
---|---|---|---|
Penalaran gambar MMMU | 73.4 | 71.7 | 69.1 |
LiveCodeBench | 43.4 | 34.05 | 32.3 |
GPQA Diamond | 69.8 | 60.1 | 53.6 |
Tolok ukur ini menyoroti kekuatan Llama 4 Maverick dalam penalaran gambar, pengkodean, dan pengetahuan umum, memposisikannya sebagai pesaing kuat di arena LLM.
Mengakses Llama 4
Meta Llama 4 Maverick dan Scout tersedia dengan mudah melalui berbagai saluran:
- Llama.com: Unduh Scout dan Maverick langsung dari situs web llama.com yang dioperasikan Meta secara gratis.
- Meta.ai: Antarmuka web Meta.ai menyediakan akses berbasis browser ke Llama 4, memungkinkan pengguna untuk berinteraksi dengan model tanpa memerlukan instalasi lokal apa pun.
- Hugging Face: Llama 4 juga dapat diakses di https://huggingface.co/meta-llama, platform populer untuk berbagi dan menemukan model pembelajaran mesin.
- Meta AI App: Llama 4 mendukung asisten virtual AI Meta, dapat diakses melalui suara atau teks di berbagai platform. Pengguna dapat memanfaatkan asisten untuk melakukan tugas-tugas seperti meringkas teks, menghasilkan konten, dan menjawab pertanyaan.