Meta Llama 4: Penerokaan Mendalam

Meta Llama, pada asalnya dikenali sebagai LLaMA (Large Language Model Meta AI), muncul di persada pada Februari 2023, menandakan percubaan Meta ke dalam dunia model bahasa yang besar (LLM) yang kompetitif. Pelancaran Llama 2 pada Julai 2023 merupakan satu perubahan besar, kerana Meta menerima pakai lesen permisif terbuka, mendemokrasikan akses dan memupuk penerimaan meluas. Melalui penambahbaikan berterusan dan berbilang lelaran, Llama telah meningkatkan keupayaannya secara berterusan, mengukuhkan kedudukannya di kalangan gergasi industri seperti OpenAI, Anthropic, dan Google.

Keluarga Llama berkembang lagi pada 5 April 2025, dengan pengenalan keluarga model Llama 4, juga dikenali sebagai kumpulan Llama 4, menandakan era baharu LLM multimodal.

Apa itu Meta Llama 4?

Meta Llama 4 mewakili lonjakan ketara dalam teknologi LLM, yang mempunyai keupayaan multimodal yang membolehkannya memproses dan mentafsir data teks, imej dan video. Model generasi keempat ini melangkaui halangan bahasa dengan menyokong pelbagai bahasa dari seluruh dunia.

Inovasi utama dalam model Llama 4 ialah penggunaan seni bina campuran pakar, yang pertama untuk keluarga Llama. Seni bina ini secara dinamik mengaktifkan hanya subset daripada jumlah parameter untuk setiap token input, mencapai keseimbangan harmoni antara kuasa dan kecekapan.

Walaupun lesen komuniti Llama 4 tidak diiktiraf secara rasmi sebagai lesen yang diluluskan oleh Open Source Initiative, Meta menyifatkan model Llama 4nya sebagai sumber terbuka. Lesen itu memberikan hak penggunaan dan pengubahsuaian percuma kepada model Llama 4, tertakluk kepada batasan tertentu. Sehingga April 2025, had itu dihadkan pada 700 juta pengguna bulanan, yang mana lesen komersial diperlukan.

Barisan Llama 4 terdiri daripada tiga versi utama: Scout, Maverick, dan Behemoth. Scout dan Maverick dilancarkan serentak, manakala Behemoth masih dalam pembangunan. Model ini berbeza dengan ketara dalam spesifikasi mereka:

  • Llama 4 Scout: Mempunyai 17 bilion parameter aktif, 16 pakar, 109 bilion jumlah parameter, tetingkap konteks 10 juta token, dan cutoff pengetahuan Ogos 2024.
  • Llama 4 Maverick: Juga mempunyai 17 bilion parameter aktif, tetapi mempunyai 128 pakar, 400 bilion jumlah parameter, tetingkap konteks 1 juta token, dan cutoff pengetahuan yang sama seperti Scout.
  • Llama 4 Behemoth: Yang paling berkuasa daripada ketiga-tiganya, dengan 288 bilion parameter aktif, 16 pakar, 2 trilion jumlah parameter, dan tetingkap konteks dan cutoff pengetahuan yang tidak ditentukan.

Keupayaan Meta Llama 4

Model Meta Llama 4 membuka spektrum aplikasi yang pelbagai, termasuk:

  • Multimodaliti Asli: Keupayaan untuk memahami serentak teks, imej dan video. Ini membolehkan model memperoleh konteks dan makna daripada pelbagai sumber maklumat.
  • Peringkasan Kandungan: Model Llama 4 boleh memekatkan maklumat dengan cekap daripada pelbagai jenis kandungan, aspek penting dalam pemahaman multimodal. Sebagai contoh, model itu boleh menganalisis video, mengekstrak adegan utama dan menjana ringkasan kandungan yang padat.
  • Pemprosesan Konteks Panjang: Llama 4 Scout direka khusus untuk memproses sejumlah besar maklumat, yang difasilitasi oleh tetingkap konteks 10 juta token yang luas. Keupayaan ini sangat berharga untuk tugas seperti menganalisis kertas penyelidikan yang meluas atau memproses dokumen yang panjang.
  • Modaliti Berbilang Bahasa: Semua model Llama 4 mempamerkan kecekapan berbilang bahasa, menyokong pelbagai bahasa untuk pemprosesan teks: Arab, Inggeris, Perancis, Jerman, Hindi, Indonesia, Itali, Portugis, Sepanyol, Tagalog, Thai dan Vietnam. Walau bagaimanapun, pemahaman imej pada masa ini terhad kepada bahasa Inggeris.
  • Penjanaan Teks: Model Llama 4 cemerlang dalam menjana teks yang koheren dan relevan secara kontekstual, termasuk usaha penulisan kreatif. Model ini boleh menyesuaikan diri dengan pelbagai gaya penulisan dan menjana teks berkualiti manusia.
  • Penaakulan Lanjutan: Model ini mempunyai kapasiti untuk menaakul melalui masalah saintifik dan matematik yang rumit. Mereka boleh mentafsir logik yang kompleks dan mencapai kesimpulan yang tepat.
  • Penjanaan Kod: Llama 4 mampu memahami dan menjana kod aplikasi, membantu pembangun dalam menyelaraskan aliran kerja mereka. Model ini boleh menjana coretan kod, fungsi lengkap, dan juga membangunkan keseluruhan aplikasi.
  • Fungsi Model Asas: Sebagai model terbuka, Llama 4 berfungsi sebagai elemen asas untuk pembangunan model derivatif. Penyelidik dan pembangun boleh memperhalusi Llama 4 untuk tugas tertentu, memanfaatkan keupayaan sedia ada untuk membina aplikasi khusus.

Metodologi Latihan Meta Llama 4

Meta menggunakan satu set teknik canggih untuk melatih LLM keluarga Llama generasi keempatnya, yang bertujuan untuk meningkatkan ketepatan dan prestasi berbanding versi sebelumnya. Teknik ini termasuk:

  • Data Latihan: Asas mana-mana LLM ialah data latihannya, dan Meta menyedari bahawa lebih banyak data diterjemahkan kepada prestasi yang lebih baik. Untuk tujuan ini, Llama 4 dilatih pada lebih 30 trilion token, menggandakan jumlah data yang digunakan untuk melatih Llama 3.
  • Multimodaliti Gabungan Awal: Siri Llama 4 menerima pakai pendekatan “gabungan awal”, yang menyepadukan token teks dan penglihatan ke dalam model bersatu. Pendekatan ini, menurut Meta, memupuk pemahaman yang lebih semula jadi antara maklumat visual dan tekstual, menghapuskan keperluan untuk pengekod dan penyahkod yang berasingan.
  • Pengoptimuman Hiperparameter: Teknik ini melibatkan penalaan halus hiperparameter model kritikal, seperti kadar pembelajaran setiap lapisan, untuk mencapai hasil latihan yang lebih boleh dipercayai dan konsisten. Dengan mengoptimumkan parameter ini, Meta dapat meningkatkan kestabilan dan prestasi keseluruhan Llama 4.
  • Seni Bina iRoPE: Seni bina lapisan perhatian berselang-seli tanpa pembenaman kedudukan, atau seni bina iRoPE, meningkatkan pengendalian jujukan panjang semasa latihan dan memudahkan tetingkap konteks 10 juta token dalam Llama 4 Scout. Seni bina ini membolehkan model mengekalkan maklumat daripada bahagian yang jauh dari jujukan input, membolehkannya memproses dokumen yang lebih panjang dan lebih kompleks.
  • Pengekod Penglihatan MetaCLIP: Pengekod penglihatan Meta baharu menterjemahkan imej ke dalam perwakilan token, yang membawa kepada pemahaman multimodal yang lebih baik. Pengekod ini membolehkan Llama 4 memproses dan mentafsir maklumat visual dengan berkesan.
  • Latihan Keselamatan GOAT: Meta melaksanakan Penguji Agen Ofensif Generatif (GOAT) sepanjang latihan untuk mengenal pasti kelemahan LLM dan meningkatkan keselamatan model. Teknik ini membantu mengurangkan risiko model menjana kandungan yang berbahaya atau berat sebelah.

Evolusi Model Llama

Berikutan pelancaran ChatGPT yang inovatif pada November 2022, syarikat di seluruh industri berlumba-lumba untuk menapak di pasaran LLM. Meta adalah antara yang pertama bertindak balas, memperkenalkan model Llama awalnya pada awal 2023, walaupun dengan akses terhad. Bermula dengan keluaran Llama 2 pada pertengahan 2023, semua model berikutnya telah disediakan di bawah lesen terbuka.

  • Llama 1: Model Llama asal, dilancarkan pada Februari 2023 dengan akses terhad.
  • Llama 2: Dikeluarkan pada Julai 2023 sebagai model Llama pertama dengan lesen terbuka, Llama 2 menawarkan akses dan penggunaan percuma. Lelaran ini termasuk versi parameter 7B, 13B dan 70B, yang memenuhi keperluan pengiraan yang pelbagai.
  • Llama 3: Model Llama 3 memulakan kerjaya pada April 2024, pada mulanya dengan versi parameter 8B dan 70B.
  • Llama 3.1: Dilancarkan pada Julai 2024, Llama 3.1 menambah model parameter 405B, menolak batasan keupayaan LLM.
  • Llama 3.2: Model ini, LLM multimodal pertama Meta sepenuhnya, telah dikeluarkan pada Oktober 2024, menandakan pencapaian penting dalam evolusi keluarga Llama.
  • Llama 3.3: Meta mendakwa pada keluaran Disember 2024 bahawa varian 70B Llama 3.3 memberikan prestasi yang sama seperti varian 405B 3.1, sambil memerlukan lebih sedikit sumber pengiraan, mempamerkan usaha pengoptimuman berterusan.

Llama 4 Berbanding Model Lain

Landskap AI generatif menjadi semakin kompetitif, menampilkan pemain terkemuka seperti GPT-4o OpenAI, Google Gemini 2.0 dan pelbagai projek sumber terbuka termasuk DeepSeek.

Prestasi Llama 4 boleh dinilai menggunakan beberapa penanda aras, termasuk:

  • MMMU (Pemahaman Multimodal Berbilang Disiplin Besar-besaran): Menilai keupayaan penaakulan imej.
  • LiveCodeBench: Menilai kecekapan pengekodan.
  • GPQA Diamond (Soal Jawab Diamond Kalis Google Tahap Siswazah): Mengukur penaakulan dan pengetahuan.

Skor yang lebih tinggi pada penanda aras ini menunjukkan prestasi yang lebih baik.

Llama 4 Maverick Gemini 2.0 Flash GPT-4o
Penaakulan imej MMMU 73.4 71.7 69.1
LiveCodeBench 43.4 34.05 32.3
GPQA Diamond 69.8 60.1 53.6

Penanda aras ini menyerlahkan kekuatan Llama 4 Maverick dalam penaakulan imej, pengekodan dan pengetahuan am, meletakkannya sebagai pesaing yang kuat dalam arena LLM.

Mengakses Llama 4

Meta Llama 4 Maverick dan Scout tersedia dengan mudah melalui pelbagai saluran:

  • Llama.com: Muat turun Scout dan Maverick terus daripada laman web llama.com yang dikendalikan oleh Meta secara percuma.
  • Meta.ai: Antara muka web Meta.ai menyediakan akses berasaskan penyemak imbas kepada Llama 4, membolehkan pengguna berinteraksi dengan model tanpa memerlukan sebarang pemasangan tempatan.
  • Hugging Face: Llama 4 juga boleh diakses di https://huggingface.co/meta-llama, platform popular untuk berkongsi dan menemui model pembelajaran mesin.
  • Aplikasi Meta AI: Llama 4 menjana pembantu maya AI Meta, boleh diakses melalui suara atau teks merentasi pelbagai platform. Pengguna boleh memanfaatkan pembantu untuk melaksanakan tugas seperti meringkaskan teks, menjana kandungan dan menjawab soalan.