Lintasan model bahasa besar (LLM) Llama Meta telah menjadi subjek pengawasan dan perdebatan yang intens di dalam komunitas kecerdasan buatan. Kira-kira setahun memisahkan rilis Llama 3 dan Llama 4, sebuah keabadian dalam lanskap AI yang berkembang pesat. Sementara pada awalnya dipuji sebagai alternatif open-source yang inovatif untuk model milik seperti penawaran OpenAI, perkembangan baru-baru ini menunjukkan perubahan persepsi, dengan beberapa orang mempertanyakan relevansi Llama yang berkelanjutan di garis depan inovasi AI.
Kekecewaan di LlamaCon dan Pergeseran Ekspektasi
Di LlamaCon, konferensi perdana Meta yang didedikasikan untuk LLM open-source-nya, suasana ekspektasi yang tidak terpenuhi menyelimuti atmosfer. Beberapa pengembang yang hadir mengakui bahwa mereka telah mengantisipasi peluncuran model penalaran canggih, atau setidaknya model tradisional yang mampu mengungguli pesaing seperti V3 DeepSeek dan Qwen, yang terakhir menjadi rangkaian model yang dikembangkan oleh divisi komputasi awan Alibaba.
Tidak adanya pengumuman semacam itu memicu kekhawatiran bahwa Llama kehilangan pijakan dalam perlombaan untuk supremasi AI. Hanya sebulan sebelum konferensi, Meta telah meluncurkan generasi keempat dari keluarga Llama-nya, termasuk model open-weight Llama 4 Scout dan Llama 4 Maverick. Scout direkayasa untuk kinerja yang efisien pada GPU tunggal, sementara Maverick dirancang sebagai model yang lebih besar untuk menyaingi model fondasi lainnya.
Selain Scout dan Maverick, Meta memberikan cuplikan pada Llama 4 Behemoth, sebuah "model guru" yang jauh lebih besar yang masih menjalani pelatihan. Tujuan Behemoth adalah untuk memfasilitasi distilasi, teknik untuk menciptakan model yang lebih kecil dan terspesialisasi dari model yang lebih besar dan lebih umum.
Namun, laporan muncul yang mengindikasikan penundaan dalam rilis Behemoth dan tantangan dalam mencapai kinerja kompetitif dengan rangkaian Llama 4. Terlepas dari klaim Meta tentang kemampuan state-of-the-art, persepsi di antara beberapa pengembang adalah bahwa Llama tidak lagi memimpin.
Munculnya Pesaing: Qwen dan DeepSeek
Kekecewaan seputar LlamaCon dan model Llama 4 mencerminkan sentimen yang lebih luas bahwa LLM open-source Meta kehilangan momentum dalam hal kinerja teknis dan antusiasme pengembang. Sementara Meta menekankan komitmennya pada prinsip-prinsip open-source, pembangunan ekosistem, dan inovasi, pesaing seperti DeepSeek, Qwen, dan OpenAI dengan cepat maju di bidang-bidang penting seperti penalaran, penggunaan alat, dan penerapan di dunia nyata.
Seorang pengembang, Vineeth Sai Varikuntla, menyatakan kekecewaannya, menyatakan bahwa dia berharap Llama akan melampaui Qwen dan DeepSeek dalam kasus penggunaan umum dan penalaran, tetapi menemukan Qwen secara signifikan lebih unggul.
Sentimen ini menggarisbawahi tantangan yang dihadapi Meta dalam mempertahankan posisi Llama sebagai LLM open-source terkemuka. Sementara rilis awal Llama mendapat perhatian dan pujian yang signifikan, munculnya alternatif yang semakin mampu telah memperintensif lanskap kompetitif.
Awal yang Menjanjikan: Dampak Llama 2
Untuk sepenuhnya menghargai narasi saat ini seputar Llama, penting untuk mengingat asal-usulnya dan kegembiraan awal yang dihasilkannya. Pada tahun 2023, CEO Nvidia Jensen Huang memuji peluncuran Llama 2 sebagai "mungkin peristiwa terbesar dalam AI" tahun itu. Pada Juli 2024, rilis Llama 3 dianggap sebagai terobosan, yang mewakili LLM terbuka pertama yang mampu menantang dominasi OpenAI.
Kedatangan Llama 3 memicu lonjakan permintaan daya komputasi segera, yang menyebabkan peningkatan harga sewa GPU, menurut Dylan Patel, kepala analis di SemiAnalysis. Pencarian Google untuk "Meta" dan "Llama" juga mencapai puncaknya selama periode ini, yang menunjukkan minat luas pada model baru.
Llama 3 dirayakan sebagai LLM buatan Amerika, terbuka, dan tingkat atas. Sementara itu tidak secara konsisten menduduki puncak tolok ukur industri, itu memberikan pengaruh dan relevansi yang cukup besar di dalam komunitas AI. Namun, dinamika ini secara bertahap telah bergeser.
Pergeseran Arsitektur dan Kritik
Model Llama 4 memperkenalkan arsitektur "mixture of experts", desain yang dipopulerkan oleh DeepSeek. Arsitektur ini memungkinkan model untuk hanya mengaktifkan keahlian yang paling relevan untuk tugas tertentu, sehingga meningkatkan efisiensi.
Namun, rilis Llama 4 disambut dengan kritik ketika pengembang menemukan bahwa versi yang digunakan untuk tolok ukur publik berbeda dari versi yang tersedia untuk diunduh dan diterapkan. Perbedaan ini menyebabkan tuduhan "memanipulasi papan peringkat", yang dibantah oleh Meta, yang menyatakan bahwa varian yang dipermasalahkan bersifat eksperimental dan bahwa mengevaluasi beberapa versi model adalah praktik standar.
Terlepas dari penjelasan Meta, kontroversi tersebut berkontribusi pada persepsi bahwa Llama berjuang untuk mempertahankan keunggulan kompetitifnya. Karena model pesaing terus maju, Meta tampaknya tidak memiliki arah yang jelas.
Mengukur Adopsi Pengembang: Tugas yang Kompleks
Menentukan keluarga LLM mana yang paling populer di kalangan pengembang adalah tugas yang menantang. Namun, data yang tersedia menunjukkan bahwa model terbaru Llama tidak termasuk di antara para pemimpin.
Qwen, khususnya, secara konsisten menempati peringkat tinggi di berbagai papan peringkat di seluruh internet. Menurut Artificial Analysis, sebuah situs yang memberi peringkat model berdasarkan kinerja, Llama 4 Maverick dan Scout diposisikan tepat di atas model GPT-4 OpenAI (dirilis pada akhir tahun sebelumnya) dan di bawah Grok xAI dan Claude Anthropic dalam hal kecerdasan.
OpenRouter, sebuah platform yang memberi pengembang akses ke berbagai model dan menerbitkan papan peringkat berdasarkan penggunaan API, menunjukkan Llama 3.3 di antara 20 model teratas pada awal Mei, tetapi bukan Llama 4.
Poin data ini, meskipun tidak definitif, menunjukkan bahwa iterasi terbaru Llama tidak beresonansi sekuat pendahulunya dengan pengembang.
Di luar Tolok Ukur: Penggunaan Alat dan Penalaran
Sementara evaluasi standar Llama 4 mungkin kurang memuaskan, para ahli berpendapat bahwa antusiasme yang diredam berasal dari faktor-faktor di luar metrik kinerja mentah.
AJ Kourabi, seorang analis di SemiAnalysis, menekankan pentingnya "tool calling" dan kemampuan model untuk melampaui fungsionalitas chatbot sederhana. Tool calling mengacu pada kapasitas model untuk mengakses dan menginstruksikan aplikasi lain di internet atau di perangkat pengguna, fitur penting untuk AI agentic, yang menjanjikan untuk mengotomatiskan tugas-tugas seperti memesan perjalanan dan mengelola pengeluaran.
Meta telah menyatakan bahwa model Llama mendukung tool calling melalui API-nya. Namun, Theo Browne, seorang pengembang dan YouTuber, berpendapat bahwa tool calling telah menjadi kebutuhan untuk relevansi mutakhir karena alat agentic semakin menonjol.
Anthropic telah muncul sebagai pemimpin awal dalam penggunaan alat, dan model milik seperti OpenAI dengan cepat menyusul. Kemampuan untuk dengan andal memanggil alat yang tepat untuk menghasilkan respons yang tepat sangat berharga, dan OpenAI telah mengalihkan fokusnya untuk memprioritaskan kemampuan ini.
Kourabi berpendapat bahwa tidak adanya model penalaran yang kuat merupakan indikator signifikan bahwa Meta telah tertinggal. Penalaran dianggap sebagai elemen mendasar dalam persamaan AI agentic, yang memungkinkan model untuk menganalisis tugas dan menentukan tindakan yang tepat.
Niche Llama: Aplikasi Praktis dan Adopsi Perusahaan
Terlepas dari kekhawatiran tentang posisinya di garis depan penelitian AI, Llama tetap menjadi alat yang berharga bagi banyak pengembang dan organisasi.
Nate Jones, kepala produk di RockerBox, menyarankan pengembang untuk memasukkan Llama ke dalam resume mereka, karena keakraban dengan model kemungkinan akan dicari di masa depan.
Paul Baier, CEO dan analis utama di GAI Insights, percaya bahwa Llama akan terus menjadi komponen kunci dari strategi AI bagi banyak perusahaan, khususnya yang berada di luar industri teknologi.
Perusahaan mengakui pentingnya model open-source, dengan Llama menjadi contoh yang menonjol, untuk menangani tugas-tugas yang kurang kompleks dan mengendalikan biaya. Banyak organisasi lebih menyukai kombinasi model tertutup dan terbuka untuk memenuhi beragam kebutuhan mereka.
Baris Gultekin, kepala AI di Snowflake, mencatat bahwa pelanggan sering mengevaluasi model berdasarkan kasus penggunaan khusus mereka daripada hanya bergantung pada tolok ukur. Mengingat biayanya yang rendah, Llama seringkali terbukti cukup untuk banyak aplikasi.
Di Snowflake, Llama digunakan untuk tugas-tugas seperti meringkas transkrip panggilan penjualan dan mengekstrak informasi terstruktur dari ulasan pelanggan. Di Dremio, Llama menghasilkan kode SQL dan menulis email pemasaran.
Tomer Shiran, salah satu pendiri dan kepala petugas produk Dremio, menyarankan bahwa model tertentu mungkin tidak penting untuk 80% aplikasi, karena sebagian besar model sekarang "cukup baik" untuk memenuhi kebutuhan dasar.
Lanskap yang Mendiversifikasi: Peran Llama yang Memantapkan
Sementara Llama mungkin beralih dari persaingan langsung dengan model milik di bidang-bidang tertentu, lanskap AI secara keseluruhan menjadi lebih terdiversifikasi, dan peran Llama semakin memantapkan diri di dalam ceruk khusus.
Shiran menekankan bahwa tolok ukur bukanlah pendorong utama pilihan model, karena pengguna memprioritaskan pengujian model pada kasus penggunaan mereka sendiri. Kinerja model pada data pelanggan sangat penting, dan kinerja ini dapat bervariasi dari waktu ke waktu.
Gultekin menambahkan bahwa pemilihan model seringkali merupakan keputusan khusus kasus penggunaan daripada peristiwa satu kali.
Llama mungkin kehilangan pengembang yang terus-menerus mencari kemajuan terbaru, tetapi ia mempertahankan dukungan dari banyak pengembang yang berfokus pada pembangunan alat bertenaga AI praktis.
Dinamika ini selaras dengan strategi open-source Meta yang lebih luas, yang dicontohkan oleh peluncuran React pada tahun 2013 dan pembuatan PyTorch pada tahun 2016. Dengan membina ekosistem yang sukses, Meta mendapat manfaat dari kontribusi komunitas open-source.
Seperti yang diamati Nate Jones, Zuckerberg memperoleh significant tailwinds dari inisiatif open-source Meta.