Baidu, kekuatan dominan dalam lanskap teknologi Tiongkok, telah meluncurkan dua pembaruan signifikan untuk model fondasi ERNIE (Enhanced Representation through Knowledge Integration). Iterasi baru ini, ERNIE X1 dan ERNIE 4.5, mewakili respons strategis Baidu terhadap lanskap AI global yang semakin kompetitif, khususnya kemajuan yang dibuat oleh perusahaan Tiongkok dan Amerika. Model-model ini bukan hanya peningkatan bertahap; mereka dirancang untuk bersaing secara langsung dengan beberapa sistem AI tercanggih yang tersedia, dengan kemampuan yang, menurut Baidu, menyamai atau melampaui kemampuan para pesaingnya. Kedua model dapat diakses oleh pengguna melalui chatbot ERNIE Bot, dan Baidu merencanakan integrasi bertahap ke dalam jajaran produknya yang lebih luas, termasuk produk unggulannya, Baidu Search.
Waktu perilisan ini sangat penting. Sektor AI generatif sedang mengalami periode inovasi yang cepat dan persaingan yang ketat, dengan fokus khusus pada dinamika antara Tiongkok dan Amerika Serikat. DeepSeek, sebuah startup AI Tiongkok, menarik perhatian industri pada awal tahun 2025 dengan R1, model penalaran sumber terbuka yang dilaporkan mengungguli model AI terkemuka dengan biaya yang jauh lebih rendah. Langkah ini mendorong DeepSeek unggul dari para pesaingnya di Tiongkok dan AS, termasuk Baidu. Namun, Baidu adalah salah satu perusahaan Tiongkok pertama yang memperkenalkan pesaing ChatGPT, ERNIE Bot.
ERNIE X1 dan ERNIE 4.5: Melihat Lebih Dekat Model Baru Baidu
ERNIE X1 dan ERNIE 4.5, meskipun keduanya dikembangkan oleh Baidu, adalah model fondasi yang berbeda yang dirancang untuk aplikasi yang berbeda:
ERNIE X1: Model ini diposisikan sebagai mesin penalaran efisiensi tinggi, yang secara langsung menantang model seperti DeepSeek R1 dan OpenAI’s o3 mini. Model ini dirancang untuk tugas-tugas yang membutuhkan pemrosesan logis yang kompleks dan pemecahan masalah multi-langkah.
ERNIE 4.5: Model ini adalah AI multimodal besar, yang mampu memproses dan memahami berbagai bentuk media – teks, gambar, audio, dan video. Model ini bersaing dengan model seperti GPT-4o dan Google’s Gemini.
Munculnya R1 DeepSeek mendorong perubahan prioritas para pemain AI utama seperti Google, OpenAI, Anthropic, dan xAI. Perusahaan-perusahaan ini mulai berfokus pada efisiensi dan keterjangkauan, di samping skala model mentah. Pengenalan ERNIE X1 oleh Baidu, khususnya, menandakan masuknya Baidu ke dalam perlombaan AI global ini, menawarkan kinerja yang sebanding dengan R1 dan model lainnya, berpotensi dengan harga yang lebih kompetitif.
Baidu menekankan bahwa tahun 2025 adalah tahun yang penting bagi evolusi model bahasa besar dan teknologi terkait. Siaran pers perusahaan menyoroti komitmen berkelanjutannya untuk berinvestasi dalam kecerdasan buatan, pusat data, dan infrastruktur cloud, yang bertujuan untuk lebih meningkatkan kemampuan AI-nya dan mengembangkan model generasi berikutnya yang lebih kuat.
ERNIE X1: Menyelami Penalaran Berpikir Mendalam
ERNIE X1 adalah model bahasa yang dirancang khusus untuk “penalaran berpikir mendalam.” Ini membedakannya dari model bahasa tradisional yang unggul dalam menghasilkan respons cepat berbasis pola. Model penalaran, sebaliknya, dirancang untuk membedah masalah kompleks menjadi serangkaian langkah logis. Mereka mengevaluasi berbagai solusi potensial dan menyempurnakan jawaban mereka sebelum menyajikan output akhir. Ini membuat mereka sangat cocok untuk tugas-tugas yang melibatkan perencanaan multi-langkah, deduksi logis, dan pemecahan masalah yang rumit.
Baidu mengaitkan kehebatan penalaran ERNIE X1 dengan beberapa teknik canggih, termasuk:
- Progressive Reinforcement Learning: Ini menunjukkan proses pembelajaran berulang di mana model terus meningkatkan kinerjanya melalui umpan balik.
- End-to-End Training: Ini menyiratkan pendekatan pelatihan holistik di mana seluruh model dioptimalkan secara bersamaan, bukan dalam tahap terpisah.
- Chains of Thought and Action: Teknik ini kemungkinan memungkinkan model untuk mengikuti urutan langkah-langkah logis, meniru proses berpikir manusia.
- Unified Multi-faceted Reward System: Ini menunjukkan sistem yang canggih untuk mengevaluasi dan memberi penghargaan kinerja model di berbagai aspek penalaran.
Meskipun Baidu belum mengungkapkan detail teknis yang lengkap, metode ini menunjukkan fokus pada pembelajaran berulang, pemahaman kontekstual, dan penalaran terstruktur – kekuatan yang juga menjadi ciri khas model penalaran sukses lainnya.
Dalam aplikasi praktis, Baidu mengklaim ERNIE X1 menunjukkan “kemampuan yang ditingkatkan dalam pemahaman, perencanaan, refleksi, dan evolusi.” Perusahaan menyoroti kemahirannya dalam bidang-bidang seperti:
- Literary Creation: Menghasilkan format teks kreatif.
- Manuscript Writing: Membantu penyusunan dokumen yang lebih panjang.
- Dialogue: Terlibat dalam percakapan yang alami dan koheren.
- Logical Reasoning: Memecahkan masalah yang membutuhkan deduksi logis.
- Complex Calculations: Melakukan operasi matematika yang rumit.
- ‘Chinese Knowledge’: Kemampuan yang tidak ditentukan ini kemungkinan mengacu pada pemahaman mendalam tentang bahasa, budaya, dan konteks Tiongkok.
Akibatnya, ERNIE X1 dibayangkan untuk memberdayakan berbagai aplikasi, termasuk:
- Search Engines: Meningkatkan hasil pencarian dengan pemahaman yang lebih bernuansa.
- Document Summarization and Q&A: Memberikan ringkasan singkat dan jawaban akurat untuk pertanyaan.
- Image Understanding and Generation: Menafsirkan dan membuat konten visual.
- Code Interpretation: Menganalisis dan memahami kode pemrograman.
- Webpage Analysis: Mengekstraksi informasi kunci dari halaman web.
- Mind Mapping: Membuat representasi visual dari ide dan konsep.
- Academic Research: Membantu tugas penelitian di berbagai disiplin ilmu.
- Business and Franchise Information Search: Memberikan informasi yang relevan untuk pertanyaan bisnis.
ERNIE X1: Pembandingan Terhadap Kompetisi
Meskipun Baidu belum merilis skor benchmark spesifik atau evaluasi terperinci untuk ERNIE X1, Baidu menegaskan bahwa kinerja model “setara dengan” DeepSeek R1, sambil ditawarkan dengan “hanya setengah harga.” Saat ini, Baidu belum memberikan perbandingan dengan model penalaran lain di pasar. Kurangnya data komparatif yang terperinci ini membuat sulit untuk menilai sepenuhnya posisi kompetitif ERNIE X1, tetapi klaim kinerja yang sebanding dengan biaya yang lebih rendah tentu patut diperhatikan.
ERNIE 4.5: Merangkul Kemampuan Multimodal Asli
ERNIE 4.5 disajikan oleh Baidu sebagai “model multimodal asli.” Ini berarti model ini dirancang untuk mengintegrasikan dan memahami berbagai bentuk media – teks, gambar, audio, dan video – secara mulus dalam kerangka kerja terpadu. Tidak seperti banyak sistem AI yang memproses jenis media yang berbeda secara terpisah, ERNIE 4.5 direkayasa untuk menggabungkan modalitas ini dan bahkan mengonversi di antaranya (misalnya, teks ke audio dan sebaliknya).
Baidu menyoroti bahwa ERNIE 4.5 “mencapai optimasi kolaboratif melalui pemodelan bersama dari berbagai modalitas, menunjukkan kemampuan pemahaman multimodal yang luar biasa.” Ini menunjukkan pendekatan canggih di mana model belajar untuk memahami dan menghubungkan informasi di berbagai jenis media.
Selain kehebatan multimodalnya, ERNIE 4.5 menawarkan “keterampilan bahasa yang disempurnakan,” meningkatkan pemahaman dan kemampuan generasinya, serta penalaran logis, memori, dan kemampuan pengkodeannya. Baidu juga menekankan “kecerdasan yang kuat” dan “kesadaran kontekstual” model, terutama kemampuannya untuk mengenali konten yang bernuansa seperti meme internet dan kartun satir. Ini menunjukkan fokus pada pemahaman tidak hanya makna literal dari konten, tetapi juga konteks budaya dan sosialnya.
Selain itu, Baidu mengklaim bahwa ERNIE 4.5 kurang rentan terhadap “halusinasi” – masalah umum dalam AI di mana model menghasilkan informasi palsu atau menyesatkan yang mungkin tampak masuk akal pada pandangan pertama. Ini adalah peningkatan yang krusial, karena halusinasi dapat merusak keandalan dan kepercayaan sistem AI.
Baidu mengaitkan kemajuan ini dengan beberapa teknologi kunci, termasuk:
- Spatiotemporal Representation Compression: Ini kemungkinan mengacu pada teknik untuk merepresentasikan dan memproses informasi yang berubah seiring waktu dan ruang secara efisien, seperti konten video.
- Knowledge-Centric Training Data Construction: Ini menunjukkan fokus pada pembangunan dataset pelatihan yang kaya akan pengetahuan faktual.
- Self-Feedback Enhanced Post-Training: Ini menyiratkan mekanisme di mana model dapat belajar dari outputnya sendiri dan meningkatkan kinerjanya dari waktu ke waktu.
- Heterogeneous Multimodal Mixture-of-Experts (MoE): Pendekatan ini memanfaatkan model “ahli” yang lebih kecil dan terspesialisasi yang diaktifkan hanya jika diperlukan. Ini mengoptimalkan kinerja dan mengurangi biaya komputasi. Model MoE seringkali lebih kecil dan lebih hemat biaya daripada model berbasis transformator tradisional, namun mereka dapat mencapai kinerja yang sebanding atau bahkan lebih unggul, menjadikannya pilihan yang menarik untuk pengembangan AI.
Ke depan, laporan menunjukkan bahwa Baidu berencana untuk merilis ERNIE 5 pada akhir tahun 2025, menjanjikan “peningkatan besar” dalam kemampuan multimodalnya. Ini menunjukkan komitmen berkelanjutan untuk mendorong batas-batas AI multimodal.
ERNIE 4.5: Analisis Komparatif
Baidu telah secara langsung membandingkan kemampuan multimodal ERNIE 4.5 dengan GPT-4o OpenAI. Perusahaan mengklaim bahwa ERNIE 4.5 mengungguli GPT-4o di hampir setiap benchmark, kecuali MMU (Massive Multi-discipline Understanding). MMU mengevaluasi model pada berbagai tugas tingkat perguruan tinggi yang membutuhkan pengetahuan subjek yang mendalam dan penalaran yang disengaja. Ini menunjukkan bahwa sementara ERNIE 4.5 unggul dalam banyak bidang, GPT-4o mungkin masih memiliki keunggulan dalam tugas-tugas yang membutuhkan pengetahuan akademis khusus.
Baidu juga menyajikan hasil benchmark yang menunjukkan bahwa ERNIE 4.5 melampaui GPT-4o dan GPT-4.5 OpenAI, serta DeepSeek’s V3, di beberapa bidang lain, termasuk:
- C-Eval: Benchmark ini menilai pengetahuan lanjutan dan kemampuan penalaran di berbagai disiplin ilmu, dari humaniora hingga sains dan teknik. Kinerja ERNIE 4.5 yang kuat di sini menunjukkan pemahaman yang luas tentang berbagai mata pelajaran.
- CMMLU: Benchmark ini mengevaluasi pengetahuan dan kemampuan penalaran dalam konteks spesifik bahasa dan budaya Tiongkok. Keberhasilan ERNIE 4.5 di sini menyoroti kemahirannya dalam domain ini.
- GSM8K: Benchmark ini mengevaluasi penalaran multi-langkah menggunakan soal matematika sekolah dasar. Kinerja ERNIE 4.5 menunjukkan kemampuan yang kuat dalam penalaran matematika.
- DROP: Benchmark ini mengukur kemampuan pemahaman bacaan LLM. Hasil ERNIE 4.5 menunjukkan tingkat pemahaman teks yang tinggi.
Penting untuk diakui, bagaimanapun, bahwa banyak benchmark di mana ERNIE 4.5 menunjukkan kinerja yang unggul secara khusus difokuskan pada bahasa dan budaya Tiongkok. Ini mungkin sebagian menjelaskan mengapa GPT-4o dan GPT-4.5, model yang dikembangkan oleh perusahaan Amerika, tidak berkinerja sebaik itu. Namun demikian, ERNIE 4.5 juga mengungguli DeepSeek-V3, model yang dikembangkan oleh perusahaan Tiongkok, pada banyak benchmark ini, menunjukkan keunggulan kompetitif yang nyata dalam konteks Tiongkok.
Sebaliknya, ERNIE 4.5 dilaporkan tidak berkinerja sebaik itu pada benchmark tertentu lainnya, termasuk:
- MMLU-Pro: Benchmark ini mengevaluasi pemahaman bahasa di seluruh rangkaian tugas yang lebih luas dan lebih menantang. GPT-4.5 mengungguli ERNIE 4.5 di sini, menunjukkan potensi keunggulan dalam pemahaman bahasa umum.
- GPQA: Benchmark ini terdiri dari kumpulan soal pilihan ganda yang ditulis oleh para ahli di bidang biologi, fisika, dan kimia. GPT-4.5 kembali mengungguli ERNIE 4.5, menunjukkan pemahaman yang lebih kuat tentang pengetahuan ilmiah khusus.
- Math-500: Benchmark ini menguji kemampuan untuk memecahkan soal matematika tingkat sekolah menengah atas yang menantang. Baik DeepSeek-V3 maupun GPT-4.5 mengungguli ERNIE 4.5, menunjukkan perlunya peningkatan lebih lanjut dalam penalaran matematika tingkat lanjut.
- LiveCodeBench: Benchmark ini mengukur kemampuan pengkodean. GPT-4.5 mengungguli ERNIE 4.5, menunjukkan potensi keunggulan dalam pembuatan dan pemahaman kode.
Meskipun kinerja GPT-4.5 lebih unggul pada beberapa benchmark, Baidu menekankan bahwa ERNIE 4.5 dihargai hanya 1% dari model OpenAI. Perbedaan biaya yang signifikan ini dapat membuat ERNIE 4.5 menjadi pilihan yang sangat menarik bagi bisnis dan pengembang yang mencari solusi AI multimodal yang hemat biaya.
Mengakses ERNIE X1 dan ERNIE 4.5
ERNIE 4.5 saat ini dapat diakses melalui API-nya dan di platform MaaS (Model-as-a-Service) Baidu AI Cloud, Qianfan. Harga input mulai dari RMB 0,004 per seribu token, dan harga output mulai dari RMB 0,016 per seribu token. Baidu menyatakan bahwa ERNIE X1 akan tersedia di platform “segera,” dengan harga input mulai dari RMB 0,002 per seribu token dan harga output mulai dari RMB 0,008 per seribu token.
Pengguna juga dapat berinteraksi dengan kedua model melalui chatbot Baidu, ERNIE Bot, yang menyediakan antarmuka yang nyaman dan mudah digunakan untuk menjelajahi kemampuan mereka.
Struktur harga spesifik dan detail ketersediaan menyoroti komitmen Baidu untuk membuat model AI canggih ini dapat diakses oleh berbagai pengguna, dari pengembang individu hingga perusahaan besar. Harga yang kompetitif, khususnya untuk ERNIE X1, memposisikan Baidu sebagai pesaing kuat di pasar AI global, menawarkan alternatif yang menarik untuk model dari raksasa teknologi Amerika.