Baidu Lancar ERNIE X1 & ERNIE 4.5

Baidu, kuasa dominan dalam landskap teknologi China, telah melancarkan dua kemas kini penting kepada model asas ERNIE (Enhanced Representation through Knowledge Integration) miliknya. Iterasi baharu ini, ERNIE X1 dan ERNIE 4.5, mewakili tindak balas strategik Baidu terhadap landskap AI global yang semakin kompetitif, terutamanya kemajuan yang dibuat oleh syarikat China dan Amerika. Model-model ini bukan sekadar peningkatan tambahan; ia direka untuk bersaing secara langsung dengan beberapa sistem AI yang paling maju yang ada, dengan keupayaan yang, menurut Baidu, sama ada sepadan atau mengatasi keupayaan pesaing mereka. Kedua-dua model boleh diakses oleh pengguna melalui chatbot ERNIE Bot, dan Baidu merancang integrasi berperingkat ke dalam rangkaian produknya yang lebih luas, termasuk Baidu Search yang utama.

Masa pelancaran ini adalah penting. Sektor AI generatif sedang mengalami tempoh inovasi pesat dan persaingan sengit, dengan tumpuan khusus pada dinamik antara China dan Amerika Syarikat. DeepSeek, sebuah syarikat permulaan AI China, menarik perhatian industri pada awal 2025 dengan R1, model penaakulan sumber terbuka yang dilaporkan mengatasi model AI terkemuka pada kos yang jauh lebih rendah. Langkah ini mendorong DeepSeek mendahului pesaing di China dan A.S., termasuk Baidu. Baidu, bagaimanapun, merupakan salah satu syarikat China terawal yang memperkenalkan pesaing ChatGPT, ERNIE Bot.

ERNIE X1 dan ERNIE 4.5: Melihat Lebih Dekat Model Baharu Baidu

ERNIE X1 dan ERNIE 4.5, walaupun kedua-duanya dibangunkan oleh Baidu, adalah model asas yang berbeza yang disesuaikan untuk aplikasi yang berbeza:

  • ERNIE X1: Model ini diposisikan sebagai enjin penaakulan berkecekapan tinggi, secara langsung mencabar model seperti DeepSeek R1 dan OpenAI’s o3 mini. Ia direka untuk tugas yang memerlukan pemprosesan logik yang kompleks dan penyelesaian masalah berbilang langkah.

  • ERNIE 4.5: Model ini ialah AI multimodal besar, yang mampu memproses dan memahami pelbagai bentuk media – teks, imej, audio dan video. Ia bersaing dengan model seperti GPT-4o dan Google’s Gemini.

Kemunculan R1 DeepSeek mendorong peralihan dalam keutamaan pemain AI utama seperti Google, OpenAI, Anthropic, dan xAI. Syarikat-syarikat ini mula memberi tumpuan kepada kecekapan dan kemampuan, di samping skala model mentah. Pengenalan ERNIE X1 oleh Baidu, khususnya, menandakan kemasukannya ke dalam perlumbaan AI global ini, menawarkan prestasi yang setanding dengan R1 dan model lain, berpotensi pada titik harga yang lebih kompetitif.

Baidu menekankan bahawa 2025 adalah tahun penting untuk evolusi model bahasa besar dan teknologi berkaitan. Siaran akhbar syarikat itu menyerlahkan komitmen berterusannya untuk melabur dalam kecerdasan buatan, pusat data dan infrastruktur awan, yang bertujuan untuk meningkatkan lagi keupayaan AI dan membangunkan model generasi akan datang yang lebih berkuasa.

ERNIE X1: Menyelami Penaakulan Pemikiran Mendalam

ERNIE X1 ialah model bahasa yang direka khusus untuk “penaakulan pemikiran mendalam.” Ini membezakannya daripada model bahasa tradisional yang cemerlang dalam menjana respons pantas berasaskan corak. Model penaakulan, sebaliknya, direka untuk membedah masalah kompleks kepada satu siri langkah logik. Mereka menilai pelbagai penyelesaian yang berpotensi dan memperhalusi jawapan mereka sebelum membentangkan output akhir. Ini menjadikan mereka sangat sesuai untuk tugas yang melibatkan perancangan berbilang langkah, potongan logik dan penyelesaian masalah yang rumit.

Baidu mengaitkan kehebatan penaakulan ERNIE X1 dengan beberapa teknik lanjutan, termasuk:

  • Progressive Reinforcement Learning: Ini mencadangkan proses pembelajaran berulang di mana model terus meningkatkan prestasinya melalui maklum balas.
  • End-to-End Training: Ini membayangkan pendekatan latihan holistik di mana keseluruhan model dioptimumkan secara serentak, dan bukannya dalam peringkat berasingan.
  • Chains of Thought and Action: Teknik ini berkemungkinan membolehkan model mengikuti urutan langkah logik, meniru proses pemikiran manusia.
  • Unified Multi-faceted Reward System: Ini mencadangkan sistem yang canggih untuk menilai dan memberi ganjaran kepada prestasi model merentas pelbagai aspek penaakulan.

Walaupun Baidu tidak mendedahkan butiran teknikal yang lengkap, kaedah ini menunjukkan tumpuan pada pembelajaran berulang, pemahaman kontekstual dan penaakulan berstruktur – kekuatan yang juga merupakan ciri model penaakulan lain yang berjaya.

Dalam aplikasi praktikal, Baidu mendakwa ERNIE X1 mempamerkan “keupayaan yang dipertingkatkan dalam pemahaman, perancangan, refleksi dan evolusi.” Syarikat itu menyerlahkan kecekapan dalam bidang seperti:

  • Literary Creation: Menjana format teks kreatif.
  • Manuscript Writing: Membantu dengan penggubalan dokumen yang lebih panjang.
  • Dialogue: Terlibat dalam perbualan yang semula jadi dan koheren.
  • Logical Reasoning: Menyelesaikan masalah yang memerlukan potongan logik.
  • Complex Calculations: Melakukan operasi matematik yang rumit.
  • ‘Chinese Knowledge’: Keupayaan yang tidak dinyatakan ini berkemungkinan merujuk kepada pemahaman mendalam tentang bahasa, budaya dan konteks Cina.

Akibatnya, ERNIE X1 dibayangkan untuk memperkasakan pelbagai aplikasi, termasuk:

  • Search Engines: Meningkatkan hasil carian dengan pemahaman yang lebih bernuansa.
  • Document Summarization and Q&A: Menyediakan ringkasan ringkas dan jawapan yang tepat kepada soalan.
  • Image Understanding and Generation: Mentafsir dan mencipta kandungan visual.
  • Code Interpretation: Menganalisis dan memahami kod pengaturcaraan.
  • Webpage Analysis: Mengekstrak maklumat penting daripada halaman web.
  • Mind Mapping: Mencipta perwakilan visual idea dan konsep.
  • Academic Research: Membantu dengan tugas penyelidikan merentas pelbagai disiplin.
  • Business and Franchise Information Search: Menyediakan maklumat yang relevan untuk pertanyaan perniagaan.

ERNIE X1: Penandaarasan Terhadap Persaingan

Walaupun Baidu belum mengeluarkan skor penanda aras khusus atau penilaian terperinci untuk ERNIE X1, ia menegaskan bahawa prestasi model itu “setanding dengan” DeepSeek R1, sambil ditawarkan pada “hanya separuh harga.” Pada masa ini, Baidu belum memberikan perbandingan dengan model penaakulan lain di pasaran. Kekurangan data perbandingan terperinci ini menyukarkan untuk menilai sepenuhnya kedudukan kompetitif ERNIE X1, tetapi dakwaan prestasi setanding pada kos yang lebih rendah sememangnya patut diberi perhatian.

ERNIE 4.5: Merangkul Keupayaan Multimodal Asli

ERNIE 4.5 dibentangkan oleh Baidu sebagai “model multimodal asli.” Ini bermakna ia direka untuk menyepadukan dan memahami pelbagai bentuk media dengan lancar – teks, imej, audio dan video – dalam rangka kerja yang disatukan. Tidak seperti banyak sistem AI yang memproses jenis media yang berbeza secara berasingan, ERNIE 4.5 direka bentuk untuk menggabungkan modaliti ini dan malah menukar antaranya (cth., teks kepada audio dan sebaliknya).

Baidu menyerlahkan bahawa ERNIE 4.5 “mencapai pengoptimuman kolaboratif melalui pemodelan bersama pelbagai modaliti, menunjukkan keupayaan pemahaman multimodal yang luar biasa.” Ini mencadangkan pendekatan yang canggih di mana model belajar untuk memahami dan mengaitkan maklumat merentas jenis media yang berbeza.

Selain kehebatan multimodalnya, ERNIE 4.5 mempunyai “kemahiran bahasa yang diperhalusi,” meningkatkan pemahaman dan keupayaan penjanaannya, serta penaakulan logik, ingatan dan kebolehan pengekodannya. Baidu juga menekankan “kecerdasan yang kuat” dan “kesedaran kontekstual” model itu, terutamanya keupayaannya untuk mengenali kandungan bernuansa seperti meme internet dan kartun satira. Ini menunjukkan tumpuan untuk memahami bukan sahaja makna literal kandungan, tetapi juga konteks budaya dan sosialnya.

Tambahan pula, Baidu mendakwa bahawa ERNIE 4.5 kurang terdedah kepada “halusinasi” – masalah biasa dalam AI di mana model menjana maklumat palsu atau mengelirukan yang mungkin kelihatan munasabah pada pandangan pertama. Ini adalah peningkatan yang ketara, kerana halusinasi boleh menjejaskan kebolehpercayaan dan kebolehpercayaan sistem AI.

Baidu mengkreditkan kemajuan ini kepada beberapa teknologi utama, termasuk:

  • Spatiotemporal Representation Compression: Ini berkemungkinan merujuk kepada teknik untuk mewakili dan memproses maklumat yang berubah dari semasa ke semasa dan ruang dengan cekap, seperti kandungan video.
  • Knowledge-Centric Training Data Construction: Ini mencadangkan tumpuan pada membina set data latihan yang kaya dengan pengetahuan fakta.
  • Self-Feedback Enhanced Post-Training: Ini membayangkan mekanisme di mana model boleh belajar daripada outputnya sendiri dan meningkatkan prestasinya dari semasa ke semasa.
  • Heterogeneous Multimodal Mixture-of-Experts (MoE): Pendekatan ini menggunakan model “pakar” yang lebih kecil dan khusus yang diaktifkan hanya apabila diperlukan. Ini mengoptimumkan prestasi dan mengurangkan kos pengiraan. Model MoE selalunya lebih kecil dan lebih kos efektif daripada model berasaskan transformer tradisional, namun ia boleh mencapai prestasi yang setanding atau lebih baik, menjadikannya pilihan yang menarik untuk pembangunan AI.

Melihat ke hadapan, laporan menunjukkan bahawa Baidu merancang untuk mengeluarkan ERNIE 5 pada akhir 2025, menjanjikan “peningkatan besar” dalam keupayaan multimodalnya. Ini menunjukkan komitmen berterusan untuk menolak sempadan AI multimodal.

ERNIE 4.5: Analisis Perbandingan

Baidu telah membandingkan secara langsung keupayaan multimodal ERNIE 4.5 dengan GPT-4o OpenAI. Syarikat itu mendakwa bahawa ERNIE 4.5 mengatasi GPT-4o dalam hampir setiap penanda aras, kecuali MMU (Massive Multi-discipline Understanding). MMU menilai model pada pelbagai tugas peringkat kolej yang memerlukan pengetahuan subjek yang mendalam dan penaakulan yang disengajakan. Ini menunjukkan bahawa walaupun ERNIE 4.5 cemerlang dalam banyak bidang, GPT-4o mungkin masih memegang kelebihan dalam tugas yang memerlukan pengetahuan akademik khusus.

Baidu juga membentangkan keputusan penanda aras yang menunjukkan bahawa ERNIE 4.5 mengatasi GPT-4o dan GPT-4.5 OpenAI, serta DeepSeek’s V3, dalam beberapa bidang lain, termasuk:

  • C-Eval: Penanda aras ini menilai pengetahuan lanjutan dan kebolehan penaakulan merentas pelbagai disiplin, daripada kemanusiaan kepada sains dan kejuruteraan. Prestasi kukuh ERNIE 4.5 di sini mencadangkan pemahaman yang luas tentang pelbagai subjek.
  • CMMLU: Penanda aras ini menilai pengetahuan dan kebolehan penaakulan dalam konteks khusus bahasa dan budaya Cina. Kejayaan ERNIE 4.5 di sini menyerlahkan kecekapan dalam domain ini.
  • GSM8K: Penanda aras ini menilai penaakulan berbilang langkah menggunakan masalah matematik sekolah rendah. Prestasi ERNIE 4.5 menunjukkan keupayaan yang kuat dalam penaakulan matematik.
  • DROP: Penanda aras ini mengukur kebolehan pemahaman bacaan LLM. Keputusan ERNIE 4.5 mencadangkan tahap pemahaman teks yang tinggi.

Walau bagaimanapun, adalah penting untuk mengakui bahawa banyak penanda aras di mana ERNIE 4.5 menunjukkan prestasi unggul adalah khusus tertumpu pada bahasa dan budaya Cina. Ini mungkin sebahagiannya menjelaskan mengapa GPT-4o dan GPT-4.5, model yang dibangunkan oleh syarikat Amerika, tidak menunjukkan prestasi yang baik. Walau bagaimanapun, ERNIE 4.5 juga mengatasi DeepSeek-V3, model yang dibangunkan oleh syarikat China, pada banyak penanda aras ini, menunjukkan kelebihan daya saing yang tulen dalam konteks China.

Sebaliknya, ERNIE 4.5 dilaporkan tidak menunjukkan prestasi yang baik pada penanda aras tertentu yang lain, termasuk:

  • MMLU-Pro: Penanda aras ini menilai pemahaman bahasa merentas set tugas yang lebih luas dan lebih mencabar. GPT-4.5 mengatasi ERNIE 4.5 di sini, mencadangkan potensi kelebihan dalam pemahaman bahasa am.
  • GPQA: Penanda aras ini terdiri daripada set data soalan aneka pilihan yang ditulis oleh pakar dalam biologi, fizik dan kimia. GPT-4.5 sekali lagi mengatasi ERNIE 4.5, menunjukkan pemahaman yang lebih kukuh tentang pengetahuan saintifik khusus.
  • Math-500: Penanda aras ini menguji keupayaan untuk menyelesaikan masalah matematik peringkat sekolah menengah yang mencabar. Kedua-dua DeepSeek-V3 dan GPT-4.5 mengatasi ERNIE 4.5, mencadangkan keperluan untuk penambahbaikan selanjutnya dalam penaakulan matematik lanjutan.
  • LiveCodeBench: Penanda aras ini mengukur keupayaan pengekodan. GPT-4.5 mengatasi ERNIE 4.5, menunjukkan potensi kelebihan dalam penjanaan dan pemahaman kod.

Walaupun prestasi unggul GPT-4.5 pada beberapa penanda aras, Baidu menekankan bahawa ERNIE 4.5 berharga hanya 1% daripada model OpenAI. Perbezaan kos yang ketara ini boleh menjadikan ERNIE 4.5 pilihan yang sangat menarik untuk perniagaan dan pembangun yang mencari penyelesaian AI multimodal yang kos efektif.

Mengakses ERNIE X1 dan ERNIE 4.5

ERNIE 4.5 kini boleh diakses melalui API dan pada platform MaaS (Model-as-a-Service) Baidu AI Cloud, Qianfan. Harga input bermula pada RMB 0.004 setiap ribu token, dan harga output bermula pada RMB 0.016 setiap ribu token. Baidu menyatakan bahawa ERNIE X1 akan tersedia di platform “tidak lama lagi,” dengan harga input bermula pada RMB 0.002 setiap ribu token dan harga output bermula pada RMB 0.008 setiap ribu token.

Pengguna juga boleh berinteraksi dengan kedua-dua model melalui chatbot Baidu, ERNIE Bot, menyediakan antara muka yang mudah dan mesra pengguna untuk meneroka keupayaan mereka.

Struktur harga khusus dan butiran ketersediaan menyerlahkan komitmen Baidu untuk menjadikan model AI lanjutan ini boleh diakses oleh pelbagai pengguna, daripada pembangun individu kepada perusahaan besar. Harga yang kompetitif, terutamanya untuk ERNIE X1, meletakkan Baidu sebagai pesaing kuat dalam pasaran AI global, menawarkan alternatif yang menarik kepada model daripada gergasi teknologi Amerika.