Kebangkitan Google dalam Arena LLM | ms

Landskap Model Bahasa Besar (LLM) telah menyaksikan transformasi yang signifikan, dengan Google muncul sebagai pemain yang menonjol sementara Meta dan OpenAI menghadapi cabaran yang ketara. Pada mulanya, OpenAI mendominasi bidang ini dengan model GPT yang inovatif, menetapkan penanda aras baharu untuk prestasi LLM. Meta juga memperoleh kedudukan yang besar dengan menawarkan model berat terbuka yang mempunyai keupayaan yang mengagumkan dan membenarkan penggunaan, pengubahsuaian dan penggunaan kodnya yang boleh diakses secara terbuka tanpa sekatan.

Walau bagaimanapun, penguasaan awal ini menyebabkan gergasi teknologi lain, termasuk Google, berusaha untuk mengejar ketinggalan. Walaupun kertas penyelidikan penting Google pada tahun 2017 mengenai seni bina transformer yang mendasari LLM, usaha awal syarikat dibayangi oleh pelancaran Bard pada tahun 2023 yang dikritik secara meluas.

Baru-baru ini, keadaan telah berubah dengan pengenalan LLM baharu yang berkuasa daripada Google, ditambah pula dengan kemunduran yang dialami oleh Meta dan OpenAI. Peralihan ini telah mengubah secara signifikan dinamik landskap LLM.

Meta Llama 4: Satu Kesilapan?

Pelancaran Llama 4 yang tidak dijangka oleh Meta pada hari Sabtu, 5 April, menimbulkan tanda tanya di seluruh industri.

Keputusan untuk melancarkan model utama pada hujung minggu dianggap sebagai tidak konvensional, yang membawa kepada penerimaan yang lemah dan mengaburkan pengumuman itu di tengah-tengah aliran berita minggu berikutnya.

Walaupun Llama 4 mempunyai kekuatan tertentu, termasuk keupayaan multimodalnya (mengendalikan imej, audio dan modaliti lain) dan ketersediaannya dalam tiga versi (Llama 4 Behemoth, Maverick dan Scout) dengan saiz dan kekuatan yang berbeza-beza, pelancarannya telah menerima kritikan. Versi Llama 4 Scout, khususnya, menampilkan tetingkap konteks yang besar sehingga 10 juta token, membolehkan model memproses dan menjana sejumlah besar teks dalam satu sesi.

Walau bagaimanapun, penerimaan model menjadi buruk apabila percanggahan timbul mengenai pendekatan kedudukan Meta di LMArena, platform yang meletakkan kedudukan LLM berdasarkan undian pengguna. Telah ditemui bahawa model Llama 4 khusus yang digunakan untuk kedudukan berbeza daripada yang disediakan kepada orang ramai. LMArena menyatakan bahawa Meta menyediakan ‘model tersuai untuk mengoptimumkan pilihan manusia’.

Tambahan pula, dakwaan Meta mengenai tetingkap konteks 10 juta token Llama 4 Scout telah dipenuhi dengan keraguan. Walaupun ketepatan teknikal angka ini, penanda aras mendedahkan bahawa Llama 4 ketinggalan di belakang model pesaing dalam prestasi konteks panjang.

Menambah kebimbangan, Meta menahan diri daripada mengeluarkan model ‘penaakulan’ atau ‘pemikiran’ Llama 4 dan menahan varian yang lebih kecil, walaupun syarikat itu telah menyatakan bahawa model penaakulan akan datang.

Ben Lorica, pengasas firma perunding AI Gradient Flow, menyatakan bahawa Meta menyimpang daripada amalan standard keluaran yang lebih sistematik, di mana semua komponen disediakan sepenuhnya. Ini mencadangkan bahawa Meta mungkin berminat untuk mempamerkan model baharu, walaupun ia kekurangan elemen penting seperti model penaakulan dan versi yang lebih kecil.

GPT-4.5 OpenAI: Pengunduran Pramatang

OpenAI juga menghadapi cabaran dalam beberapa bulan kebelakangan ini.

GPT-4.5, yang dilancarkan sebagai pratonton penyelidikan pada 27 Februari, diuar-uarkan sebagai ‘model terbesar dan terbaik syarikat untuk sembang setakat ini’. Penanda aras OpenAI menunjukkan bahawa GPT-4.5 secara amnya mengatasi pendahulunya, GPT-4o.

Walau bagaimanapun, struktur harga model menimbulkan kritikan. OpenAI menetapkan harga akses API pada AS$150 setiap juta token output, peningkatan sebanyak 15 kali ganda berbanding harga GPT-4o iaitu $10 setiap juta token. API membolehkan pembangun menyepadukan model OpenAI ke dalam aplikasi dan perkhidmatan mereka.

Alan D. Thompson, seorang perunding dan penganalisis AI di Life Architect, menganggarkan bahawa GPT-4.5 mungkin merupakan LLM tradisional terbesar yang dikeluarkan pada suku pertama 2025, dengan kira-kira 5.4 trilion parameter. Beliau berhujah bahawa skala yang sangat besar itu sukar untuk dibenarkan memandangkan batasan perkakasan semasa dan menimbulkan cabaran yang ketara dalam memberikan perkhidmatan kepada pangkalan pengguna yang besar.

Pada 14 April, OpenAI mengumumkan keputusannya untuk menghentikan akses GPT-4.5 melalui API selepas kurang daripada tiga bulan. Walaupun GPT-4.5 akan kekal boleh diakses, ia akan dihadkan kepada pengguna ChatGPT melalui antara muka ChatGPT.

Pengumuman ini bertepatan dengan pengenalan GPT-4.1, model yang lebih menjimatkan yang berharga $8 setiap juta token. Penanda aras OpenAI menunjukkan bahawa GPT-4.1 tidak begitu berkemampuan seperti GPT-4.5 secara keseluruhan, walaupun ia mempamerkan prestasi yang lebih baik dalam penanda aras pengekodan tertentu.

OpenAI juga baru-baru ini mengeluarkan model penaakulan baharu, o3 dan o4-mini, dengan model o3 menunjukkan prestasi penanda aras yang sangat kuat. Walau bagaimanapun, kos kekal menjadi kebimbangan, kerana akses API ke o3 berharga $40 setiap juta token output.

Kebangkitan Google: Merebut Peluang

Penerimaan campuran Llama 4 dan ChatGPT-4.5 mewujudkan peluang untuk pesaing untuk memanfaatkan, dan mereka telah merebut peluang itu.

Pelancaran Llama 4 Meta yang bermasalah tidak mungkin menghalang pembangun daripada menerima pakai alternatif seperti DeepSeek-V3, Gemma Google dan Qwen2.5 Alibaba. LLM ini, yang diperkenalkan pada akhir tahun 2024, telah menjadi model berat terbuka yang digemari di papan pendahulu LMArena dan HuggingFace. Mereka menyaingi atau mengatasi Llama 4 dalam penanda aras popular, menawarkan akses API yang berpatutan dan, dalam beberapa kes, tersedia untuk dimuat turun dan digunakan pada perkakasan gred pengguna.

Walau bagaimanapun, LLM canggih Google, Gemini 2.5 Pro, yang benar-benar menarik perhatian.

Dilancarkan pada 25 Mac, Google Gemini 2.5 Pro ialah ‘model pemikiran’ yang serupa dengan GPT-o1 dan DeepSeek-R1, menggunakan gesaan kendiri untuk menaakul melalui tugas. Gemini 2.5 Pro adalah multimodal, menampilkan tetingkap konteks satu juta token dan menyokong penyelidikan mendalam.

Gemini 2.5 telah mencapai kemenangan penanda aras dengan pantas, termasuk tempat teratas dalam SimpleBench (walaupun ia menyerahkan kedudukan itu kepada o3 OpenAI pada 16 April) dan pada Indeks Kecerdasan AI gabungan Artificial Analysis. Gemini 2.5 Pro kini memegang kedudukan teratas di LMArena. Setakat 14 April, model Google menduduki 5 daripada 10 slot teratas di LMArena, termasuk Gemini 2.5 Pro, tiga varian Gemini 2.0 dan Gemma 3-27B.

Di sebalik prestasinya yang mengagumkan, Google juga merupakan peneraju harga. Google Gemini 2.5 kini tersedia untuk kegunaan percuma melalui aplikasi Gemini Google dan tapak web AI Studio Google. Harga API Google juga kompetitif, dengan Gemini 2.5 Pro berharga $10 setiap juta token output dan Gemini 2.0 Flash berharga hanya 40 sen setiap juta token.

Lorica menyatakan bahawa untuk tugas penaakulan volum tinggi, beliau sering memilih DeepSeek-R1 atau Google Gemini, manakala menggunakan model OpenAI memerlukan pertimbangan yang lebih teliti terhadap harga.

Walaupun Meta dan OpenAI tidak semestinya berada di ambang keruntuhan, OpenAI mendapat manfaat daripada populariti ChatGPT, yang dilaporkan mempunyai satu bilion pengguna. Walaupun begitu, kedudukan Gemini yang kukuh dan prestasi penanda aras menunjukkan perubahan dalam landskap LLM, yang kini memihak kepada Google.

dikemaskinikan pada 2025-04-22

# LLM # Google # Gemini