Rentak inovasi yang tidak henti-henti dalam arena kecerdasan buatan (AI) memastikan bahawa sikap berpuas hati bukanlah satu pilihan. Tepat ketika metodologi yang sedia ada kelihatan kukuh, perkembangan baharu muncul untuk mencabar status quo. Contoh utama tiba pada awal tahun 2025, apabila DeepSeek, sebuah makmal AI China yang kurang dikenali, mengeluarkan model yang bukan sahaja menarik perhatian—ia menghantar gegaran yang ketara melalui pasaran kewangan. Pengumuman itu diikuti dengan pantas oleh kejatuhan mengejutkan sebanyak 17% dalam harga saham Nvidia, mengheret turun syarikat-syarikat lain yang berkaitan dengan ekosistem pusat data AI yang sedang berkembang pesat. Pengulas pasaran dengan cepat mengaitkan reaksi mendadak ini kepada kehebatan DeepSeek yang ditunjukkan dalam mencipta model AI berkaliber tinggi yang kelihatan tanpa bajet besar yang biasanya dikaitkan dengan makmal penyelidikan terkemuka A.S. Peristiwa ini serta-merta mencetuskan perdebatan sengit mengenai seni bina dan ekonomi infrastruktur AI masa depan.
Untuk memahami sepenuhnya potensi gangguan yang diisyaratkan oleh kedatangan DeepSeek, adalah penting untuk meletakkannya dalam konteks yang lebih luas: kekangan yang berkembang yang dihadapi oleh saluran pembangunan AI. Faktor penting yang mempengaruhi trajektori industri ialah kekurangan data latihan berkualiti tinggi dan baharu yang semakin meningkat. Pemain utama dalam bidang AI, setakat ini, telah menyerap sebahagian besar data internet yang tersedia secara umum untuk melatih model asas mereka. Akibatnya, sumber maklumat yang mudah diakses mula mengering, menjadikan lonjakan prestasi model yang lebih ketara melalui kaedah pra-latihan tradisional semakin sukar dan mahal. Halangan yang muncul ini memaksa satu pivot strategik. Pembangun model semakin meneroka potensi ‘test-time compute’ (TTC). Pendekatan ini menekankan peningkatan keupayaan penaakulan model semasa fasa inferens—pada dasarnya membolehkan model menumpukan lebih banyak usaha pengiraan untuk ‘berfikir’ dan memperhalusi responsnya apabila dibentangkan dengan pertanyaan, bukannya bergantung semata-mata pada pengetahuan pra-latihannya. Terdapat kepercayaan yang semakin meningkat dalam komuniti penyelidikan bahawa TTC boleh membuka kunci paradigma penskalaan baharu, berpotensi mencerminkan peningkatan prestasi dramatik yang sebelum ini dicapai melalui penskalaan data pra-latihan dan parameter. Fokus pada pemprosesan masa inferens ini mungkin mewakili sempadan seterusnya untuk kemajuan transformatif dalam kecerdasan buatan.
Peristiwa-peristiwa terkini ini menandakan dua transformasi asas yang sedang berlaku dalam landskap AI. Pertama, menjadi jelas bahawa organisasi yang beroperasi dengan sumber kewangan yang secara perbandingan lebih kecil, atau sekurang-kurangnya kurang diuar-uarkan secara terbuka, kini boleh membangunkan dan menggunakan model yang menyaingi tahap terkini. Medan persaingan, yang secara tradisinya didominasi oleh beberapa gergasi yang dibiayai besar-besaran, nampaknya semakin seimbang. Kedua, penekanan strategik secara tegas beralih ke arah mengoptimumkan pengiraan pada titik inferens (TTC) sebagai enjin utama untuk kemajuan AI masa depan. Mari kita mendalami kedua-dua trend penting ini dan meneroka potensi kesannya terhadap persaingan, dinamik pasaran, dan pelbagai segmen dalam ekosistem AI yang lebih luas.
Membentuk Semula Landskap Perkakasan
Orientasi semula strategik ke arah komputasi masa ujian membawa implikasi mendalam untuk perkakasan yang menyokong revolusi AI, berpotensi membentuk semula keperluan untuk GPU, silikon khusus, dan infrastruktur pengiraan keseluruhan. Kami percaya peralihan ini boleh nyata dalam beberapa cara utama:
Peralihan daripada Hab Latihan Khusus kepada Kuasa Inferens Dinamik: Fokus industri mungkin secara beransur-ansur beralih daripada membina kluster GPU monolitik yang semakin besar yang dikhaskan secara eksklusif untuk tugas pra-latihan model yang intensif secara pengiraan. Sebaliknya, syarikat AI mungkin secara strategik memperuntukkan semula pelaburan ke arah memperkukuh keupayaan inferens mereka. Ini tidak semestinya bermakna lebih sedikit GPU secara keseluruhan, tetapi pendekatan yang berbeza untuk penggunaan dan pengurusannya. Menyokong permintaan TTC yang semakin meningkat memerlukan infrastruktur inferens yang mantap yang mampu mengendalikan beban kerja yang dinamik dan sering tidak dapat diramalkan. Walaupun sejumlah besar GPU sudah pasti masih diperlukan untuk inferens, sifat asas tugas-tugas ini berbeza dengan ketara daripada latihan. Latihan sering melibatkan kerja pemprosesan kelompok yang besar dan boleh diramal yang dijalankan dalam tempoh yang panjang. Inferens, terutamanya yang dipertingkatkan oleh TTC, cenderung jauh lebih ‘spikey’ dan sensitif kependaman, dicirikan oleh corak permintaan yang berubah-ubah berdasarkan interaksi pengguna masa nyata. Ketidakpastian yang wujud ini memperkenalkan kerumitan baharu ke dalam perancangan kapasiti dan pengurusan sumber, menuntut penyelesaian yang lebih tangkas dan boleh skala berbanding persediaan latihan berorientasikan kelompok tradisional.
Kebangkitan Pemecut Inferens Khusus: Apabila halangan prestasi semakin beralih ke arah inferens, kami menjangkakan lonjakan permintaan untuk perkakasan yang dioptimumkan secara khusus untuk tugas ini. Penekanan pada pengiraan kependaman rendah dan daya pemprosesan tinggi semasa fasa inferens mewujudkan tanah subur untuk seni bina alternatif selain daripada GPU tujuan umum. Kita boleh menyaksikan peningkatan ketara dalam penggunaan Litar Bersepadu Khusus Aplikasi (ASICs) yang direka dengan teliti untuk beban kerja inferens, di samping jenis pemecut baharu yang lain. Cip khusus ini sering menjanjikan prestasi-per-watt yang unggul atau kependaman yang lebih rendah untuk operasi inferens tertentu berbanding GPU yang lebih serba boleh. Jika keupayaan untuk melaksanakan tugas penaakulan kompleks secara cekap pada masa inferens (TTC) menjadi pembeza kompetitif yang lebih kritikal daripada kapasiti latihan mentah, penguasaan semasa GPU tujuan umum—yang dihargai kerana fleksibilitinya merentasi kedua-dua latihan dan inferens—boleh menghadapi hakisan. Landskap yang berkembang ini boleh memberi manfaat yang besar kepada syarikat yang membangunkan dan mengeluarkan silikon inferens khusus, berpotensi mengukir bahagian pasaran yang besar.
Platform Awan: Medan Pertempuran Baharu untuk Kualiti dan Kecekapan
Penyedia awan hiperskala (seperti AWS, Azure, dan GCP) dan perkhidmatan pengkomputeran awan lain berdiri di persimpangan transformasi ini. Peralihan ke arah TTC dan percambahan model penaakulan yang berkuasa kemungkinan akan membentuk semula jangkaan pelanggan dan dinamik persaingan dalam pasaran awan:
Kualiti Perkhidmatan (QoS) sebagai Kelebihan Kompetitif Penentu: Cabaran berterusan yang menghalang penggunaan model AI canggih yang lebih meluas oleh perusahaan, di luar kebimbangan sedia ada tentang ketepatan dan kebolehpercayaan, terletak pada prestasi API inferens yang sering tidak dapat diramalkan. Perniagaan yang bergantung pada API ini sering menghadapi isu yang mengecewakan seperti masa respons yang sangat berubah-ubah (kependaman), pengehadan kadar yang tidak dijangka yang menyekat penggunaan mereka, kesukaran mengurus permintaan pengguna serentak dengan cekap, dan overhed operasi untuk menyesuaikan diri dengan perubahan titik akhir API yang kerap oleh penyedia model. Permintaan pengiraan yang meningkat yang berkaitan dengan teknik TTC yang canggih mengancam untuk memburukkan lagi titik kesakitan sedia ada ini. Dalam persekitaran ini, platform awan yang boleh menawarkan bukan sahaja akses kepada model yang berkuasa tetapi juga jaminan Kualiti Perkhidmatan (QoS) yang mantap—memastikan kependaman rendah yang konsisten, daya pemprosesan yang boleh diramal, masa operasi yang boleh dipercayai, dan kebolehskalaan yang lancar—akan memiliki kelebihan kompetitif yang menarik. Perusahaan yang ingin menggunakan aplikasi AI kritikal misi akan cenderung kepada penyedia yang boleh menyampaikan prestasi yang boleh dipercayai di bawah keadaan dunia sebenar yang mencabar.
Paradoks Kecekapan: Mendorong Peningkatan Penggunaan Awan? Mungkin kelihatan berlawanan dengan intuisi, tetapi kemunculan kaedah yang lebih cekap dari segi pengiraan untuk kedua-dua latihan dan, yang penting, inferens model bahasa besar (LLM) mungkin tidak membawa kepada pengurangan permintaan keseluruhan untuk perkakasan AI dan sumber awan. Sebaliknya, kita boleh menyaksikan fenomena yang serupa dengan Paradoks Jevons. Prinsip ekonomi ini, yang diperhatikan secara sejarah, menyatakan bahawa peningkatan dalam kecekapan sumber sering membawa kepada kadar penggunaan keseluruhan yang lebih tinggi, kerana kos yang lebih rendah atau kemudahan penggunaan yang lebih besar menggalakkan penggunaan yang lebih meluas dan aplikasi baharu. Dalam konteks AI, model inferens yang sangat cekap, yang berpotensi didayakan oleh penemuan TTC yang dipelopori oleh makmal seperti DeepSeek, boleh menurunkan kos setiap pertanyaan atau setiap tugas secara dramatik. Keterjangkauan ini boleh, seterusnya, memberi insentif kepada rangkaian pembangun dan organisasi yang lebih luas untuk mengintegrasikan keupayaan penaakulan canggih ke dalam produk dan aliran kerja mereka. Kesan bersihnya boleh menjadi peningkatan yang ketara dalam permintaan agregat untuk pengkomputeran AI berasaskan awan, merangkumi kedua-dua pelaksanaan model inferens yang cekap ini pada skala dan keperluan berterusan untuk melatih model yang lebih kecil dan lebih khusus yang disesuaikan dengan tugas atau domain tertentu. Oleh itu, kemajuan terkini mungkin secara paradoks mendorong dan bukannya mengurangkan perbelanjaan AI awan secara keseluruhan.
Model Asas: ‘Moat’ yang Berubah
Arena kompetitif untuk penyedia model asas—ruang yang kini didominasi oleh nama-nama seperti OpenAI, Anthropic, Cohere, Google, dan Meta, kini disertai oleh pemain baru muncul seperti DeepSeek dan Mistral—juga bersedia untuk perubahan ketara:
- Memikirkan Semula Kebolehtahanan Pra-Latihan: Kelebihan kompetitif tradisional, atau ‘moat’, yang dinikmati oleh makmal AI terkemuka sangat bergantung pada keupayaan mereka untuk mengumpul set data yang luas dan menggunakan sumber pengiraan yang besar untuk pra-latihan model yang semakin besar. Walau bagaimanapun, jika pemain disruptif seperti DeepSeek boleh menunjukkan prestasi yang setanding atau bahkan tahap sempadan dengan perbelanjaan yang dilaporkan jauh lebih rendah, nilai strategik model pra-latihan proprietari sebagai pembeza tunggal mungkin berkurangan. Keupayaan untuk melatih model besar mungkin menjadi kurang kelebihan unik jika teknik inovatif dalam seni bina model, metodologi latihan, atau, secara kritikal, pengoptimuman komputasi masa ujian membolehkan orang lain mencapai tahap prestasi yang sama dengan lebih cekap. Kita harus menjangkakan inovasi pesat yang berterusan dalam meningkatkan keupayaan model transformer melalui TTC, dan seperti yang digambarkan oleh kemunculan DeepSeek, penemuan ini boleh berasal dari jauh di luar kalangan gergasi industri yang sedia ada. Ini menunjukkan potensi pendemokrasian pembangunan AI canggih, memupuk ekosistem yang lebih pelbagai dan kompetitif.
Penggunaan AI Perusahaan dan Lapisan Aplikasi
Implikasi peralihan ini merebak ke landskap perisian perusahaan dan penggunaan AI yang lebih luas dalam perniagaan, terutamanya mengenai lapisan aplikasi Perisian-sebagai-Perkhidmatan (SaaS):
Menangani Halangan Keselamatan dan Privasi: Asal usul geopolitik peserta baharu seperti DeepSeek tidak dapat dielakkan memperkenalkan kerumitan, terutamanya mengenai keselamatan data dan privasi. Memandangkan pangkalan DeepSeek di China, tawarannya, terutamanya perkhidmatan API langsung dan aplikasi chatbotnya, berkemungkinan menghadapi penelitian rapi daripada bakal pelanggan perusahaan di Amerika Utara, Eropah, dan negara-negara Barat yang lain. Laporan sudah menunjukkan bahawa banyak organisasi secara proaktif menyekat akses kepada perkhidmatan DeepSeek sebagai langkah berjaga-jaga. Walaupun model DeepSeek dihoskan oleh penyedia awan pihak ketiga dalam pusat data Barat, kebimbangan yang berlarutan tentang tadbir urus data, potensi pengaruh negara, dan pematuhan kepada peraturan privasi yang ketat (seperti GDPR atau CCPA) boleh menghalang penggunaan perusahaan yang meluas. Tambahan pula, penyelidik secara aktif menyiasat dan menonjolkan potensi kelemahan yang berkaitan dengan ‘jailbreaking’ (memintas kawalan keselamatan), kecenderungan yang wujud dalam output model, dan penjanaan kandungan yang berpotensi berbahaya atau tidak sesuai. Walaupun eksperimen dan penilaian dalam pasukan R&D perusahaan mungkin berlaku disebabkan oleh keupayaan teknikal model, nampaknya tidak mungkin pembeli korporat akan dengan cepat meninggalkan penyedia yang sedia ada dan dipercayai seperti OpenAI atau Anthropic semata-mata berdasarkan tawaran semasa DeepSeek, memandangkan pertimbangan kepercayaan dan keselamatan yang signifikan ini.
Pengkhususan Vertikal Menemui Tapak yang Lebih Kukuh: Secara sejarah, pembangun yang membina aplikasi berkuasa AI untuk industri atau fungsi perniagaan tertentu (aplikasi vertikal) terutamanya memberi tumpuan kepada mencipta aliran kerja yang canggih di sekeliling model asas tujuan umum yang sedia ada. Teknik seperti Penjanaan Diperkaya Dapatan Semula (RAG) untuk menyuntik pengetahuan khusus domain, penghalaan model pintar untuk memilih LLM terbaik untuk tugas tertentu, panggilan fungsi untuk mengintegrasikan alat luaran, dan melaksanakan penghadang yang mantap untuk memastikan output yang selamat dan relevan telah menjadi pusat untuk menyesuaikan model yang berkuasa tetapi umum ini untuk keperluan khusus. Pendekatan ini telah menghasilkan kejayaan yang besar. Walau bagaimanapun, kebimbangan yang berterusan telah membayangi lapisan aplikasi: ketakutan bahawa lonjakan mendadak dan dramatik dalam keupayaan model asas yang mendasari boleh serta-merta menjadikan inovasi khusus aplikasi yang direka dengan teliti ini usang—senario yang terkenal disebut ‘steamrolling’ oleh Sam Altman dari OpenAI.
Namun, jika trajektori kemajuan AI memang beralih, dengan keuntungan paling ketara kini dijangkakan daripada mengoptimumkan komputasi masa ujian dan bukannya peningkatan eksponensial dalam pra-latihan, ancaman eksistensial terhadap nilai lapisan aplikasi berkurangan. Dalam landskap di mana kemajuan semakin diperoleh daripada pengoptimuman TTC, laluan baharu terbuka untuk syarikat yang mengkhusus dalam domain tertentu. Inovasi yang tertumpu pada algoritma pasca-latihan khusus domain—seperti membangunkan teknik gesaan berstruktur yang dioptimumkan untuk jargon industri tertentu, mencipta strategi penaakulan peka kependaman untuk aplikasi masa nyata, atau mereka bentuk kaedah pensampelan yang sangat cekap yang disesuaikan dengan jenis data tertentu—boleh menghasilkan kelebihan prestasi yang besar dalam pasaran vertikal yang disasarkan.
Potensi untuk pengoptimuman khusus domain ini amat relevan untuk generasi baharu model berfokuskan penaakulan, seperti GPT-4o OpenAI atau siri-R DeepSeek, yang, walaupun berkuasa, sering menunjukkan kependaman yang ketara, kadang-kadang mengambil masa beberapa saat untuk menjana respons. Dalam aplikasi yang menuntut interaksi hampir masa nyata (cth., bot perkhidmatan pelanggan, alat analisis data interaktif), mengurangkan kependaman ini dan pada masa yang sama meningkatkan kualiti dan relevansi output inferens dalam konteks domain tertentu mewakili pembeza kompetitif yang signifikan. Akibatnya, syarikat lapisan aplikasi yang memiliki kepakaran vertikal yang mendalam mungkin mendapati diri mereka memainkan peranan yang semakin penting, bukan sahaja dalam membina aliran kerja, tetapi dalam mengoptimumkan kecekapan inferens secara aktif dan menala halus tingkah laku model untuk niche khusus mereka. Mereka menjadi rakan kongsi yang sangat diperlukan dalam menterjemahkan kuasa AI mentah kepada nilai perniagaan yang ketara.
Kemunculan DeepSeek berfungsi sebagai ilustrasi kuat tentang trend yang lebih luas: penurunan pergantungan pada skala semata-mata dalam pra-latihan sebagai laluan eksklusif kepada kualiti model yang unggul. Sebaliknya, kejayaannya menekankan kepentingan yang semakin meningkat dalam mengoptimumkan pengiraan semasa peringkat inferens—era komputasi masa ujian. Walaupun penggunaan langsung model khusus DeepSeek dalam perisian perusahaan Barat mungkin kekal terhad oleh penelitian keselamatan dan geopolitik yang berterusan, pengaruh tidak langsung mereka sudah mula kelihatan. Teknik dan kemungkinan yang telah mereka tunjukkan sudah pasti memangkin usaha penyelidikan dan kejuruteraan dalam makmal AI yang sedia ada, memaksa mereka untuk mengintegrasikan strategi pengoptimuman TTC yang serupa untuk melengkapkan kelebihan sedia ada mereka dalam skala dan sumber. Tekanan kompetitif ini, seperti yang dijangkakan, nampaknya bersedia untuk menurunkan kos efektif inferens model canggih, yang, selaras dengan Paradoks Jevons, berkemungkinan menyumbang kepada eksperimen yang lebih luas dan peningkatan penggunaan keseluruhan keupayaan AI lanjutan merentasi ekonomi digital.