Latihan lwn. Inferens: Dua Sisi Syiling AI
Untuk memahami kepentingan inferens, adalah penting untuk membezakannya daripada rakannya: latihan. Model AI, enjin yang memacu aplikasi pintar, melalui dua fasa yang berbeza.
Latihan (Training): Ini adalah fasa intensif pengiraan di mana model AI belajar daripada set data yang besar. Anggaplah ia seperti model yang menghadiri sekolah, menyerap sejumlah besar maklumat untuk mengembangkan kecerdasannya. Fasa ini memerlukan kuasa pemprosesan yang besar, dan GPU (Graphics Processing Units) Nvidia secara sejarahnya cemerlang di sini, menawarkan keupayaan pemprosesan selari yang diperlukan untuk mengendalikan pengiraan kompleks yang terlibat dalam latihan.
Inferens (Inference): Setelah model dilatih, ia bersedia untuk digunakan dan digunakan. Di sinilah inferens masuk. Inferens ialah proses menggunakan model terlatih untuk membuat ramalan atau keputusan berdasarkan data baharu. Ia seperti model yang menamatkan pengajian dan menggunakan pengetahuannya di dunia nyata. Walaupun kurang intensif dari segi pengiraan berbanding latihan, inferens memerlukan kelajuan, kecekapan, dan selalunya, penggunaan kuasa yang rendah.
Perbezaan ini adalah kritikal kerana keperluan perkakasan untuk latihan dan inferens berbeza dengan ketara. Walaupun GPU Nvidia telah menguasai pasaran latihan, pasaran inferens membentangkan landskap yang lebih pelbagai dan kompetitif.
Mengapa Inferens Mendapat Momentum
Beberapa faktor menyumbang kepada peningkatan kepentingan inferens dalam pasaran cip AI:
Percambahan Aplikasi AI: AI tidak lagi terhad kepada makmal penyelidikan dan gergasi teknologi. Ia pantas meresap ke dalam setiap aspek kehidupan kita, daripada telefon pintar dan rumah pintar kepada kenderaan autonomi dan diagnostik perubatan. Penggunaan yang meluas ini bermakna inferens, proses menggunakan model AI, berlaku pada skala yang tidak pernah berlaku sebelum ini.
Pengkomputeran Pinggir (Edge Computing): Kebangkitan pengkomputeran pinggir merupakan satu lagi pemacu utama. Pengkomputeran pinggir melibatkan pemprosesan data lebih dekat dengan sumber, dan bukannya menghantarnya ke pelayan awan berpusat. Ini penting untuk aplikasi yang memerlukan respons masa nyata, seperti kereta pandu sendiri atau automasi industri. Peranti pinggir, yang selalunya beroperasi dalam persekitaran terhad kuasa, memerlukan cip yang dioptimumkan untuk inferens berkuasa rendah dan cekap.
Pengoptimuman Kos: Walaupun melatih model AI adalah kos sekali sahaja (atau jarang), inferens adalah perbelanjaan operasi yang berterusan. Apabila penggunaan AI berskala, kos inferens boleh menjadi besar. Ini mendorong permintaan untuk cip yang boleh melakukan inferens dengan lebih cekap, mengurangkan penggunaan tenaga dan kos operasi keseluruhan.
Keperluan Kependaman (Latency): Banyak aplikasi AI, terutamanya yang melibatkan interaksi masa nyata, memerlukan kependaman yang rendah. Ini bermakna masa yang diambil untuk model AI memproses data dan menjana respons mestilah minimum. Cip yang dioptimumkan untuk inferens direka untuk meminimumkan kependaman ini, membolehkan pengalaman AI yang lebih pantas dan responsif.
Kematangan Model AI: Apabila model AI menjadi lebih canggih dan khusus, keperluan untuk perkakasan inferens yang dioptimumkan meningkat. GPU tujuan am, walaupun sangat baik untuk latihan, mungkin bukan penyelesaian yang paling cekap untuk menjalankan model AI khusus yang ditala dengan baik.
Pencabar Muncul: Landskap yang Pelbagai
Kepentingan inferens yang semakin meningkat menarik gelombang pesaing yang ingin mencabar penguasaan Nvidia. Syarikat-syarikat ini menggunakan pelbagai strategi dan teknologi untuk bertapak dalam pasaran yang sedang berkembang ini:
Syarikat Permulaan dengan Seni Bina Khusus: Banyak syarikat permulaan sedang membangunkan cip yang direka khusus untuk inferens. Cip ini selalunya menampilkan seni bina novel yang dioptimumkan untuk beban kerja AI tertentu, seperti pemprosesan bahasa semula jadi atau penglihatan komputer. Contohnya termasuk syarikat seperti Graphcore, Cerebras Systems, dan SambaNova Systems. Syarikat-syarikat ini bertaruh pada idea bahawa perkakasan khusus boleh mengatasi prestasi GPU tujuan am dalam tugas inferens tertentu.
Penyelesaian Berasaskan FPGA: Field-Programmable Gate Arrays (FPGA) menawarkan alternatif yang fleksibel kepada GPU dan ASIC (Application-Specific Integrated Circuits) tradisional. FPGA boleh diprogramkan semula selepas pembuatan, membolehkannya disesuaikan dengan model dan algoritma AI yang berbeza. Syarikat seperti Xilinx (kini sebahagian daripada AMD) dan Intel memanfaatkan FPGA untuk menyediakan penyelesaian inferens yang boleh disesuaikan dan cekap.
Pembangunan ASIC: ASIC ialah cip reka bentuk tersuai yang dibina untuk tujuan tertentu. Dalam konteks AI, ASIC boleh direka bentuk untuk menyampaikan prestasi dan kecekapan maksimum untuk beban kerja inferens tertentu. Tensor Processing Unit (TPU) Google, yang digunakan secara meluas di pusat datanya sendiri, ialah contoh utama ASIC yang direka untuk latihan dan inferens. Syarikat lain juga meneruskan pembangunan ASIC untuk memperoleh kelebihan daya saing dalam pasaran inferens.
Pembuat Cip Terkemuka Meluaskan Tawaran AI Mereka: Pembuat cip tradisional, seperti Intel, AMD, dan Qualcomm, tidak berdiam diri. Mereka secara aktif mengembangkan portfolio produk mereka untuk memasukkan cip yang dioptimumkan untuk inferens AI. Intel, contohnya, memanfaatkan kepakaran CPUnya dan memperoleh syarikat yang pakar dalam pemecut AI untuk mengukuhkan kedudukannya. Pemerolehan Xilinx oleh AMD memberikannya platform berasaskan FPGA yang kukuh untuk inferens. Qualcomm, peneraju dalam pemproses mudah alih, menyepadukan keupayaan pecutan AI ke dalam cipnya untuk memperkasakan aplikasi AI pada telefon pintar dan peranti pinggir lain.
Pembekal Awan Merekabentuk Cip Mereka Sendiri: Pembekal awan utama, seperti Amazon Web Services (AWS) dan Google Cloud, semakin mereka bentuk cip tersuai mereka sendiri untuk beban kerja AI, termasuk inferens. Cip Inferentia AWS, contohnya, direka khusus untuk mempercepatkan inferens dalam awan. Trend ini membolehkan pembekal awan mengoptimumkan infrastruktur mereka untuk keperluan khusus mereka dan mengurangkan pergantungan mereka pada vendor cip luaran.
Pertempuran untuk Penguasaan Inferens: Pertimbangan Utama
Persaingan dalam pasaran inferens AI bukan hanya mengenai kuasa pemprosesan mentah. Beberapa faktor lain adalah penting dalam menentukan kejayaan:
Ekosistem Perisian: Ekosistem perisian yang kukuh adalah penting untuk menarik pembangun dan memudahkan penggunaan model AI pada cip tertentu. Platform CUDA Nvidia, platform pengkomputeran selari dan model pengaturcaraan, telah menjadi kelebihan utama dalam pasaran latihan. Pesaing sedang berusaha keras untuk membangunkan alat dan perpustakaan perisian yang teguh untuk menyokong perkakasan mereka.
Kecekapan Kuasa: Seperti yang dinyatakan sebelum ini, kecekapan kuasa adalah kritikal untuk banyak aplikasi inferens, terutamanya yang berada di pinggir. Cip yang boleh memberikan prestasi tinggi per watt akan mempunyai kelebihan yang ketara.
Kos: Kos cip inferens adalah pertimbangan utama, terutamanya untuk penggunaan berskala besar. Syarikat yang boleh menawarkan harga yang kompetitif sambil mengekalkan prestasi akan berada pada kedudukan yang baik.
Kebolehskalaan (Scalability): Keupayaan untuk menskalakan penggunaan inferens dengan cekap adalah penting. Ini melibatkan bukan sahaja prestasi cip individu tetapi juga keupayaan untuk menyambung dan mengurus berbilang cip dalam kelompok.
Fleksibiliti dan Kebolehprograman: Walaupun ASIC menawarkan prestasi tinggi untuk beban kerja tertentu, ia tidak mempunyai fleksibiliti GPU dan FPGA. Keupayaan untuk menyesuaikan diri dengan model dan algoritma AI yang berkembang adalah pertimbangan utama bagi banyak pengguna.
Keselamatan: Dengan peningkatan penggunaan AI dalam aplikasi sensitif, seperti penjagaan kesihatan dan kewangan, keselamatan menjadi perkara yang paling penting.
Masa Depan Inferens: Landskap Pelbagai Rupa
Pasaran inferens bersedia untuk pertumbuhan dan kepelbagaian yang ketara. Tidak mungkin satu syarikat akan mendominasi cara Nvidia dalam ruang latihan. Sebaliknya, kita mungkin akan melihat landskap pelbagai rupa dengan seni bina cip dan vendor yang berbeza memenuhi keperluan dan aplikasi tertentu.
Persaingan akan menjadi sengit, memacu inovasi dan menolak sempadan apa yang mungkin dengan AI. Ini akhirnya akan memberi manfaat kepada pengguna, membawa kepada penyelesaian AI yang lebih pantas, lebih cekap dan lebih berpatutan. Kebangkitan inferens bukan hanya tentang mencabar penguasaan Nvidia; ia adalah mengenai membuka potensi penuh AI dan menjadikannya boleh diakses oleh pelbagai aplikasi dan industri yang lebih luas. Tahun-tahun akan datang akan menjadi tempoh yang menentukan bagi segmen kritikal pasaran cip AI ini, membentuk masa depan cara AI digunakan dan digunakan di seluruh dunia.