Dataran Tinggi Menjelang: Had Model Penaakulan

Model penaakulan, yang digembar-gemburkan sebagai lonjakan utama seterusnya dalam evolusi model bahasa yang besar (LLM), telah menunjukkan kemajuan yang luar biasa, terutamanya dalam domain yang memerlukan penyelesaian masalah yang rumit, seperti matematik dan pengaturcaraan komputer. Sistem canggih ini, yang dibezakan oleh fasa "latihan penaakulan" tambahan, memanfaatkan pembelajaran pengukuhan untuk memperhalusi keupayaan mereka untuk menangani cabaran yang kompleks. o3 OpenAI menonjol sebagai contoh perintis, yang mempamerkan peningkatan prestasi yang ketara berbanding pendahulunya, o1, menurut penilaian penanda aras. Persoalan utama yang kini menghantui bidang ini ialah kemampanan kemajuan ini. Bolehkah model ini terus maju pada kadar yang sama hanya dengan meningkatkan kuasa pengkomputeran?

Epoch AI, sebuah organisasi penyelidikan yang memfokuskan pada impak masyarakat terhadap kecerdasan buatan, telah mengambil tugas untuk merungkaikan soalan ini. Josh You, seorang penganalisis data di Epoch AI, telah menjalankan analisis komprehensif untuk menentukan tahap semasa pelaburan pengkomputeran dalam latihan penaakulan dan untuk menilai potensi pengembangan yang masih ada.

Lonjakan Pengkomputeran Di Sebalik Model Penaakulan

OpenAI telah menyatakan secara terbuka bahawa o3 telah dilatih dengan sepuluh kali ganda sumber pengkomputeran yang didedikasikan untuk penaakulan berbanding o1—peningkatan yang besar dicapai dalam masa hanya empat bulan. Carta yang dihasilkan oleh OpenAI menggambarkan dengan jelas korelasi rapat antara kuasa pengkomputeran dan prestasi pada penanda aras matematik AIME. Epoch AI membuat hipotesis bahawa angka-angka ini secara khusus berkaitan dengan fasa kedua latihan, latihan penaakulan, dan bukannya proses latihan model yang lengkap.

Untuk meletakkan angka-angka ini dalam perspektif, Epoch AI memeriksa model yang setanding. DeepSeek-R1, contohnya, dilaporkan dilatih dengan sekitar 6e23 FLOP (operasi titik terapung sesaat) pada anggaran kos $1 juta, mencapai hasil penanda aras yang serupa dengan o1.

Gergasi teknologi Nvidia dan Microsoft juga telah menyumbang kepada pembangunan model penaakulan, menyediakan data latihan yang boleh diakses secara umum. Llama-Nemotron Ultra 253B Nvidia menggunakan kira-kira 140,000 jam GPU H100, bersamaan dengan kira-kira 1e23 FLOP, untuk fasa latihan penaakulan. Penaakulan Phi-4-reasoning Microsoft menggunakan kuasa pengkomputeran yang lebih rendah, di bawah 1e20 FLOP. Faktor penting yang membezakan model ini ialah pergantungan berat mereka pada data latihan sintetik yang dihasilkan oleh sistem AI lain. Epoch AI menekankan bahawa pergantungan ini menjadikan perbandingan langsung dengan model seperti o3 lebih sukar disebabkan oleh perbezaan yang wujud antara data sebenar dan sintetik dan impaknya terhadap pembelajaran dan generalisasi model.

Mentakrifkan "Latihan Penaakulan": Kawasan Yang Tidak Jelas

Satu lagi lapisan kerumitan berpunca daripada kekurangan definisi "latihan penaakulan" yang diterima secara universal. Selain daripada pembelajaran pengukuhan, beberapa model menggabungkan teknik seperti penalaan halus yang diawasi. Kekaburan di sekeliling komponen yang termasuk dalam anggaran pengiraan memperkenalkan ketidakkonsistenan, menjadikannya mencabar untuk membandingkan sumber dengan tepat merentas model yang berbeza.

Setakat ini, model penaakulan masih menggunakan kuasa pengkomputeran yang jauh lebih sedikit daripada larian latihan AI yang paling luas, seperti Grok 3, yang melebihi 1e26 FLOP. Fasa latihan penaakulan kontemporari biasanya beroperasi antara 1e23 dan 1e24 FLOP, meninggalkan ruang yang besar untuk potensi pengembangan – atau begitulah nampaknya pada pandangan pertama.

Dario Amodei, CEO Anthropic, berkongsi perspektif yang sama. Beliau berpendapat bahawa pelaburan $1 juta dalam latihan penaakulan boleh menghasilkan kemajuan yang ketara. Walau bagaimanapun, syarikat secara aktif meneroka cara untuk meningkatkan bajet untuk fasa latihan kedua ini kepada ratusan juta dolar dan seterusnya, yang mencadangkan masa depan di mana ekonomi latihan berubah secara mendadak.

Jika trend semasa peningkatan kira-kira sepuluh kali ganda dalam kuasa pengkomputeran setiap tiga hingga lima bulan berterusan, pengiraan latihan penaakulan berpotensi mengejar jumlah pengiraan latihan model terkemuka seawal tahun hadapan. Walau bagaimanapun, Josh You menjangkakan bahawa pertumbuhan akhirnya akan menjadi perlahan kepada peningkatan kira-kira 4x setahun, sejajar dengan trend industri yang lebih luas. Kelembapan ini mungkin didorong oleh gabungan faktor, termasuk pulangan pelaburan yang semakin berkurangan dalam latihan, peningkatan kos sumber pengkomputeran, dan batasan data latihan yang tersedia.

Melangkaui Pengkomputeran: Kesesakan Di Horizon

Epoch AI menekankan bahawa kuasa pengkomputeran bukanlah satu-satunya faktor pengehad. Latihan penaakulan memerlukan kuantiti yang besar bagi tugas yang berkualiti tinggi dan mencabar. Mendapatkan data sedemikian adalah sukar; menjananya secara sintetik adalah lebih sukar. Masalah dengan data sintetik bukan sahaja ketulenan; ramai yang berpendapat kualitinya buruk. Selain itu, keberkesanan pendekatan ini di luar domain yang sangat berstruktur seperti matematik dan pengaturcaraan komputer kekal tidak pasti. Walaupun begitu, projek seperti "Penyelidikan Mendalam" dalam ChatGPT, yang menggunakan versi o3 yang ditala tersuai, mencadangkan potensi untuk aplikasi yang lebih luas.

Tugas di sebalik tabir yang memerlukan tenaga kerja yang intensif, seperti memilih tugas yang sesuai, mereka bentuk fungsi ganjaran, dan membangunkan strategi latihan, juga menimbulkan cabaran. Kos pembangunan ini, yang sering dikecualikan daripada anggaran pengiraan, menyumbang dengan ketara kepada perbelanjaan keseluruhan latihan penaakulan.

Di sebalik cabaran ini, OpenAI dan pembangun lain kekal optimistik. Seperti yang dinyatakan oleh Epoch AI, keluk penskalaan untuk latihan penaakulan pada masa ini menyerupai kemajuan log-linear klasik yang diperhatikan dalam pra-latihan. Tambahan pula, o3 menunjukkan peningkatan yang ketara bukan sahaja dalam matematik tetapi juga dalam tugas perisian berasaskan ejen, menunjukkan potensi serba boleh pendekatan baharu ini.

Masa depan kemajuan ini bergantung pada kebolehskalaan latihan penaakulan – secara teknikal, ekonomi, dan dari segi kandungan. Perkara berikut meneroka beberapa faktor utama yang akan menentukan masa depan model ini:

  • Kebolehskalaan Teknikal: Merujuk kepada keupayaan untuk meningkatkan sumber pengkomputeran yang digunakan dalam latihan tanpa menghadapi halangan teknikal yang tidak dapat diatasi. Ini termasuk kemajuan dalam perkakasan, perisian, dan algoritma untuk menggunakan set data yang lebih besar dan infrastruktur pengkomputeran yang lebih berkuasa dengan cekap. Apabila model berkembang dalam saiz dan kerumitan, kebolehskalaan teknikal menjadi semakin penting untuk kemajuan berterusan. Seni bina asas perlu berkembang untuk bersaing dengan skala model yang semata-mata.
  • Kebolehskalaan Ekonomi: Melibatkan kebolehlaksanaan untuk meningkatkan sumber pengkomputeran dalam kekangan bajet yang munasabah. Jika kos latihan berskala linear atau eksponen dengan saiz model, ia mungkin menjadi terlalu mahal untuk mengejar keuntungan selanjutnya. Oleh itu, latihan yang lebih murah dan lebih cekap mungkin diperlukan. Inovasi dalam perkakasan dan teknik pengoptimuman yang mengurangkan kos setiap FLOP adalah penting untuk kebolehskalaan ekonomi. Trendnya adalah untuk memberi tumpuan kepada model yang lebih besar tetapi dengan bajet yang terhad, insentif akan beralih kepada melatih model yang paling cekap.
  • Kebolehskalaan Kandungan: Menekankan ketersediaan data latihan berkualiti tinggi yang berkesan boleh memacu keuntungan dalam keupayaan penaakulan. Apabila model menjadi lebih canggih, set data yang lebih sukar dan pelbagai diperlukan untuk mencabar mereka dan mengelakkan pemasangan berlebihan. Ketersediaan set data sedemikian adalah terhad, terutamanya dalam domain yang memerlukan penaakulan yang kompleks. Teknik penjanaan data sintetik boleh membantu mengurangkan kesesakan ini, tetapi ia mesti direka bentuk dengan teliti untuk mengelakkan berat sebelah atau ketidaktepatan yang boleh merendahkan prestasi model.

Masa Depan Pengkomputeran

Adalah mudah sebagai orang awam untuk berfikir bahawa kita berada di laluan pengkomputeran yang tidak terhingga. Walau bagaimanapun, pada hakikatnya, ia adalah terhad, dan pada masa hadapan, had itu mungkin menjadi lebih jelas. Dalam bahagian ini, kami akan meneroka beberapa cara pengkomputeran mungkin berkembang pada masa hadapan dan bagaimana perubahan itu akan mempengaruhi industri LLM.

Pengkomputeran Kuantum

Pengkomputeran kuantum mewakili perubahan paradigma dalam pengkomputeran, memanfaatkan prinsip mekanik kuantum untuk menyelesaikan masalah yang tidak dapat diselesaikan oleh komputer klasik. Walaupun masih dalam peringkat awal, pengkomputeran kuantum memegang potensi yang besar untuk mempercepatkan beban kerja AI, termasuk latihan model penaakulan. Algoritma kuantum seperti penyepuhlindapan kuantum dan eigenpenyelesai variasi kuantum (VQE) berpotensi mengoptimumkan parameter model dengan lebih cekap daripada kaedah pengoptimuman klasik, mengurangkan sumber pengkomputeran yang diperlukan untuk latihan. Contohnya, algoritma pembelajaran mesin kuantum boleh meningkatkan pengoptimuman rangkaian saraf yang kompleks, yang membawa kepada masa latihan yang lebih pantas dan berpotensi prestasi model yang lebih baik.

Walau bagaimanapun, cabaran yang ketara kekal dalam meningkatkan komputer kuantum dan membangunkan algoritma kuantum yang teguh. Teknologi ini masih sebahagian besarnya eksperimen, dan komputer kuantum praktikal dengan qubit (bit kuantum) dan masa koheren yang mencukupi masih belum tersedia. Tambahan pula, membangunkan algoritma kuantum yang disesuaikan dengan tugas AI tertentu memerlukan kepakaran khusus dan merupakan bidang penyelidikan yang berterusan. Penggunaan meluas pengkomputeran kuantum dalam AI masih beberapa tahun lagi dan hanya mungkin praktikal apabila komputer tersedia.

Pengkomputeran Neuromorphik

Pengkomputeran neuromorphik meniru struktur dan fungsi otak manusia untuk melakukan pengkomputeran. Tidak seperti komputer tradisional yang bergantung pada logik binari dan pemprosesan jujukan, cip neuromorphik menggunakan neuron dan sinaps buatan untuk memproses maklumat dengan cara yang selari dan cekap tenaga. Seni bina ini sesuai untuk tugas AI yang melibatkan pengecaman corak, pembelajaran, dan penyesuaian, seperti latihan model penaakulan. Cip neuromorphik berpotensi mengurangkan penggunaan tenaga dan kependaman yang berkaitan dengan melatih model AI yang besar, menjadikannya lebih berdaya maju dari segi ekonomi dan mampan dari segi alam sekitar.

Loihi Intel dan TrueNorth IBM adalah contoh cip neuromorphik yang telah menunjukkan hasil yang memberangsangkan dalam aplikasi AI. Cip ini mampu melaksanakan tugas AI yang kompleks dengan penggunaan kuasa yang jauh lebih rendah berbanding CPU dan GPU tradisional. Walau bagaimanapun, pengkomputeran neuromorphik masih merupakan bidang yang agak baharu, dan cabaran kekal dalam membangunkan alat pengaturcaraan yang teguh dan mengoptimumkan algoritma untuk seni bina neuromorphik. Tambahan pula, ketersediaan terhad perkakasan neuromorphik dan kekurangan kepakaran yang meluas dalam pengkomputeran neuromorphik telah menghalang penggunaan teknologi ini dalam aplikasi AI arus perdana.

Pengkomputeran Analog

Pengkomputeran analog menggunakan kuantiti fizikal berterusan, seperti voltan atau arus, untuk mewakili dan memproses maklumat, dan bukannya isyarat digital diskret. Komputer analog boleh melakukan operasi matematik tertentu, seperti persamaan pembezaan dan algebra linear, dengan lebih pantas dan lebih cekap daripada komputer digital, terutamanya dalam tugas yang mungkin berguna untuk penaakulan. Pengkomputeran analog boleh berguna untuk melatih model atau untuk menjalankan inferens apabila diperlukan.

Walau bagaimanapun, pengkomputeran analog menghadapi cabaran dalam ketepatan, kebolehskalaan, dan kebolehprograman. Litar analog terdedah kepada bunyi dan hanyut, yang boleh merendahkan ketepatan pengiraan. Meningkatkan komputer analog untuk mengendalikan model AI yang besar dan kompleks juga merupakan cabaran teknikal. Tambahan pula, pengaturcaraan komputer analog biasanya memerlukan kepakaran khusus dan lebih sukar daripada pengaturcaraan komputer digital. Di sebalik cabaran ini, terdapat minat yang semakin meningkat dalam pengkomputeran analog sebagai alternatif yang berpotensi untuk pengkomputeran digital untuk aplikasi AI tertentu, terutamanya yang memerlukan kelajuan tinggi dan kecekapan tenaga.

Pengkomputeran Teragih

Pengkomputeran teragih melibatkan pengagihan beban kerja AI merentas berbilang mesin atau peranti yang disambungkan oleh rangkaian. Pendekatan ini membolehkan organisasi memanfaatkan kuasa pengkomputeran kolektif sejumlah besar sumber untuk mempercepatkan latihan dan inferens AI. Pengkomputeran teragih adalah penting untuk melatih model linguistik besar (LLM) dan model AI kompleks lain yang memerlukan set data dan sumber pengkomputeran yang besar.

Rangka kerja seperti TensorFlow, PyTorch, dan Apache Spark menyediakan alat dan API untuk mengagihkan beban kerja AI merentas kluster mesin. Rangka kerja ini membolehkan organisasi meningkatkan keupayaan AI mereka dengan menambahkan lebih banyak sumber pengkomputeran seperti yang diperlukan. Walau bagaimanapun, pengkomputeran teragih memperkenalkan cabaran dalam pengurusan data, overhed komunikasi, dan penyegerakan. Mengagihkan data dengan cekap merentas berbilang mesin dan meminimumkan kelewatan komunikasi adalah penting untuk memaksimumkan prestasi sistem AI teragih. Selain itu, memastikan bahawa mesin atau peranti yang berbeza disegerakkan dan diselaraskan dengan betul adalah penting untuk mencapai hasil yang tepat dan boleh dipercayai.

Kesimpulan

Trajektori model penaakulan tidak dapat dinafikan berkait rapat dengan ketersediaan dan kebolehskalaan sumber pengkomputeran. Walaupun kadar kemajuan semasa yang didorong oleh peningkatan pengkomputeran adalah mengagumkan, beberapa faktor, termasuk kekurangan data latihan berkualiti tinggi, peningkatan kos pengkomputeran, dan kemunculan paradigma pengkomputeran alternatif, mencadangkan bahawa era penskalaan berkomputer yang tidak terkawal mungkin menghampiri hadnya. Masa depan model penaakulan mungkin bergantung pada keupayaan kita untuk mengatasi batasan ini dan meneroka pendekatan baharu untuk meningkatkan keupayaan AI. Dengan semua maklumat ini, kita boleh menganggap bahawa peningkatan dalam keupayaan model penaakulan mungkin tidak lama lagi mula perlahan kerana salah satu daripada banyak kekangan yang dibincangkan.