MiniMax dan Taruhan pada Linear Attention | id

MiniMax-01, dengan keberaniannya merangkul mekanisme linear attention dan ekspansinya ke 456 miliar parameter yang belum pernah terjadi sebelumnya, adalah salah satu pengganggu di komunitas open-source. Ini adalah pertaruhan teknologi dan potensi tonggak sejarah dalam inovasi arsitektur.

Dalam wawancara ini, kami berbicara dengan Zhong Yiran, Kepala Arsitektur MiniMax-01, untuk menjajaki perjalanan linear attention dari laboratorium ke model besar kelas industri, serta pemikiran dan wawasannya tentang arsitektur model.

Pelopor di Jalur Teknis yang Tidak Umum

Bisakah Anda memperkenalkan diri secara singkat?

Saya Zhong Yiran, Direktur Riset Senior di MiniMax, di mana saya terutama mengawasi desain arsitektur jaringan dan model besar pemahaman multimodal. Di MiniMax, tanggung jawab utama saya adalah memimpin desain struktur jaringan MiniMax-01.

Sebelumnya, saya menjabat sebagai PI untuk Grup Eksplorasi Arsitektur Baru di Laboratorium Kecerdasan Buatan Shanghai, yang berfokus pada metode pemodelan pelatihan efisien untuk arsitektur non-transformer dan penelitian tentang fusi multimodal visual-audio-bahasa.

Kapan Anda mulai meneliti linear attention, dan mengapa Anda memilih rute teknis ini?

Saya mulai meneliti linear attention sekitar Juli 2021. Ini berasal dari makalah yang saya kerjakan untuk PhD saya pada tahun 2020, ‘Invertible Attention.’ Pada saat itu, baik jaringan saraf invertible maupun mekanisme attention cukup populer, jadi kami menggabungkannya dalam penelitian kami.

Kemudian, beberapa anggota tim kami menjadi sangat tertarik pada matematika. Metode pemodelan urutan efisien seperti linear attention membutuhkan fondasi matematika yang kuat dan melibatkan banyak derivasi formula, yang selaras sempurna dengan minat tim, jadi kami memilih arah ini.

Bagaimana status linear attention di industri pada saat itu?

Itu sangat tidak umum, dengan sedikit orang yang mengerjakannya. Sebagian besar peneliti berfokus pada transformer, yang pada dasarnya telah menjadi kekuatan dominan di NLP.

Kami berpikir bahwa daripada menjadi hanya wajah lain di keramaian yang melakukan penelitian transformer, kami harus melakukan sesuatu yang berbeda.

Bagaimana Anda menilai potensi teknis dari rute linear attention?

Motivasi awal kami sangat mudah: untuk mengatasi kompleksitas komputasi kuadratik dari transformer. Kami menguji berbagai metode, termasuk sparse transformer dan linear attention.

Kami menemukan bahwa sparse transformer memang berfungsi, menawarkan kecepatan lebih cepat dan penggunaan memori lebih rendah dibandingkan dengan transformer. Namun, linear attention berkinerja buruk dan juga lambat. Meskipun demikian, kami memilih untuk mengejar linear attention.

Salah satu alasannya adalah daya tarik matematisnya – kami percaya kinerjanya harus lebih baik. Yang lainnya adalah kami merasa batas atas sparse attention adalah full attention, sehingga sulit untuk dilampaui. Linear attention, di sisi lain, memiliki potensi untuk melampauinya.

Bisakah Anda menjelaskan apa itu linear attention?

Linear attention pada dasarnya adalah trik kernel. Dalam transformer, mengalikan matriks Q, K, dan V melibatkan kompleksitas komputasi yang berbeda tergantung pada apakah Anda mengalikan QK terlebih dahulu atau KV terlebih dahulu, karena dimensi yang berbeda.

Mengalikan KV terlebih dahulu dapat mengurangi kompleksitas komputasi menjadi linear. Namun, masalahnya adalah perkalian QK diikuti oleh operasi softmax, yang tidak memenuhi properti komutatif dan tidak dapat dengan mudah dibagi menjadi mengalikan KV terlebih dahulu. Oleh karena itu, langkah pertama dalam linear attention adalah menghilangkan softmax.

Tetapi menghilangkan softmax memengaruhi hasilnya. Tugas selanjutnya adalah menjaga konsistensi dalam hasil tanpa softmax, itulah yang ingin dicapai oleh linear attention.

Apa perbedaan mendasar antara linear attention, sparse attention, dan arsitektur RNN linear?

Sparse attention pada dasarnya masih merupakan softmax attention. Ia hanya menghitung lebih sedikit titik daripada matriks attention padat. Misalnya, sliding window attention hanya menghitung skor attention dalam jendela, mencapai akselerasi dengan mengurangi jumlah komputasi.

RNN linear dan linear attention pada dasarnya adalah hal yang sama, hanya disebut RNN oleh beberapa orang dan attention oleh orang lain.

Semuanya dapat ditulis dalam bentuk RNN. Misalnya, lightning attention sesuai dengan RWKV-4, sedangkan RWKV-7 adalah versi yang ditingkatkan dari gated delta net. Meskipun pada dasarnya serupa, detail implementasinya berbeda.

Apa tonggak sejarah utama dalam penelitian mekanisme linear attention?

Sekitar tahun 2018-19, penelitian menunjukkan bahwa kompleksitas komputasi teoretis dari transformer softmax attention dapat dikurangi menggunakan trik kernel, tetapi hasilnya buruk, dan efisiensinya rendah.

Pada tahun 2019-20, sparse attention dominan, dengan perusahaan seperti Google mengusulkan banyak varian sparse attention. Kemudian, linear attention mulai muncul, tetapi menghadapi tantangan kinerja buruk dan kecepatan lambat.

Para peneliti terutama mengadopsi dua pendekatan untuk perbaikan: satu adalah memperkirakan fungsi softmax, membuat distribusi sesuai dengan softmax; yang lain, yang kami pilih, adalah membuat model menggunakan metode yang sama sekali berbeda, tanpa mengkhawatirkan diri sendiri dengan memperkirakan softmax.

Kami menerbitkan makalah pertama kami, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION,’ pada Oktober 2021, yang menggantikan operasi softmax dengan fungsi kosinus, memungkinkan komputasi untuk dipisahkan.

Pada paruh pertama tahun 2022, kami menerbitkan makalah kedua, ‘The Devil in Linear Transformer,’ yang menganalisis alasan penurunan kinerja linear attention dan memberikan solusi. Ini adalah pendahulu dari lightning attention.

Kemudian, kami juga meneliti pengkodean posisi khusus untuk linear attention dan konvolusi panjang, menerbitkan TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING,’ metode yang mirip dengan S4 (pendahulu Mamba).

Akhirnya, kami meluncurkan lightning attention, yang sesuai dengan kinerja transformer melalui metode peluruhan dan struktur jaringan yang ditingkatkan. Kami juga menggunakan teknik tiling untuk membuatnya lebih cepat.

Apa pendapat Anda tentang rute teknis arsitektur non-transformer saat ini?

Linear attention sebenarnya adalah metode non-transformer. Saat ini, selain pendekatan seperti RNN, arsitektur non-transformer lainnya menurun.

Misalnya, CNN seperti konvolusi panjang dan konvolusi kernel besar, terasa seperti secara bertahap dihilangkan karena kinerja yang buruk, tetapi sebenarnya cukup kuat dalam aspek-aspek tertentu, masih memiliki beberapa efek dalam pemodelan urutan, seperti tugas deteksi anomali.

Sebenarnya hanya ada tiga arsitektur non-transformer: linear attention, konvolusi panjang, dan RNN linear.

Tetapi dalam kenyataannya, ketiga ini dapat disatukan menjadi satu, yang kami sebut model kompleksitas linear. Kami menulis artikel yang mencakup ketiganya.

Apa perbedaan inti antara lightning attention dan Mamba dan RWKV?

Perbedaan paling inti adalah bahwa lightning attention adalah linear attention paling sederhana. Mamba dan RWKV keduanya menggunakan peluruhan yang bergantung pada data, sedangkan lightning attention menggunakan peluruhan buatan tangan untuk kecepatan.

Meskipun peluruhan yang dapat dipelajari dapat mencapai hasil yang lebih baik, itu mengorbankan kecepatan. Misalnya, RWKV-7 10-15% lebih lambat dari gating delta net, sedangkan gated delta net sekitar setengah kecepatan lightning attention.

Efek pemodelan RWKV memang lebih baik daripada lightning attention, tetapi lebih lambat dan belum memecahkan masalah pengambilan.

Apakah sekarang konsensus industri bahwa linear attention memiliki batas atas yang tinggi dan layak?

Tidak, jika itu adalah konsensus, semua orang akan meningkatkan model linear attention. Dan itu juga bukan konsensus sekarang. Jika ya, semua orang akan melakukan linear, tetapi seperti yang Anda lihat, itu tidak terjadi.

Tetapi bagi kami, kami sudah melihat ini pada paruh kedua tahun 2023. Pada saat itu, saya bertanya kepada banyak orang dan berbicara dengan banyak orang, dan poin paling umum yang mereka angkat adalah bahwa mereka tahu linear attention memang berfungsi dalam skala kecil, tetapi mereka merasa itu akan gagal setelah ditingkatkan.

Pada saat itu, saya pikir saya akan meningkatkannya untuk dilihat semua orang. Sekarang MiniMax-01 sudah keluar, tidak ada yang meragukan kemampuan linear attention dalam skala besar.

Dari Eksperimen Kecil hingga Implementasi Skala Besar

Apakah menurut Anda batas atas linear attention dapat melampaui full attention?

Kita sekarang dapat melihat bahwa arsitektur hibrida lebih baik daripada transformer murni. Tetapi masalah terbesar dengan linear attention murni adalah kemampuan pengambilan, yang merupakan masalah sulit untuk dipecahkan oleh akademisi.

Metode yang ada, meskipun kompleks dan lambat, masih tidak dapat sepenuhnya menyelesaikannya, itulah sebabnya perlu untuk bergerak menuju arsitektur hibrida.

Node apa yang Anda amati yang membuat Anda memutuskan untuk keluar dari lab?

Pada Mei-Juni 2023, kami sudah memiliki lightning attention 2 secara internal, yang merupakan implementasi linear attention pertama di dunia yang lebih cepat daripada Flash attention.

Kami percaya itu telah melewati garis merah industri, dan kematangan teknologinya sangat tinggi dan dapat ditingkatkan.

Bagaimana Anda mendefinisikan garis merah industri ini?

Pertama, efeknya lebih baik daripada transformer, dan kedua, lebih cepat daripada transformer. Ini memberinya kemampuan untuk menggantikan transformer. Kami memverifikasi ini pada model padat skala 15B pada saat itu.

Pada node ketika Anda keluar dari lab, mengapa Anda akhirnya bersatu dengan MiniMax?

Sebenarnya, saya telah berbicara dengan beberapa perusahaan besar pada saat itu. Tetapi pada akhirnya, saya tetap mewujudkan ini dengan MiniMax.

Pertama-tama, cosformer adalah artikel yang saya kolaborasikan dengan Junjie. Kami memiliki dasar untuk kerja sama. Junjie adalah bos saya ketika dia berada di SenseTime. Pada akhir tahun 23, Junjie mengundang saya makan malam. Dia lebih percaya diri dengan kemungkinan teknologi mutakhir ini. Pemahaman saya adalah bahwa dia juga mencari terobosan teknis pada saat itu.

Pada saat itu, MiniMax telah menyelesaikan penelitian tentang Moe, dan sebenarnya ada sangat sedikit titik terobosan teknis untuk langkah selanjutnya. Pada saat itu, lightning attention telah dirilis, dan mamba juga populer, jadi di matanya, itu adalah arah yang layak.

Apakah ini terkait dengan produk pendamping interaktif MiniMax?

Tidak ada koneksi. Yan Junjie lebih memperhatikan batas atas model dan bagaimana lebih lanjut menembus langit-langit ini.

Linear attention mungkin lebih merupakan arah untuk menembus efisiensi di mata publik, daripada menembus langit-langit.

Poin di sini adalah bahwa, pertama-tama, daya komputasi setiap produsen konstan. Semakin cepat model dapat dipercepat, semakin banyak data yang dapat dimakannya, dan semakin baik model yang dihasilkan. Ketika daya komputasi konstan, semakin cepat model, semakin baik.

Apakah Anda mengamati situasi di mana data telah mencapai puncaknya?

Belum, kan? Data masih dalam tahap peningkatan berkelanjutan, tetapi mungkin tidak seagresif pada tahun 23.

Karena data selalu meningkat, dan data baru keluar setiap hari. Untuk model, ia memiliki data baru untuk diproses setiap hari. Data yang dihasilkan oleh Internet setiap hari sangat banyak. Melalui pembersihan, kita masih bisa mendapatkan data baru.

Dibandingkan dengan data yang telah ada selama bertahun-tahun pengembangan manusia, apakah tingkat pertumbuhan data melambat?

Sebenarnya, belum tentu. Lihatlah lima ribu tahun sejarah Tiongkok, dan hanya beberapa buku yang telah dikumpulkan. Tetapi dengan perkembangan Internet, peningkatan volume data adalah kurva yang sangat curam. Keseluruhan data yang dihasilkan sebelum Internet mungkin tidak sebanyak data yang dihasilkan dalam satu tahun kemudian.

Selama proses peningkatan, tantangan apa yang dihadapi lightning attention?

Untuk memverifikasi skalabilitasnya, kami pertama-tama melakukan eksperimen hukum skala, secara bertahap berkembang dari model kecil menjadi 7B, 9B, dan akhirnya meningkatkan ke model dengan lebih dari 400B.

Dan kami secara teoritis membuktikan bahwa kapasitas linear lebih besar daripada transformer.

Kami mendefinisikan kapasitas sebagai ukuran status RNN saat ini. Untuk transformer, ukuran kapasitasnya adalah O(d), di mana d adalah ukurannya; untuk linear attention, ukuran kapasitasnya adalah d²/h. Karena d jauh lebih besar dari h, kapasitasnya lebih besar.

Pada akhirnya, kami juga memverifikasi bahwa model hibrida lebih baik daripada transformer murni.

Bagaimana jendela urutan panjang 4M dicapai?

Untuk lightning, panjang pelatihan dapat bersifat arbitrer. Selama daya komputasi dimanfaatkan sepenuhnya, kecepatan pelatihan 8K, 32K, atau 128K sama, dan TGS (token per GPU per second) sama.

Karena transformer adalah kompleksitas komputasi n², semakin panjang urutan, semakin cepat kompleksitas komputasi tumbuh, dan latensi meningkat dalam kurva kuadratik. Pada panjang 1M, latensi softmax attention adalah 2.700 kali lipat dari lightning attention.

Tantangan teknis apa yang masih perlu diatasi untuk mencapai jendela konteks tak terbatas di masa depan?

Dalam arsitektur hibrida kami saat ini, masih ada 1/8 dari softmax attention. Ini adalah bottleneck pada panjang 1M. Latensi yang dibawa oleh 1/8 ini jauh lebih tinggi daripada 7/8 linear attention yang tersisa.

Jika kita ingin mengoptimalkan teks panjang, kita harus mempertimbangkan untuk mengoptimalkan bagian softmax attention. Kita dapat belajar dari metode sparse attention untuk membuatnya lebih cepat dan lebih ringan.

Selain itu, kami juga mempertimbangkan untuk membuat rasio pencampuran softmax dan linear attention lebih ekstrem, tidak lagi 1/8, tetapi mungkin 1/16 atau 1/32. Solusi paling radikal adalah menempatkan hanya satu lapisan softmax di seluruh model, tetapi untuk asuransi, kami tidak mengadopsinya, terutama mempertimbangkan dampak pada kemampuan pengambilan.

Mengapa kemampuan pengambilan begitu penting bagi model?

Pengambilan adalah dasar dari pembelajaran dalam konteks dan merupakan kondisi yang diperlukan.

Anda harus mengingat informasi dalam konteks untuk melakukan pembelajaran dalam konteks, dan pembelajaran dalam konteks adalah dasar dari semua kemampuan canggih model besar saat ini, seperti CoT (Chain of Thought), terutama CoT panjang, yang semuanya bergantung pada kemampuan pengambilan.

Arsitektur Baru yang Menentukan

Apakah Anda memperhatikan peningkatan arsitektur terbaru di FFN dan attention di industri?

Peningkatan FFN adalah Moe. Saya juga memperhatikan Ultra Mem Byte, tetapi saya pikir itu adalah hal yang merugikan, kompresi yang merugikan. Mungkin ada masalah jika ditingkatkan di masa depan, tetapi kami belum meningkatkannya, jadi saya hanya dapat mengatakan bahwa mungkin ada masalah.

Karena FFN pada dasarnya ini. Peningkatan kami di area Moe tidak lebih dari mengubah dari ahli besar sebelumnya menjadi mode ahli kecil saat ini, membuatnya lebih jarang, dan kemudian melakukan beberapa akselerasi, yang membutuhkan penelitian lebih lanjut.

Jika Anda ingin mengoptimalkannya lebih lanjut, karena FFN adalah perkalian matriks, pengoptimalan hanya dapat dilakukan pada tingkat CUDA oleh Nvidia, melakukan beberapa pengoptimalan tingkat bawah perkalian matriks.

Apakah Anda memperhatikan peningkatan dalam arsitektur attention di industri?

Peningkatan pada attention pada dasarnya adalah linear. Kami juga mempertimbangkan apakah akan membuat Linear yang lebih kuat di masa depan, dan lebih lanjut mempercepat Linear attention atas dasar saat ini.

Ada banyak cara untuk meningkatkan, satu adalah mengubah peluruhan, dan yang lainnya adalah mengubah beberapa trik kecil di dalamnya. Anda dapat menantikan makalah baru kami.

Apakah rasio panjang konteks dan biaya inferensi kita saat ini relatif canggih?

Begitu melibatkan pemanjangan panjang urutan, kita memiliki keuntungan biaya daya komputasi yang sangat jelas. Semakin panjang, semakin jelas keuntungan biayanya, baik itu inferensi atau pelatihan.

Misalnya, pada 1M, daya komputasi yang dikonsumsi oleh linear attention adalah 1/2700 dari full attention. Sebagai perbandingan, karena kita masih memiliki 1/8 dari full attention, itu pada dasarnya 1/8 dari arsitektur transformer, karena linear attention pada dasarnya tidak dihitung sebagai biaya.

Jika biaya perhitungan sangat rendah, dapatkah mencapai bottleneck perhitungan?

Sekarang memang bottleneck akses memori. Decoding adalah bottleneck akses memori, bukan bottleneck perhitungan. Karena lightning sangat cepat, terlalu cepat untuk memungkinkan akses memori menempati sumber daya sesedikit perhitungan. Ini terutama karena panjang urutan dalam aplikasi aktual tidak cukup panjang.

Bagaimana membuatnya menjadi bottleneck perhitungan di masa depan tergantung pada bagaimana mengoptimalkan akses memori. Ini akan menjadi hal-hal yang perlu menjadi tanggung jawab departemen teknik.

Jika arsitektur linear menjadi arsitektur mainstream dari generasi berikutnya, peningkatan adaptasi perangkat keras apa yang lebih cocok untuk itu?

Hal yang sangat rumit di sini adalah kita perlu mempertimbangkan panjang urutan. Jika panjang urutan Anda difokuskan pada 8K atau 32K, maka attention hanya menyumbang sedikit lebih dari sepuluh persen, dan delapan puluh persen sisanya adalah bagian FFN.

Bahkan jika Anda mengoptimalkan attention secara ekstrem, menjadi 0, Anda hanya mengoptimalkan sedikit lebih dari sepuluh persen dari latensi. Tetapi jika Anda memanjangkan panjang urutan, proporsi attention akan menjadi lebih besar dan lebih besar. Ini dibandingkan dengan full attention, tetapi untuk linear attention, proporsinya tidak berubah.

Karena FFN juga linear, dan linear attention juga linear, proporsinya sekitar 10%, yang hampir tidak berubah, bahkan dalam kasus 1M.

Tetapi jika itu adalah full attention, perhitungan attention dapat menyumbang 99%, dan FFN berikut hanya menyumbang 1%. Jadi linear attention hanya memiliki keuntungan dalam teks panjang.

Jika arsitektur linear menjadi mainstream, maka pengejaran mungkin adalah perangkat keras hemat energi, hanya mengurangi konsumsi energi. Termasuk chip Spiking Neural Network (SNN) mungkin lebih cocok, dan beberapa orang sebenarnya melakukannya.

Menantikan Jalan Menuju AGI

Apa harapan Anda untuk efek open-source model?

Yang pertama adalah efek publisitas. Saya pribadi berpikir bahwa selain menunjukkan beberapa otot, hal terpenting untuk open source adalah melihat bagaimana semua orang dapat menggunakannya di masa depan. Saya pikir open source model kecil mungkin adalah apa yang lebih kami pertimbangkan untuk dilakukan di masa depan.

Dan bagaimana membuat beberapa infrastruktur bagi semua orang untuk finetune mungkin juga perlu dipertimbangkan. Open source adalah hal jangka panjang bagi kami di masa depan, dan model unggulan harus terus di-open source-kan.

Apakah mungkin bahwa arsitektur berdarah murni yang tidak hibrida akan habis di masa depan?

Saat ini, tidak ada metode yang dapat melakukan lebih baik daripada hibrida, terutama dalam hal kecepatan. Menambahkan sebagian kecil softmax attention, keuntungan kecepatan sangat jelas ketika panjang urutan tidak terlalu panjang, terutama setelah munculnya flash attention.

Penelitian tentang arsitektur berdarah murni masih berlangsung, tetapi sangat sulit, dan tidak ada lagi buah yang menggantung rendah. Kami memiliki beberapa solusi teknis, tetapi implementasinya tidak sederhana, dan pada akhirnya tergantung pada seberapa panjang urutan yang perlu kita capai.

Pertanyaan lain adalah, apakah ada permintaan yang kuat untuk teks ultra-panjang? Meskipun model seperti Claude telah mencapai konteks 200K, pengguna tampaknya sangat puas dengan panjang saat ini. Aplikasi Agent dapat membawa permintaan untuk urutan ultra-panjang di masa depan, tetapi belum ada benchmark yang matang.

Tetapi saya pikir masalah ini seperti Nvidia mengembangkan kartu grafis kinerja canggih untuk game masa depan, meskipun tidak diperlukan sekarang, itu adalah teknologi untuk masa depan.

Misalnya, penelitian mendalam mengharuskan model untuk membaca konten lusinan situs web, dan waktu pemrosesan dalam urutan puluhan menit, yang mungkin merupakan arah aplikasi untuk teks panjang.

Menurut Anda, apa hal besar berikutnya setelah CoT?

Kami telah memikirkan hal ini. Pertama-tama, model penalaran saat ini relatif populer, dan mainstream tahun ini masih akan menjadi bagian penalaran. Setelah itu, sulit bagi kita untuk memikirkan perubahan yang sangat besar di masa depan model bahasa murni.

Saya juga telah berbicara dengan guru lain, dan perasaan mereka adalah bahwa semua orang akan mengurangi biaya model, sehingga kecepatan penalaran menjadi lebih cepat dan lebih cepat, dan harganya menjadi lebih rendah dan lebih rendah, dan biaya dikurangi sambil mempertahankan efeknya.

Karena langit-langit mendekat dengan cepat, sebagian besar kasus memeriksa dan mengisi celah dalam kemampuan model besar. Tetapi jika ada terobosan teknologi yang lebih besar, mereka mungkin relatif jarang dalam jangka pendek, dan kita belum melihatnya.

Setelah MiniMax menjelajahi linear attention, apa yang mungkin menjadi arah selanjutnya untuk dijelajahi?

Hal selanjutnya mungkin adalah menjelajahi arsitektur multimodal, khususnya apakah kita ingin melakukan arsitektur model besar terpadu generasi dan pemahaman asli ini.

Dengan AGI sebagai titik akhir, model dengan kompleksitas komputasi O(n²) atau O(n) mana yang akan menjadi jawaban yang lebih baik?

Tentu saja, itu adalah O(n). Dari perspektif antropomorfisme, orang harus memiliki kompleksitas O(n). Misalnya, jika kompleksitas seseorang adalah O(n²), maka kecepatan saya berbicara kepada Anda akan menjadi lebih lambat dan lebih lambat.

Karena untuk transformer, kompleksitas inferensinya adalah kompleksitas komputasi O(n²), yaitu, latensi meludahkan token pertama dan meludahkan token ke-100 berbeda.

Kita manusia tidak dapat membayangkan hal seperti itu, karena orang tidak pernah memulai ulang sejak mereka lahir, dan terus meludahkan sesuatu sepanjang waktu, jadi kompleksitas komputasi orang konstan.

Apakah manusia tentu merupakan solusi optimal untuk kecerdasan?

Kita hanya dapat berpikir demikian saat ini. Ada juga beberapa orang yang melakukan rute kecerdasan bionik, tetapi kami belum terlalu memperhatikan arah tersebut.

Dengan AGI sebagai akhir permainan, bidang peningkatan model mana yang merupakan hal terpenting?

Selain pemodelan bahasa, ada juga masalah metode pembelajaran. Bagaimana Anda belajar, dan belajar dari lingkungan, belajar dari interaksi dengan lingkungan sangat penting. Lagi pula, pemahaman multimodal saat ini masih sangat kurang dalam data.

Dan bahkan pembelajaran beberapa-shot mesin saat ini diberi label, tetapi pembelajaran manusia tidak diberi label. Jadi bagaimana menyatukan semuanya di bawah kerangka kerja yang dibangun sendiri juga merupakan masalah.

diperbarui pada 2025-04-19

# LLM # AGI # MiniMax