Perintis di Laluan Teknikal Bukan Arus Perdana
Bolehkah anda memperkenalkan diri secara ringkas?
Saya Zhong Yiran, Pengarah Penyelidikan Kanan di MiniMax, di mana saya terutamanya menyelia reka bentuk seni bina rangkaian dan model besar pemahaman multimodal. Di MiniMax, tanggungjawab utama saya adalah untuk memimpin reka bentuk struktur rangkaian MiniMax-01.
Sebelum ini, saya berkhidmat sebagai PI untuk Kumpulan Penerokaan Seni Bina Baharu di Makmal Kecerdasan Buatan Shanghai, memfokuskan pada kaedah pemodelan latihan yang cekap untuk seni bina bukan transformer dan penyelidikan mengenai gabungan multimodal visual-audio-bahasa.
Bilakah anda mula menyelidik perhatian linear, dan mengapa anda memilih laluan teknikal ini?
Saya mula menyelidik perhatian linear sekitar Julai 2021. Ini berpunca daripada kertas kerja yang saya usahakan untuk PhD saya pada tahun 2020, “Invertible Attention.” Pada masa itu, kedua-dua rangkaian saraf invertible dan mekanisme perhatian agak popular, jadi kami menggabungkannya dalam penyelidikan kami.
Kemudian, beberapa ahli pasukan kami menjadi sangat berminat dalam matematik. Kaedah pemodelan jujukan yang cekap seperti perhatian linear memerlukan asas matematik yang kukuh dan melibatkan banyak terbitan formula, yang sejajar dengan minat pasukan, jadi kami memilih arah ini.
Apakah status perhatian linear dalam industri pada masa itu?
Ia sangat bukan arus perdana, dengan sedikit orang yang mengusahakannya. Kebanyakan penyelidik memberi tumpuan kepada transformer, yang pada dasarnya telah menjadi kuasa dominan dalam NLP.
Kami berfikir bahawa daripada menjadi wajah lain dalam orang ramai yang melakukan penyelidikan transformer, kami harus melakukan sesuatu yang berbeza.
Bagaimanakah anda menilai potensi teknikal laluan perhatian linear?
Motivasi awal kami adalah mudah: untuk menangani kerumitan pengiraan kuadratik transformer. Kami menguji pelbagai kaedah, termasuk transformer jarang dan perhatian linear.
Kami mendapati bahawa transformer jarang berfungsi, menawarkan kelajuan yang lebih pantas dan penggunaan memori yang lebih rendah berbanding transformer. Walau bagaimanapun, perhatian linear berprestasi buruk dan juga perlahan. Walaupun begitu, kami memilih untuk meneruskan perhatian linear.
Satu sebab ialah daya tarikan matematik - kami percaya prestasinya sepatutnya lebih baik. Yang satu lagi ialah kami merasakan had atas perhatian jarang adalah perhatian penuh, menjadikannya sukar untuk dilampaui. Sebaliknya, perhatian linear berpotensi untuk melepasinya.
Bolehkah anda menjelaskan apakah perhatian linear itu?
Perhatian linear pada dasarnya adalah silap mata kernel. Dalam transformer, mendarab matriks Q, K, dan V melibatkan kerumitan pengiraan yang berbeza bergantung pada sama ada anda mendarab QK dahulu atau KV dahulu, disebabkan oleh dimensi yang berbeza.
Mendarab KV dahulu boleh mengurangkan kerumitan pengiraan kepada linear. Walau bagaimanapun, masalahnya ialah pendaraban QK diikuti oleh operasi softmax, yang tidak memenuhi sifat komutatif dan tidak boleh dibahagikan dengan mudah kepada mendarab KV dahulu. Oleh itu, langkah pertama dalam perhatian linear adalah untuk mengalih keluar softmax.
Tetapi mengalih keluar softmax menjejaskan hasilnya. Tugas seterusnya adalah untuk mengekalkan konsistensi dalam keputusan tanpa softmax, itulah yang ingin dicapai oleh perhatian linear.
Apakah perbezaan asas antara perhatian linear, perhatian jarang, dan seni bina RNN linear?
Perhatian jarang masih merupakan perhatian softmax. Ia hanya mengira lebih sedikit mata daripada matriks perhatian padat. Contohnya, perhatian tetingkap gelongsor hanya mengira skor perhatian dalam tetingkap, mencapai pecutan dengan mengurangkan jumlah pengiraan.
RNN linear dan perhatian linear pada dasarnya adalah perkara yang sama, hanya dipanggil RNN oleh sesetengah orang dan perhatian oleh yang lain.
Segala-galanya boleh ditulis dalam bentuk RNN. Contohnya, perhatian kilat sepadan dengan RWKV-4, manakala RWKV-7 ialah versi yang dipertingkatkan bagi net delta gated. Walaupun pada dasarnya serupa, butiran pelaksanaannya berbeza.
Apakah pencapaian utama dalam penyelidikan mekanisme perhatian linear?
Sekitar 2018-19, penyelidikan menunjukkan bahawa kerumitan pengiraan teori perhatian softmax transformer boleh dikurangkan menggunakan helah kernel, tetapi hasilnya kurang baik, dan kecekapan adalah rendah.
Pada 2019-20, perhatian jarang adalah dominan, dengan syarikat seperti Google mencadangkan banyak varian perhatian jarang. Kemudian, perhatian linear mula muncul, tetapi ia menghadapi cabaran prestasi yang buruk dan kelajuan yang perlahan.
Penyelidik terutamanya menggunakan dua pendekatan untuk penambahbaikan: satu adalah untuk menghampiri fungsi softmax, menjadikan taburan mematuhi softmax; yang lain, yang kami pilih, adalah untuk memodelkan menggunakan kaedah yang sama sekali berbeza, tanpa mengambil berat tentang menghampiri softmax.
Kami menerbitkan kertas kerja pertama kami, “COSFORMER: RETHINKING SOFTMAX IN ATTENTION,” pada Oktober 2021, yang menggantikan operasi softmax dengan fungsi kosinus, membenarkan pengiraan dipecahkan.
Pada separuh pertama tahun 2022, kami menerbitkan kertas kerja kedua, “The Devil in Linear Transformer,” yang menganalisis sebab-sebab penurunan prestasi perhatian linear dan memberikan penyelesaian. Ini adalah pelopor kepada perhatian kilat.
Kemudian, kami juga menyelidik pengekodan kedudukan khusus untuk perhatian linear dan konvolusi panjang, menerbitkan TNN, “TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING,” kaedah yang serupa dengan S4 (pelopor Mamba).
Akhir sekali, kami melancarkan perhatian kilat, yang sepadan dengan prestasi transformer melalui kaedah pereputan yang dipertingkatkan dan struktur rangkaian. Kami juga menggunakan teknik jubin untuk menjadikannya lebih pantas.
Apakah pendapat anda tentang laluan teknikal seni bina bukan transformer semasa?
Perhatian linear sebenarnya adalah kaedah bukan transformer. Pada masa ini, selain daripada pendekatan seperti RNN, seni bina bukan transformer lain semakin merosot.
Contohnya, CNN seperti konvolusi panjang dan konvolusi kernel besar, terasa seperti ia telah dihapuskan secara beransur-ansur disebabkan oleh prestasi yang buruk, tetapi ia sebenarnya agak kuat dalam aspek tertentu, masih mempunyai kesan dalam pemodelan jujukan, seperti tugas pengesanan anomali.
Sebenarnya hanya terdapat tiga seni bina bukan transformer: perhatian linear, konvolusi panjang, dan RNN linear.
Tetapi pada hakikatnya, ketiga-tiga ini boleh disatukan menjadi satu, yang kami panggil model kerumitan linear. Kami menulis artikel yang merangkumi ketiga-tiganya.
Apakah perbezaan teras antara perhatian kilat dan Mamba dan RWKV?
Perbezaan yang paling teras ialah perhatian kilat adalah perhatian linear yang paling mudah. Mamba dan RWKV kedua-duanya menggunakan pereputan bergantung data, manakala perhatian kilat menggunakan pereputan buatan tangan untuk kelajuan.
Walaupun pereputan yang boleh dipelajari boleh mencapai hasil yang lebih baik, ia mengorbankan kelajuan. Contohnya, RWKV-7 adalah 10-15% lebih perlahan daripada net delta gating, manakala net delta gating adalah kira-kira separuh kelajuan perhatian kilat.
Kesan pemodelan RWKV sememangnya lebih baik daripada perhatian kilat, tetapi ia lebih perlahan dan belum menyelesaikanmasalah mendapatkan semula.
Adakah kini terdapat konsensus industri bahawa perhatian linear mempunyai had atas yang tinggi dan boleh dilaksanakan?
Tidak, jika ia adalah konsensus, semua orang akan meningkatkan model perhatian linear. Dan ia juga bukan konsensus sekarang. Jika ya, semua orang akan melakukan linear, tetapi seperti yang anda lihat, itu tidak berlaku.
Tetapi bagi kami, kami sudah melihat ini pada separuh kedua tahun 2023. Pada masa itu, saya bertanya kepada ramai orang dan bercakap dengan ramai orang, dan perkara yang paling biasa yang mereka bangkitkan ialah mereka tahu perhatian linear berfungsi pada skala kecil, tetapi mereka merasakan ia akan gagal apabila diperbesarkan.
Pada masa itu, saya fikir saya akan memperbesarkannya untuk dilihat oleh semua orang. Sekarang MiniMax-01 telah keluar, tiada siapa yang meragui keupayaan perhatian linear pada skala yang besar.
Dari Eksperimen Kecil ke Pelaksanaan Berskala Besar
Adakah anda fikir had atas perhatian linear boleh mengatasi perhatian penuh?
Kita kini dapat melihat bahawa seni bina hibrid lebih baik daripada transformer tulen. Tetapi masalah terbesar dengan perhatian linear tulen ialah keupayaan mendapatkan semula, yang merupakan masalah yang sukar untuk diselesaikan oleh ahli akademik.
Kaedah sedia ada, walaupun kompleks dan perlahan, masih tidak dapat menyelesaikannya sepenuhnya, itulah sebabnya perlu beralih ke arah seni bina hibrid.
Apakah nod yang anda perhatikan yang membuatkan anda memutuskan untuk keluar dari makmal?
Pada Mei-Jun 2023, kami sudah mempunyai perhatian kilat 2 secara dalaman, yang merupakan pelaksanaan perhatian linear pertama di dunia yang lebih pantas daripada Flash attention.
Kami percaya ia telah melepasi garis merah industri, dan kematangan teknologinya sangat tinggi dan boleh diperbesarkan.
Bagaimanakah anda mentakrifkan garis merah industri ini?
Pertama, kesannya lebih baik daripada transformer, dan kedua, ia lebih pantas daripada transformer. Ini memberikannya keupayaan untuk menggantikan transformer. Kami mengesahkan ini pada model padat skala 15B pada masa itu.
Pada nod apabila anda keluar dari makmal, mengapa anda akhirnya bersatu dengan MiniMax?
Sebenarnya, saya telah bercakap dengan beberapa syarikat besar pada masa itu. Tetapi pada akhirnya, saya masih merealisasikannya dengan MiniMax.
Pertama sekali, cosformer adalah artikel yang saya bekerjasama dengan Junjie. Kami mempunyai asas untuk kerjasama. Junjie adalah bos saya ketika dia berada di SenseTime. Pada akhir tahun 23, Junjie menjemput saya makan malam. Dia lebih yakin dengan kemungkinan teknologi canggih ini. Pemahaman saya ialah dia juga sedang mencari kejayaan teknikal pada masa itu.
Pada masa itu, MiniMax telah menyelesaikan penyelidikan mengenai Moe, dan sebenarnya terdapat sangat sedikit titik kejayaan teknikal untuk langkah seterusnya. Pada masa itu, perhatian kilat telah dikeluarkan, dan mamba juga popular, jadi di matanya, ia adalah arah yang boleh dilaksanakan.
Adakah ini berkaitan dengan produk teman interaktif MiniMax?
Tiada sambungan. Yan Junjie lebih mengambil berat tentang had atas model dan cara untuk memecahkan siling ini dengan lebih lanjut.
Perhatian linear mungkin lebih merupakan arah untuk menembusi kecekapan di mata umum, dan bukannya memecahkan siling.
Perkara di sini ialah, pertama sekali, kuasa pengkomputeran setiap pengeluar adalah malar. Semakin pantas model itu boleh dipercepatkan, semakin banyak data yang boleh dimakannya, dan semakin baik model yang dihasilkan. Apabila kuasa pengkomputeran adalah malar, semakin pantas model itu, semakin baik.
Adakah anda telah memerhatikan situasi di mana data telah memuncak?
Belum lagi, kan? Data masih dalam peringkat penskalaan berterusan, tetapi ia mungkin tidak seagresif pada tahun 23.
Kerana data sentiasa meningkat, dan data baharu keluar setiap hari. Bagi model, ia mempunyai data baharu untuk diproses setiap hari. Data yang dihasilkan oleh Internet setiap hari sangat banyak. Melalui pembersihan, kita masih boleh mendapatkan data baharu.
Berbanding dengan data yang telah wujud selama bertahun-tahun pembangunan manusia, adakah kadar pertumbuhan data telah perlahan?
Sebenarnya, tidak semestinya. Lihat lima ribu tahun sejarah China, dan hanya beberapa buku itu telah terkumpul. Tetapi dengan perkembangan Internet, peningkatan dalam volum data adalah lengkung yang sangat curam. Jumlah keseluruhan data yang dijana sebelum Internet mungkin tidak sebanyak data yang dijana dalam satu tahun kemudian.
Semasa proses peningkatan skala, apakah cabaran yang dihadapi oleh perhatian kilat?
Untuk mengesahkan kebolehskalaannya, kami pertama kali melakukan eksperimen undang-undang penskalaan, secara beransur-ansur berkembang daripada model kecil kepada 7B, 9B, dan akhirnya meningkat kepada model dengan lebih daripada 400B.
Dan kami secara teorinya membuktikan bahawa kapasiti linear lebih besar daripada transformer.
Kami mentakrifkan kapasiti sebagai saiz keadaan semasa RNN. Untuk transformer, saiz kapasiti ialah O(d), di mana d ialah saiz; untuk perhatian linear, saiz kapasiti ialah d²/h. Memandangkan d jauh lebih besar daripada h, kapasiti lebih besar.
Akhirnya, kami juga mengesahkan bahawa model hibrid lebih baik daripada transformer tulen.
Bagaimanakah tetingkap jujukan panjang 4M dicapai?
Untuk kilat, panjang latihan boleh menjadi sewenang-wenangnya. Selagi kuasa pengkomputeran digunakan sepenuhnya, kelajuan latihan 8K, 32K, atau 128K adalah sama, dan TGS (token per GPU sesaat) adalah sama.
Kerana transformer adalah kerumitan pengiraan n², semakin panjang jujukan, semakin cepat kerumitan pengiraan berkembang, dan kependaman meningkat dalam lengkung kuadratik. Pada panjang 1M, kependaman perhatian softmax adalah 2,700 kali ganda daripada perhatian kilat.
Apakah cabaran teknikal yang masih perlu ditangani untuk mencapai tetingkap konteks tak terhingga pada masa hadapan?
Dalam seni bina hibrid kami sekarang, masih terdapat 1/8 daripada perhatian softmax. Ini adalah leher botol pada panjang 1M. Kependaman yang dibawa oleh 1/8 ini jauh lebih tinggi daripada baki 7/8 perhatian linear.
Jika kita ingin mengoptimumkan teks panjang, kita mesti mempertimbangkan untuk mengoptimumkan bahagian perhatian softmax. Kita boleh belajar daripada kaedah perhatian jarang untuk menjadikannya lebih pantas dan ringan.
Selain itu, kami juga mempertimbangkan untuk menjadikan nisbah campuran softmax dan perhatian linear lebih ekstrem, bukan lagi 1/8, tetapi mungkin 1/16 atau 1/32. Penyelesaian yang paling radikal ialah meletakkan hanya satu lapisan softmax dalam keseluruhan model, tetapi untuk insurans, kami tidak menggunakannya, terutamanya memandangkan impak ke atas keupayaan mendapatkan semula.
Mengapa keupayaan mendapatkan semula begitu penting kepada model?
Mendapatkan semula adalah asas pembelajaran dalam konteks dan merupakan syarat yang perlu.
Anda mesti mengingati maklumat dalam konteks untuk melakukan pembelajaran dalam konteks, dan pembelajaran dalam konteks adalah asas semua keupayaan lanjutan model besar semasa, seperti CoT (Chain of Thought), terutamanya CoT panjang, yang semuanya bergantung pada keupayaan mendapatkan semula.
Seni Bina Baharu yang Menentukan
Adakah anda telah memberi perhatian kepada penambahbaikan seni bina terkini dalam FFN dan perhatian dalam industri?
Penambahbaikan FFN ialah Moe. Saya juga memberi perhatian kepada Ultra Mem Byte, tetapi saya fikir ia adalah perkara yang merugikan, pemampatan yang merugikan. Mungkin terdapat masalah jika ia ditingkatkan pada masa hadapan, tetapi kami belum meningkatkannya, jadi saya hanya boleh mengatakan bahawa mungkin terdapat masalah.
Kerana FFN pada dasarnya adalah ini. Penambahbaikan kami dalam bidang Moe tidak lebih daripada bertukar daripada pakar besar sebelumnya kepada mod pakar kecil semasa, menjadikannya lebih jarang, dan kemudian melakukan beberapa pecutan, yang memerlukan penyelidikan lanjut.
Jika anda ingin mengoptimumkannya lebih lanjut, kerana FFN ialah pendaraban matriks, pengoptimuman hanya boleh dilakukan pada tahap CUDA oleh Nvidia, melakukan beberapa pengoptimuman pendaraban matriks peringkat bawah.
Adakah anda telah memberi perhatian kepada penambahbaikan dalam seni bina perhatian dalam industri?
Penambahbaikan pada perhatian pada dasarnya adalah linear. Kami juga mempertimbangkan sama ada untuk membuat Linear yang lebih kuat pada masa hadapan, dan mempercepatkan lagi perhatian Linear atas dasar semasa.
Terdapat banyak cara untuk meningkatkan, satu adalah untuk menukar pereputan, dan yang lain adalah untuk menukar beberapa helah kecil di dalamnya. Anda boleh menantikan kertas kerja baharu kami.
Adakah nisbah panjang konteks dan kos inferens kami sekarang agak maju?
Sebaik sahaja ia melibatkan pemanjangan panjang jujukan, kami mempunyai kelebihan kos kuasa pengkomputeran yang sangat jelas. Semakin panjang ia, semakin jelas kelebihan kos, sama ada inferens atau latihan.
Contohnya, pada 1M, kuasa pengkomputeran yang digunakan oleh perhatian linear ialah 1/2700 daripada perhatian penuh. Sebagai perbandingan, kerana kami masih mempunyai 1/8 daripada perhatian penuh, ia pada asasnya 1/8 daripada seni bina transformer, kerana perhatian linear pada asasnya tidak dikira sebagai perbelanjaan.
Jika kos pengiraan begitu rendah, bolehkah ia mencapai leher botol pengiraan?
Sekarang ia sememangnya leher botol akses memori. Nyahkod adalah leher botol akses memori, bukan leher botol pengiraan. Kerana kilat sangat pantas, ia terlalu pantas untuk membenarkan akses memori untuk menduduki sumber yang lebih sedikit daripada pengiraan. Ini terutamanya kerana panjang jujukan dalam aplikasi sebenar tidak mencukupi.
Cara untuk menjadikannya leher botol pengiraan pada masa hadapan bergantung pada cara untuk mengoptimumkan akses memori. Ini akan menjadi perkara yang jabatan kejuruteraan perlu bertanggungjawab.
Jika seni bina linear menjadi seni bina arus perdana generasi seterusnya, apakah penambahbaikan penyesuaian perkakasan yang lebih sesuai untuknya?
Perkara yang sangat rumit di sini ialah kita perlu mempertimbangkan panjang jujukan. Jika panjang jujukan anda tertumpu pada 8K atau 32K, maka perhatian hanya menyumbang sedikit lebih sepuluh peratus, dan baki lapan puluh peratus adalah bahagian FFN.
Walaupun anda mengoptimumkan perhatian kepada yang ekstrem, kepada 0, anda hanya mengoptimumkan sedikit lebih sepuluh peratus daripada kependaman. Tetapi jika anda memanjangkan panjang jujukan, perkadaran perhatian akan menjadi lebih besar dan lebih besar. Ini dibandingkan dengan perhatian penuh, tetapi untuk perhatian linear, perkadarannya tidak berubah.
Kerana FFN juga linear, dan perhatian linear juga linear, perkadarannya adalah kira-kira 10%, yang hampir tidak berubah, walaupun dalam kes 1M.
Tetapi jika ia adalah perhatian penuh, pengiraan perhatian mungkin menyumbang 99%, dan FFN berikut hanya menyumbang 1%. Jadi perhatian linear hanya mempunyai kelebihan dalam teks yang panjang.
Jika seni bina linear menjadi arus perdana, maka usaha itu mungkin adalah perkakasan tenaga rendah, hanya mengurangkan penggunaan tenaga. Termasuk cip Spiking Neural Network (SNN) mungkin lebih sesuai, dan sesetengah orang sebenarnya melakukannya.
Menantikan Jalan ke AGI
Apakah harapan anda untuk kesan sumber terbuka model?
Yang pertama ialah kesan publisiti. Saya secara peribadi berpendapat bahawa selain daripada menunjukkan beberapa otot, perkara yang paling penting untuk sumber terbuka adalah untuk melihat bagaimana semua orang boleh menggunakannya pada masa hadapan. Saya fikir sumber terbuka model kecil mungkin menjadi apa yang lebih kami pertimbangkan untuk lakukan pada masa hadapan.
Dan cara untuk membuat beberapa infrastruktur untuk semua orang memperhalusi mungkin juga perlu dipertimbangkan. Sumber terbuka adalah perkara jangka panjang bagi kami pada masa hadapan, dan model perdana harus terus menjadi sumber terbuka.
Adakah mungkin seni bina darah tulen yang bukan hibrid akan habis pada masa hadapan?
Pada masa ini, tiada kaedah yang boleh melakukan lebih baik daripada hibrid, terutamanya dari segi kelajuan. Menambah sebahagian kecil daripada perhatian softmax, kelebihan kelajuan sangat jelas apabila panjang jujukan tidak terlalu panjang, terutamanya selepas kemunculan perhatian kilat.
Penyelidikan mengenai seni bina darah tulen masih berterusan, tetapi ia sangat sukar, dan tidak ada lagi buah-buahan yang tergantung rendah. Kami mempunyai beberapa penyelesaian teknikal, tetapi pelaksanaannya tidak mudah, dan akhirnya bergantung pada berapa lama panjang jujukan yang perlu kita capai.
Satu lagi soalan ialah, adakah terdapat permintaan yang kukuh untuk teks ultra panjang? Walaupun model seperti Claude telah mencapai konteks 200K, pengguna nampaknya sangat berpuas hati dengan panjang semasa. Aplikasi ejen mungkin membawa permintaan untuk jujukan ultra panjang pada masa hadapan, tetapi belum ada penanda aras yang matang.
Tetapi saya fikir masalah ini adalah seperti Nvidia membangunkan kad grafik prestasi lanjutan untuk permainan masa hadapan, walaupun ia tidak diperlukan sekarang, ia adalah teknologi untuk masa hadapan.
Contohnya, penyelidikan mendalam memerlukan model untuk membaca kandungan berpuluh-puluh tapak web, dan masa pemprosesan adalah pada urutan puluhan minit, yang mungkin merupakan arah aplikasi untuk teks panjang.
Apakah yang anda fikir perkara besar seterusnya selepas CoT?
Kami telah memikirkan perkara ini. Pertama sekali, model penaakulan semasa agak popular, dan arus perdana tahun ini masih akan menjadi bahagian penaakulan. Selepas itu, sukar bagi kita untuk memikirkan sebarang perubahan yang sangat besar pada masa hadapan model bahasa tulen.
Saya juga telah bercakap dengan guru-guru lain, dan perasaan mereka ialah semua orang akan mengurangkan kos model, supaya kelajuan penaakulan menjadi lebih pantas dan lebih pantas, dan harganya menjadi lebih rendah dan lebih rendah, dan kos dikurangkan sambil mengekalkan kesan.
Kerana siling semakin menghampiri dengan cepat, sebahagian besar kes menyemak dan mengisi jurang dalam keupayaan model besar. Tetapi jika terdapat kejayaan teknologi yang lebih besar, ia mungkin agak jarang dalam jangka masa pendek, dan kami belum melihatnya lagi.
Selepas MiniMax meneroka perhatian linear, apakah arah seterusnya yang boleh diterokai?
Perkara seterusnya mungkin untuk meneroka seni bina multimodal, khususnya sama ada kita mahu melakukan penjanaan dan pemahaman asli ini yang menyatukan seni bina model besar.
Dengan AGI sebagai titik akhir, model dengan kerumitan pengiraan O(n²) atau O(n) manakah yang akan menjadi jawapan yang lebih baik?
Sudah tentu, ia adalah O(n). Dari perspektif antropomorfisme, manusia mestilah kerumitan O(n). Contohnya, jika kerumitan seseorang ialah O(n²), maka kelajuan saya bercakap dengan anda akan menjadi lebih perlahan dan lebih perlahan.
Kerana untuk transformer, kerumitan inferensnya ialah kerumitan pengiraan O(n²), iaitu, kependaman meludah token pertama dan meludah token ke-100 adalah berbeza.
Kita manusia tidak dapat membayangkan perkara sedemikian, kerana manusia tidak pernah memulakan semula sejak mereka dilahirkan, dan telah meludahkan perkara sepanjang masa, jadi kerumitan pengiraan manusia adalah malar.
Adakah manusia semestinya penyelesaian optimum untuk kecerdasan?
Kita hanya boleh berfikir demikian pada masa ini. Terdapat juga beberapa orang yang melakukan laluan kecerdasan bionik, tetapi kami tidak memberi terlalu banyak perhatian kepada arah tersebut.
Dengan AGI sebagai permainan akhir, bidang penambahbaikan model manakah yang merupakan perkara yang paling penting?
Selain daripada pemodelan bahasa, terdapat juga masalah kaedah pembelajaran. Bagaimana anda belajar, dan belajar daripada persekitaran, belajar daripada interaksi dengan persekitaran sangat penting. Lagipun, pemahaman multimodal semasa masih sangat kekurangan data.
Dan walaupun pembelajaran beberapa tembakan mesin pada masa ini dilabelkan, tetapi pembelajaran manusia tidak berlabel. Jadi bagaimana untuk menyatukan segala-galanya di bawah rangka kerja yang dibina sendiri juga merupakan satu masalah.