Perkembangan pesat kecerdasan buatan (AI) telah memicu keyakinan bahawa kita semakin dekat dengan Kecerdasan Umum Buatan (AGI), sebuah pencapaian transformatif. Artikel ini meneroka tujuh teknologi penting, yang serupa dengan Bola Naga dari siri yang digemari, yang penumpuannya berpotensi memanggil “Naga AGI,” merevolusikan dunia seperti yang kita ketahui.
Istilah AGI (Artificial General Intelligence) pertama kali diciptakan pada tahun 1997 oleh Mark Gubrud. Bertahun-tahun kemudian, tontonan robot Boston Dynamics yang melakukan putaran 360 darjah, dan penciptaan novel DeepSeek yang mengingatkan kita pada siri Foundation Isaac Asimov, telah membuat kita sedar bahawa tujuh Bola Naga, yang tersebar di sepanjang sungai panjang kemajuan teknologi, secara beransur-ansur menyusun gambaran lengkap Naga AGI.
Bola Naga Pertama: Rangkaian Neural – Meniru Otak Manusia
Otak manusia, sumber kecerdasan, adalah jaringan rumit yang terdiri dari berbilion neuron. “Bola Naga teknikal” pertama adalah tiruan tepat keajaiban biologi ini: rangkaian saraf tiruan (ANN). Secara sederhana, ANN cuba membina jaringan “neuron” maya menggunakan kod komputer dan model matematik, dengan harapan dapat meniru kemampuan otak manusia untuk memproses maklumat dan mempelajari pengetahuan. Data mengalir dari lapisan input, menjalani pemprosesan kompleks melalui pelbagai lapisan tersembunyi, dan akhirnya menghasilkan hasil di lapisan output. Semakin banyak lapisan, iaitu, “pembelajaran mendalam,” semakin kompleks maklumat yang diproses.
Walaupun konsep ini sudah lama ada, realisasinya yang sebenarnya bergantung pada pertumbuhan eksponensial dari kuasa pengkomputeran komputer dan pengoptimuman algoritma. Ia telah menjadi asas kecerdasan buatan moden. Bayangkan bahawa klasifikasi automatik album di telefon bimbit anda, atau kemampuan pembantu suara untuk memahami arahan anda, semuanya berkat tokoh rangkaian saraf yang bersinar di belakang mereka.
Bola Naga Kedua: Pangkalan Data Vektor – Perpustakaan Siber
Walau bagaimanapun, hanya memiliki “struktur otak” masih jauh dari mencukupi. Kita juga memerlukan “bank memori” yang efisien untuk menyimpan dan mendapatkan kembali sejumlah besar pengetahuan. Pangkalan data tradisional bergantung pada carian kata kunci yang tepat, sehingga sukar untuk memahami maklumat seperti “maksud serupa” atau “berkaitan secara konseptual.” Oleh itu, Bola Naga kedua—Pangkalan Data Vektor—muncul. Pangkalan data ini seperti “perpustakaan siber.” Ia menguruskan pengetahuan dengan cara baru dengan menukar maklumat seperti teks, gambar, dan suara menjadi vektor digital, sehingga maklumat dengan maksud yang serupa berdekatan antara satu sama lain di ruang matematik, sehingga carian kandungan berdasarkan “maksud” dapat direalisasikan. Sekiranya anda ingin mencari buku mengenai “perjalanan angkasa,” ia dapat dengan cepat mengesyorkan semua buku yang berkaitan kepada anda. Banyak aplikasi AI (seperti perkhidmatan pelanggan pintar dan sistem soal jawab dokumen) semakin bergantung pada pangkalan data vektor ini, yang meningkatkan ketepatan dan kecekapan pengambilan maklumat.
Bola Naga Ketiga: Transformer – Perhatian Mesin
Untuk membolehkan mesin benar-benar memahami nuansa bahasa manusia, seperti konteks, subteks, dan permainan kata, mesin mesti memiliki kemampuan “pemahaman bacaan” yang luar biasa. Bola Naga ketiga—seni bina Transformer, terutama “mekanisme perhatian” intinya, memberi mesin kemampuan hampir “membaca minda” ini. Semasa memproses perkataan, Transformer dapat secara serentak memperhatikan semua perkataan lain dalam ayat dan menilai perkataan mana yang paling penting untuk memahami makna perkataan semasa. Ini bukan sahaja mengubah cara mesin membaca, tetapi juga meningkatkan pemprosesan bahasa semula jadi ke tahap yang baru. Sejak penerbitan makalah ‘Attention Is All You Need’ pada tahun 2017, Transformer telah menjadi protagonis mutlak dalam bidang ini, yang melahirkan model pra-latihan yang kuat seperti GPT dan BERT.
Bola Naga Keempat: Rantai Pemikiran – Metodologi untuk Berfikir
Mampu “bercakap” masih jauh dari mencukupi. AGI juga memerlukan kemahiran penalaran logik yang ketat. Bola Naga keempat, teknologi Rantai Pemikiran (CoT), mengajar AI cara menganalisis masalah secara mendalam dan bukan hanya meneka jawapan. Seperti penyelesaian untuk masalah aplikasi, CoT membimbing model untuk menganalisis langkah demi langkah, membentuk “lintasan pemikiran,” dan kemudian memberikan jawapan akhir yang jelas. Kajian oleh Google dan institusi lain menunjukkan bahawa model besar yang menggunakan gesaan CoT berprestasi lebih baik dalam tugas penalaran berbilang langkah, memberikan sokongan yang kuat untuk kemampuan logik AI.
Bola Naga Kelima: Campuran Pakar – Kumpulan Pakar
Apabila jumlah parameter model meningkat, kos latihan dan operasi juga merupakan beban yang besar. Pada masa ini, Bola Naga kelima—seni bina Campuran Pakar (MoE)—muncul. Seni bina ini menggunakan strategi “membahagi dan menakluki”, melatih pelbagai “rangkaian pakar” kecil yang mahir mengendalikan tugas tertentu. Apabila tugas baru tiba, “rangkaian get” pintar hanya mengaktifkan pakar yang diperlukan untuk mengekalkan operasi yang efisien. Dengan cara ini, model AI dapat mencapai skala besar dan prestasi yang kuat dengan kos yang dapat diterima.
Bola Naga Keenam: MCP – Kit Alat Universal
Untuk membentuk AI menjadi “pelakon” sejati, ia perlu dapat memanggil alat dan berhubung dengan dunia luar. Bola Naga keenam—Protokol Konteks Model (MCP)—mengemukakan konsep menambahkan “kit alat” ke AI. Pada dasarnya, ini membolehkan AI memanggil alat luaran melalui antara muka yang diseragamkan untuk mencapai fungsi yang lebih kaya. Ini seperti melengkapkan orang pintar dengan semua alat yang mereka perlukan, membolehkan mereka mencari maklumat dan melaksanakan tugas pada bila-bila masa. Ejen pintar hari ini (AIAgents) mewujudkan ini, kerana AI dapat membantu tugas seperti menempah restoran, merancang perjalanan, dan analisis data, yang tidak diragukan lagi merupakan langkah penting dalam kemajuan AI.
Bola Naga Ketujuh: VSI – Otak Intuisi Fizikal
Untuk berintegrasi ke dalam masyarakat manusia, AI juga mesti mempunyai kemampuan untuk memahami dunia nyata. Bola Naga ketujuh—teknologi berkaitan Kecerdasan Spatial Visual (VSI)—bertujuan untuk membolehkan AI memiliki “otak intuitif” yang memahami hukum fizik. Secara sederhana, VSI membolehkan AI memahami maklumat visual yang diperoleh melalui kamera atau sensor, meningkatkan kognisi hubungan antara objek. Ini adalah asas untuk merealisasikan teknologi seperti pemanduan autonomi, robot pintar, dan realiti maya. Tidak diragukan lagi ini adalah jambatan penting yang menghubungkan kecerdasan digital dan realiti fizikal.
Upacara Memanggil
Apabila ketujuh “Bola Naga teknikal” ini bergabung, garis besar AGI mula menjadi jelas. Bayangkan bahawa struktur biomimetik rangkaian saraf, pengetahuan besar yang berasal dari pangkalan data vektor, pemahaman Transformer terhadap maklumat, pemikiran mendalam dengan bantuan rantai pemikiran, operasi yang efisien melalui seni bina pakar hibrid, dan kemudian digabungkan dengan MCP untuk berinteraksi dengan alat luaran, dan akhirnya menggunakankecerdasan spatial visual untuk memahami dunia material. Gabungan semua teknologi ini akan membantu kita bergerak menuju era baru Naga AGI.
Kuasa Rangkaian Neural
Usaha untuk meniru kemampuan otak manusia telah membawa kepada pengembangan rangkaian saraf yang semakin canggih. Rangkaian ini, yang terdiri daripada nod atau “neuron” yang saling berhubungan, memproses maklumat dalam lapisan, meniru cara neuron biologi menghantar isyarat. Kedalaman rangkaian ini, merujuk kepada jumlah lapisan, adalah faktor penting dalam kemampuan mereka untuk mempelajari corak dan hubungan kompleks daripada data.
Pembelajaran mendalam, subset pembelajaran mesin yang menggunakan rangkaian saraf dalam, telah mencapai kejayaan yang luar biasa dalam pelbagai bidang, termasuk pengecaman imej, pemprosesan bahasa semula jadi, dan pengecaman pertuturan. Contohnya, sistem pengecaman imej yang dikuasakan oleh pembelajaran mendalam dapat mengenal pasti objek dan pemandangan dengan tepat dalam foto, sementara model pemprosesan bahasa semula jadi dapat memahami dan menghasilkan teks seperti manusia.
Kejayaan rangkaian saraf bergantung kepada beberapa faktor utama, termasuk ketersediaan set data besar, kemajuan dalam kuasa pengkomputeran, dan algoritma pengoptimuman inovatif. Sejumlah besar data membolehkan rangkaian mempelajari corak rumit, sementara infrastruktur pengkomputeran yang kuat membolehkan mereka memproses data dengan cekap. Algoritma pengoptimuman, seperti penurunan kecerunan stokastik, menyesuaikan parameter rangkaian untuk meminimumkan ralat dan meningkatkan prestasi.
Peranan Pangkalan Data Vektor
Apabila sistem AI menjadi lebih canggih, keperluan untuk mekanisme penyimpanan dan pengambilan pengetahuan yang efisien menjadi sangat penting. Pangkalan data vektor menangani keperluan ini dengan menyediakan pendekatan baru untuk menyusun dan mengakses maklumat. Tidak seperti pangkalan data tradisional yang bergantung pada carian berasaskan kata kunci, pangkalan data vektor mewakili maklumat sebagai vektor berangka, menangkap makna semantik dan hubungan antara konsep yang berbeza.
Perwakilan vektor ini membolehkan carian berasaskan persamaan, di mana sistem dapat mendapatkan kembali maklumat yang berkaitan secara konseptual dengan pertanyaan, walaupun kata kunci yang tepat tidak ada. Contohnya, carian untuk ‘destinasi pelancongan’ mungkin mengembalikan hasil yang merangkumi ‘tempat percutian,’ ‘tarikan pelancong,’ dan ‘destinasi percutian,’ walaupun istilah khusus tersebut tidak digunakan secara eksplisit dalam pertanyaan.
Pangkalan data vektor sangat berguna dalam aplikasi seperti sistem cadangan, pengambilan kandungan, dan soal jawab. Dalam sistem cadangan, mereka dapat mengenal pasti item yang serupa dengan pilihan masa lalu pengguna, memberikan cadangan yang diperibadikan. Dalam pengambilan kandungan, mereka dapat menampakkan dokumen dan artikel yang relevan berdasarkan kandungan semantik mereka. Dalam soal jawab, mereka dapat memahami maksud soalan dan mendapatkan kembali jawapan yang paling relevan dari pangkalan pengetahuan.
Transformer dan Mekanisme Perhatian
Kemampuan untuk memahami dan menghasilkan bahasa manusia adalah ciri khas kecerdasan. Transformer, seni bina rangkaian saraf revolusioner, telah memajukan bidang pemprosesan bahasa semula jadi dengan ketara. Di tengah-tengah Transformer terletak mekanisme perhatian, yang membolehkan model menumpukan pada bahagian input yang paling relevan semasa memproses urutan perkataan.
Mekanisme perhatian membolehkan model menangkap kebergantungan jarak jauh antara perkataan, yang sangat penting untuk memahami konteks dan makna ayat. Contohnya, semasa memproses ayat ‘Kucing itu duduk di atas tikar,’ mekanisme perhatian dapat membantu model memahami bahawa ‘kucing’ dan ‘tikar’ berkaitan, walaupun dipisahkan oleh perkataan lain.
Transformer telah mencapai hasil terkini dalam pelbagai tugas pemprosesan bahasa semula jadi, termasuk terjemahan mesin, peringkasan teks, dan soal jawab. Model seperti GPT (Generative Pre-trained Transformer) dan BERT (Bidirectional Encoder Representations from Transformers) telah menunjukkan kemampuan yang luar biasa untuk menghasilkan teks yang koheren dan relevan secara kontekstual.
Penaakulan Rantai Pemikiran
Walaupun Transformer cemerlang dalam memahami dan menghasilkan bahasa, mereka sering kekurangan kemampuan untuk melakukan tugas penaakulan yang kompleks. Penaakulan Rantai Pemikiran (CoT) adalah teknik yang meningkatkan kemampuan penaakulan model bahasa besar dengan menggalakkan mereka untuk memecahkan masalah kepada langkah yang lebih kecil dan lebih mudah diurus.
Penaakulan CoT melibatkan mendorong model untuk menunjukkan proses penaakulan mereka secara eksplisit, dan bukan hanya memberikan jawapan akhir. Contohnya, apabila diajukan soalan matematik, model mungkin digesa untuk terlebih dahulu menyatakan formula yang relevan, kemudian menunjukkan langkah-langkah yang terlibat dalam menerapkan formula tersebut, dan akhirnya memberikan jawapan.
Dengan menunjukkan proses penaakulannya secara eksplisit, model lebih mampu mengenal pasti dan membetulkan ralat, yang membawa kepada hasil yang lebih tepat dan boleh dipercayai. Penaakulan CoT telah terbukti meningkatkan prestasi model bahasa besar dalam pelbagai tugas penaakulan, termasuk penaakulan aritmetik, penaakulan logik, dan penaakulan akal sehat.
Campuran Pakar
Apabila model menjadi lebih besar dan lebih kompleks, melatih dan menggunakan model tersebut menjadi semakin mencabar. Campuran Pakar (MoE) adalah seni bina yang menangani cabaran ini dengan membahagikan model besar kepada beberapa model “pakar” yang lebih kecil, masing-masing mengkhususkan diri dalam tugas atau domain tertentu.
Apabila input baru dibentangkan, “rangkaian get” memilih pakar yang paling relevan untuk memproses input. Ini membolehkan model menumpukan sumber pengkomputerannya pada bahagian input yang paling relevan, yang membawa kepada peningkatan kecekapan dan prestasi.
Seni bina MoE telah terbukti berskala hingga model yang sangat besar dengan berbilion atau bahkan trilion parameter. Model besar-besaran ini telah mencapai hasil terkini dalam pelbagai tugas, menunjukkan kuasa pengkomputeran dan pengkhususan teragih.
Protokol Konteks Model
Untuk benar-benar mengintegrasikan AI ke dalam dunia nyata, ia perlu dapat berinteraksi dengan alat dan perkhidmatan luaran. Protokol Konteks Model (MCP) adalah rangka kerja yang membolehkan model AI mengakses dan menggunakan alat luaran dengan cara yang diseragamkan dan terkawal.
MCP mentakrifkan satu set protokol dan antara muka yang membolehkan model AI menemui dan berinteraksi dengan alat luaran. Ini membolehkan model melakukan pelbagai tugas, seperti mengakses maklumat dari web, mengawal peranti fizikal, dan berinteraksi dengan aplikasi perisian lain.
Dengan menyediakan model AI dengan akses ke alat luaran, MCP memperkasakan mereka untuk menyelesaikan masalah kompleks yang memerlukan interaksi dengan dunia nyata. Ini membuka kemungkinan baru untuk AI dalam bidang seperti robotik, automasi, dan interaksi manusia-komputer.
Kecerdasan Spatial Visual
Memahami dunia fizikal adalah aspek penting dalam kecerdasan. Kecerdasan Spatial Visual (VSI) adalah bidang yang memberi tumpuan kepada membolehkan model AI melihat, memahami, dan menaakul tentang aspek visual dan spatial dunia.
VSI melibatkan teknik seperti pengecaman objek, pemahaman adegan, dan penaakulan spatial. Pengecaman objek membolehkan model AI mengenal pasti dan mengklasifikasikan objek dalam imej dan video. Pemahaman adegan membolehkan mereka mentafsir hubungan antara objek dan konteks keseluruhan adegan. Penaakulan spatial membolehkan mereka menaakul tentang sifat spatial objek dan hubungan mereka, seperti saiz, bentuk, dan kedudukan mereka.
VSI adalah penting untuk aplikasi seperti pemanduan autonomi, robotik, dan realiti tambahan. Dalam pemanduan autonomi, ia membolehkan kenderaan melihat dan mengemudi persekitaran mereka. Dalam robotik, ia membolehkan robot memanipulasi objek dan berinteraksi dengan persekitaran mereka. Dalam realiti tambahan, ia membolehkan objek maya disepadukan dengan lancar ke dalam dunia nyata.
Penumpuan ketujuh-tujuh teknologi ini – rangkaian saraf, pangkalan data vektor, Transformer, penaakulan Rantai Pemikiran, Campuran Pakar, Protokol Konteks Model, dan Kecerdasan Spatial Visual – mewakili langkah penting ke arah mencapai Kecerdasan Umum Buatan. Walaupun cabaran masih ada, kemajuan yang dicapai dalam beberapa tahun kebelakangan ini tidak dapat dinafikan, membawa kita lebih dekat ke masa depan di mana AI benar-benar dapat memahami, menaakul, dan berinteraksi dengan dunia dengan cara seperti manusia.