Era Agent AI Terhubung: MCP & Protokol A2A

Kebangkitan Konsep Agent

Dalam beberapa tahun terakhir, dengan peluncuran server GitHub MCP oleh Microsoft, rilis protokol komunikasi antar-agen A2A oleh Google, dan peluncuran server MCP oleh Alipay, bidang Agent (agen cerdas) menerima perhatian pasar yang belum pernah terjadi sebelumnya. Meskipun definisi Agent belum sepenuhnya disepakati, tiga komponen inti yang diusulkan oleh mantan peneliti OpenAI, Lilian Weng, yaitu ‘perencanaan’, ‘memori’, dan ‘penggunaan alat’, diakui secara luas dan menjadi elemen kunci untuk memahami Agent.

Di bidang kecerdasan buatan, konsep Agent bukanlah hal baru, tetapi dengan perkembangan pesat model bahasa besar (LLM), prospek aplikasi Agent telah mengantarkan terobosan baru. Agent dapat dianggap sebagai sistem cerdas yang mampu merasakan lingkungan, merencanakan secara mandiri, dan menjalankan tugas. Intinya adalah mampu mensimulasikan proses pengambilan keputusan manusia dan menggunakan berbagai alat dan sumber daya untuk mencapai tujuan yang ditetapkan.

Status Pengembangan Agent Saat Ini: Potensi Besar, Tingkat Penetrasi Perlu Ditingkatkan

Sebagai versi evolusi dari chatbot, sebagian besar aplikasi Agent saat ini diintegrasikan ke dalam layanan berbayar model besar, dan hanya sedikit Agent seperti Manus dan Devin yang menyediakan layanan berbayar independen. Meskipun demikian, Agent dengan kemampuan perencanaan mandiri seperti Deep Research dan Manus masih memiliki banyak batasan dalam penggunaan, dan jumlah pengguna yang benar-benar dapat mengalaminya mungkin tidak banyak. Jalan masih panjang sebelum munculnya aplikasi ‘laris’.

Namun, dengan peningkatan berkelanjutan dari kemampuan inferensi model besar, Agent secara bertahap menjadi fokus inovasi aplikasi. Semakin banyak pengembang dan peneliti mulai menjelajahi aplikasi Agent di berbagai bidang, seperti asisten cerdas, proses otomatis, analisis data, dan sebagainya. Potensi Agent secara bertahap digali, dan ruang pengembangan di masa depan sangat luas.

Aplikasi Skala Besar Agent Akan Segera Hadir: Didorong oleh Banyak Kondisi yang Menguntungkan

Terobosan di Ujung Pelatihan Model

  • Jendela Konteks Tumbuh Pesat: Jendela konteks (Context Window) dari model besar mengacu pada panjang teks maksimum yang dapat dipertimbangkan model saat memproses teks. Dengan kemajuan teknologi, jendela konteks model tumbuh dengan cepat, yang berarti model dapat lebih memahami konteks teks panjang, sehingga membuat keputusan yang lebih akurat.
  • Aplikasi Mendalam dari Pembelajaran Penguatan: Pembelajaran penguatan adalah metode untuk melatih Agent melalui hadiah dan hukuman. Dalam beberapa tahun terakhir, pembelajaran penguatan telah banyak digunakan dalam pelatihan Agent, memungkinkan Agent untuk beradaptasi dengan lebih baik ke lingkungan yang kompleks dan mempelajari strategi optimal.
  • Model Inferensi Semakin Matang: Model inferensi adalah komponen inti dari Agent, yang bertanggung jawab untuk membuat inferensi dan penilaian berdasarkan informasi yang dimasukkan. Dengan pendalaman penelitian, model inferensi menjadi semakin matang, mampu mendukung aplikasi Agent yang beragam dengan lebih baik.

Perkembangan Pesat Ekosistem

  • Protokol Seperti MCP dan A2A Berkembang Pesat: MCP (Model Communication Protocol) dan A2A (Agent-to-Agent) adalah dua protokol komunikasi Agent penting. Perkembanganpesat dari protokol ini memungkinkan Agent untuk lebih mudah memanggil berbagai alat dan layanan, sehingga mencapai fungsi yang lebih kompleks.
  • Agent Memanggil Alat Menjadi Lebih Nyaman: Dengan kemajuan teknologi, cara Agent memanggil alat dan layanan eksternal menjadi semakin nyaman. Misalnya, melalui API (Application Programming Interface), Agent dapat dengan mudah mengakses berbagai sumber data dan layanan online, sehingga memperluas kemampuannya.

Pada November 2024, Anthropic merilis dan membuka sumber protokol MCP, yang bertujuan untuk menstandarisasi bagaimana data dan alat eksternal memberikan konteks ke model. Langkah ini akan sangat mempromosikan pengembangan ekosistem Agent, memungkinkan Agent untuk memanfaatkan sumber daya eksternal dengan lebih baik.

MCP dan A2A: Kunci Interkoneksi Agent

Protokol MCP: Menghubungkan Agent dengan Dunia Luar

Tujuan utama dari protokol MCP adalah untuk mewujudkan ‘interkoneksi satu klik’ antara Agent dan data dan alat eksternal. Melalui protokol MCP, Agent dapat dengan mudah mengakses berbagai sumber daya eksternal, seperti database, API, layanan Web, dan sebagainya. Hal ini memungkinkan Agent untuk lebih memahami lingkungan dan membuat keputusan yang lebih bijaksana.

Protokol A2A: Membangun Jembatan Komunikasi Antar-Agent

Tujuan dari protokol A2A adalah untuk mewujudkan komunikasi antar-Agent. Melalui protokol A2A, Agent dapat berkolaborasi satu sama lain untuk menyelesaikan tugas yang kompleks secara bersama-sama. Ini sangat penting untuk membangun sistem cerdas terdistribusi.

Meskipun tujuan dari protokol A2A adalah komunikasi antar-Agent, dan MCP adalah untuk Agent dengan alat dan data eksternal, dalam situasi kompleks di mana ‘alat juga dapat dikemas sebagai Agent’, fungsi keduanya mungkin tumpang tindih, tetapi persaingan ini membantu mengurangi biaya panggilan model besar untuk alat dan komunikasi eksternal. Persaingan ini akan mendorong kemajuan teknologi dan pada akhirnya menguntungkan seluruh ekosistem Agent.

Prospek Pengembangan Agent

Agent Ujung-ke-Ujung: Tanpa Intervensi Manual

Saat ini, ada sejumlah besar ‘agen cerdas’ di pasar, tetapi sebagian besar dikembangkan berdasarkan platform seperti Coze dan Dify, yang membutuhkan manusia untuk menulis alur kerja terlebih dahulu. Agent ini lebih seperti superposisi rekayasa prompt, dan termasuk dalam Agent yang relatif awal.

Agent yang lebih canggih adalah ‘ujung-ke-ujung’, yang berarti ‘memasukkan tugas ke Agent, dan Agent secara otomatis menyelesaikan hasil tugas yang dibutuhkan manusia’. Misalnya, pengguna hanya perlu memasukkan tujuan ke Agent, dan Agent akan dapat merencanakan dan menjalankan tugas secara mandiri, dan akhirnya menyelesaikan tujuan. Agent tingkat lanjut seperti L3/L4/L5 lebih memenuhi kebutuhan manusia dan akan menjadi arah pengembangan Agent yang penting di masa depan.

Agent Membantu Robot dan Mengemudi Otomatis

Ketika definisi Agent diterapkan pada kecerdasan perwujudan, akan ditemukan bahwa robot dan kendaraan yang didominasi oleh model besar juga merupakan Agent. Khususnya robot, kemacetan dalam pengembangan robot saat ini bukan terletak pada ‘bagaimana membuat gerakan fisik’ dari ‘otak kecil’, tetapi pada pemikiran tentang ‘gerakan fisik apa yang harus dibuat’ dari ‘otak besar’, dan ini tepatnya termasuk dalam jangkauan Agent.

Di bidang robotika, Agent dapat membantu robot untuk lebih memahami lingkungan dan membuat keputusan yang lebih rasional. Misalnya, Agent dapat secara mandiri merencanakan jalur pergerakan robot dan menjalankan berbagai tugas berdasarkan objek dan personel di lingkungan.

Di bidang mengemudi otomatis, Agent dapat membantu kendaraan untuk lebih merasakan lingkungan sekitar dan membuat keputusan mengemudi yang lebih aman. Misalnya, Agent dapat secara mandiri menyesuaikan kecepatan dan arah kendaraan berdasarkan sinyal lalu lintas, kendaraan lain, dan pejalan kaki, sehingga menghindari terjadinya kecelakaan lalu lintas.

Interkoneksi Agent dan Jaringan Asli AI

Di masa depan, mungkin semua Agent harus dapat berkomunikasi satu sama lain, dapat mengatur diri sendiri, bernegosiasi sendiri, dan membangun jaringan kolaborasi yang lebih murah dan lebih efisien daripada internet yang ada. Komunitas pengembang Tiongkok juga membangun protokol seperti ANP, yang bertujuan untuk menjadi protokol HTTP di era internet Agent. Sedangkan untuk otentikasi identitas antar-Agent, teknologi seperti DID dapat digunakan.

  • Interkoneksi Agent: Interkoneksi antar-Agent dapat mewujudkan pembagian sumber daya dan kolaborasi, sehingga meningkatkan efisiensi seluruh sistem. Misalnya, Agent yang berbeda dapat berbagi data, alat, dan layanan untuk menyelesaikan tugas yang kompleks secara bersama-sama.
  • Jaringan Asli AI: Jaringan Asli AI mengacu pada jaringan yang dirancang khusus untuk aplikasi kecerdasan buatan. Jaringan ini dapat menyediakan bandwidth yang lebih tinggi, latensi yang lebih rendah, dan keamanan yang lebih kuat, sehingga lebih mendukung berbagai aplikasi Agent.
  • Teknologi DID: DID (Decentralized Identifier) adalah teknologi otentikasi identitas terdesentralisasi. Melalui teknologi DID, Agent dapat memiliki identitasnya sendiri, sehingga mewujudkan komunikasi yang lebih aman dan andal.

Pengembangan teknologi Agent akan membawa perubahan besar. Internet di masa depan tidak lagi menjadi jaringan transmisi informasi sederhana, tetapi jaringan kolaborasi yang penuh dengan kecerdasan.