Lanskap kecerdasan buatan (AI) sentiasa berkembang, dengan kemajuan dalam perkakasan memainkan peranan penting dalam membuka kunci kemungkinan baharu. Google, peneraju dalam inovasi AI, baru-baru ini memperkenalkan Unit Pemprosesan Tensor (TPU) generasi ketujuhnya, berkod nama Ironwood, menandakan langkah penting dalam keupayaan pengkomputeran AI. Pemecut AI canggih ini mempunyai kehebatan pengkomputeran yang melebihi superkomputer terpantas di dunia sebanyak 24 kali ganda dalam penggunaan berskala besar.
Diumumkan pada persidangan Google Cloud Next ‘25, Ironwood mewakili pivot strategik dalam perjalanan sedekad pembangunan cip AI Google. Tidak seperti pendahulunya, yang direka terutamanya untuk beban kerja latihan dan inferens AI, Ironwood direka khusus untuk cemerlang dalam tugas inferens, menandakan era baharu aplikasi dipacu AI.
Menurut Amin Vahdat, Naib Presiden dan Pengurus Besar Pembelajaran Mesin, Sistem dan AI Awan di Google, “Ironwood direka untuk menyokong fasa seterusnya AI generatif dan keperluan pengkomputeran dan komunikasi yang besar. Inilah yang kami panggil ‘Era Inferens,’ di mana ejen AI secara proaktif akan mendapatkan dan menjana data untuk menyampaikan pandangan dan jawapan secara kolaboratif, bukan sekadar data.”
Mendedahkan Keupayaan Ironwood yang Belum Pernah Berlaku Sebelum Ini
Spesifikasi teknikal Ironwood sememangnya luar biasa. Apabila diskalakan kepada pod sebanyak 9,216 cip, ia boleh menyampaikan kuasa pengkomputeran AI yang menakjubkan sebanyak 42.5 eksaflop. Angka ini mengecilkan 1.7 eksaflop yang ditawarkan oleh El Capitan, pemegang gelaran semasa untuk superkomputer terpantas di dunia. Setiap cip Ironwood individu mempunyai kapasiti pengkomputeran puncak sebanyak 4,614 TFLOP.
Selain daripada kuasa pemprosesan semata-mata, Ironwood juga menampilkan peningkatan ketara dalam memori dan lebar jalur. Setiap cip dilengkapi dengan memori lebar jalur tinggi (HBM) 192GB, peningkatan enam kali ganda berbanding TPU generasi sebelumnya, Trillium, yang dikeluarkan tahun lepas. Tambahan pula, lebar jalur memori setiap cip mencapai 7.2 terabit/s, mewakili peningkatan 4.5 kali ganda berbanding Trillium.
Dalam era di mana pusat data berkembang dan penggunaan kuasa menjadi kebimbangan kritikal, Ironwood juga menonjol kerana kecekapan tenaganya. Prestasi per watnya adalah dua kali ganda daripada Trillium dan hampir 30 kali lebih tinggi daripada TPU pertama yang diperkenalkan pada tahun 2018.
Penekanan pada pengoptimuman inferens menandakan peralihan penting dalam landskap AI. Dalam beberapa tahun kebelakangan ini, makmal AI terkemuka telah menumpukan perhatian terutamanya pada membina model asas yang lebih besar dengan kiraan parameter yang semakin meningkat. Tumpuan Google pada pengoptimuman inferens mencadangkan peralihan ke arah fasa baharu yang berpusat pada kecekapan penggunaan dan keupayaan inferens.
Walaupun latihan model kekal penting, bilangan lelaran latihan adalah terhingga. Sebaliknya, apabila teknologi AI semakin bersepadu ke dalam pelbagai aplikasi, operasi inferens dijangka berlaku berbilion kali setiap hari. Apabila model berkembang dalam kerumitan, daya maju ekonomi aplikasi ini menjadi berkait rapat dengan kos inferens.
Sejak lapan tahun lalu, permintaan Google untuk pengkomputeran AI telah meningkat sepuluh kali ganda, mencapai 100 juta yang menakjubkan. Tanpa seni bina khusus seperti Ironwood, walaupun kemajuan tanpa henti Hukum Moore akan bergelut untuk bersaing dengan pertumbuhan eksponen ini.
Terutamanya, pengumuman Google menyoroti tumpuannya pada “model mental” yang mampu melakukan tugas penaakulan kompleks dan bukan pengecaman corak mudah. Ini mencadangkan bahawa Google membayangkan masa depan di mana AI melangkaui model yang lebih besar dan merangkumi model yang boleh menguraikan masalah, melakukan penaakulan berbilang langkah dan meniru proses pemikiran seperti manusia.
Memperkasakan Generasi Model Besar Seterusnya
Google meletakkan Ironwood sebagai infrastruktur asas untuk model AInya yang paling maju, termasuk Gemini 2.5, yang mempunyai keupayaan penaakulan terbina dalam secara natif.
Google juga baru-baru ini memperkenalkan Gemini 2.5 Flash, varian yang lebih kecil bagi model utamanya yang direka untuk aplikasi harian yang sensitif kepada kependaman. Gemini 2.5 Flash boleh melaraskan kedalaman penaakulannya secara dinamik berdasarkan kerumitan gesaan.
Google juga mempamerkan suite komprehensif model generatif multimodalnya, termasuk teks-ke-imej, teks-ke-video dan ciri teks-ke-muzik yang baru diperkenalkan, Lyria. Demo menggambarkan cara alatan ini boleh digabungkan untuk menghasilkan video promosi lengkap untuk konsert.
Ironwood hanyalah satu komponen strategi infrastruktur AI Google yang lebih luas. Google juga mengumumkan Cloud WAN, perkhidmatan rangkaian kawasan luas terurus yang membolehkan perusahaan mengakses infrastruktur rangkaian persendirian berskala global Google.
Tambahan pula, Google sedang mengembangkan penawaran perisiannya untuk beban kerja AI, termasuk Pathways, runtime pembelajaran mesin yang dibangunkan oleh Google DeepMind. Pathways kini membenarkan pelanggan menskalakan perkhidmatan model merentasi ratusan TPU.
Memupuk Kerjasama Ejen AI dengan A2A
Selain kemajuan perkakasan, Google juga telah menggariskan visinya untuk ekosistem AI yang berpusat di sekitar sistem berbilang ejen. Untuk memudahkan pembangunan ejen pintar, Google telah memperkenalkan protokol Agent-to-Agent (A2A), yang direka untuk membolehkan komunikasi yang selamat dan diseragamkan antara ejen AI yang berbeza.
Google percaya bahawa 2025 akan menandakan tahun transformatif untuk AI, dengan aplikasi AI generatif berkembang daripada menjawab soalan tunggal kepada menyelesaikan masalah kompleks melalui sistem ejen.
Protokol A2A membolehkan interoperabiliti antara ejen merentasi platform dan rangka kerja yang berbeza, menyediakan mereka dengan “bahasa” yang sama dan saluran komunikasi yang selamat. Protokol ini boleh dilihat sebagai lapisan rangkaian untuk ejen pintar, yang bertujuan untuk memudahkan kerjasama ejen dalam aliran kerja yang kompleks. Dengan membolehkan ejen AI khusus untuk bekerjasama dalam tugas dengan pelbagai kerumitan dan tempoh, A2A berusaha untuk meningkatkan keupayaan keseluruhan melalui kerjasama.
A2A berfungsi dengan mewujudkan cara yang diseragamkan untuk ejen bertukar maklumat dan menyelaraskan tindakan, tanpa memerlukan mereka untuk berkongsi kod atau struktur data yang mendasari. Ini membolehkan penciptaan sistem AI yang lebih modular dan fleksibel, di mana ejen boleh ditambah, dialih keluar atau dikonfigurasikan semula dengan mudah mengikut keperluan.
Google telah membuat perbandingan antara protokol MCP dan A2A dalam catatan blog.
- MCP (Protokol Konteks Model) direka untuk pengurusan alat dan sumber.
- Ia menghubungkan ejen kepada alatan, API dan sumber melalui input/output berstruktur.
- Google ADK menyokong alatan MCP, membolehkan pelbagai pelayan MCP berfungsi dengan ejen.
- A2A (Protokol Agent2Agent) direka untuk kerjasama antara ejen.
- Ia membolehkan komunikasi dinamik dan berbilang mod antara ejen tanpa berkongsi memori, sumber atau alatan.
- Ia adalah standard terbuka yang didorong oleh komuniti.
- Contoh boleh dilihat menggunakan Google ADK, LangGraph, Crew.AI dan alatan lain.
Pada asasnya, A2A dan MCP saling melengkapi: MCP menyediakan ejen dengan sokongan alat, manakala A2A membolehkan ejen yang dilengkapi alat ini berkomunikasi dan bekerjasama antara satu sama lain.
Berdasarkan rakan kongsi awal, A2A nampaknya bersedia untuk mendapat perhatian yang sama seperti MCP. Lebih 50 syarikat telah menyertai kerjasama awal, termasuk firma teknologi terkemuka dan penyedia perkhidmatan integrasi sistem dan perundingan global terkemuka.
Google menekankan keterbukaan protokol, meletakkannya sebagai cara standard untuk ejen bekerjasama, tanpa mengira rangka kerja teknologi atau penyedia perkhidmatan yang mendasari. Google menggariskan lima prinsip utama yang membimbing reka bentuk protokol dengan kerjasama rakan kongsinya:
- Hayati Keupayaan Ejen: A2A menumpukan pada membolehkan ejen bekerjasama dalam cara semula jadi mereka yang tidak berstruktur, walaupun mereka tidak berkongsi memori, alatan dan konteks. Protokol ini bertujuan untuk membolehkan senario berbilang ejen sebenar, dan bukannya menyekat ejen daripada menjadi sekadar “alatan.”
- Bina Berdasarkan Standard Sedia Ada: Protokol ini dibina berdasarkan standard popular sedia ada, termasuk HTTP, SSE dan JSON-RPC, menjadikannya lebih mudah untuk disepadukan dengan tindanan IT sedia ada yang biasa digunakan oleh perusahaan.
- Selamat Secara Lalai: A2A direka untuk menyokong pengesahan dan kebenaran gred perusahaan, setanding dengan skim pengesahan OpenAPI semasa pelancaran.
- Sokong Tugas Jangka Panjang: A2A direka untuk menjadi fleksibel, menyokong pelbagai senario, daripada tugas pantas kepada penyelidikan mendalam yang mungkin mengambil masa berjam-jam atau bahkan hari (apabila manusia terlibat). Sepanjang proses, A2A boleh memberikan pengguna maklum balas, pemberitahuan dan kemas kini status masa nyata.
- Agnostik Modaliti: Dunia ejen tidak terhad kepada teks, itulah sebabnya A2A direka untuk menyokong pelbagai modaliti, termasuk strim audio dan video.
Google menyediakan contoh cara A2A boleh menyelaraskan proses pengambilan pekerja dengan ketara.
Dalam antara muka bersatu seperti Agentspace, pengurus pengambilan pekerja boleh menugaskan ejen untuk mencari calon yang sesuai berdasarkan keperluan kerja. Ejen ini boleh berinteraksi dengan ejen khusus untuk mendapatkan calon, menjadualkan temu duga dan juga melibatkan ejen khusus lain untuk membantu dengan pemeriksaan latar belakang, membolehkan automasi pintar keseluruhan proses pengambilan pekerja merentasi sistem yang berbeza.
Menerima Protokol Konteks Model (MCP)
Selain usahanya dalam membangunkan A2A, Google juga menerima Protokol Konteks Model (MCP). Hanya beberapa minggu selepas OpenAI mengumumkan penerimaan MCPnya, Google mengikuti jejak langkahnya.
Demis Hassabis, Ketua Pegawai Eksekutif Google DeepMind, baru-baru ini mengumumkan di X bahawa Google akan menambah sokongan untuk MCP pada model dan SDK Gemini. Walau bagaimanapun, beliau tidak memberikan garis masa yang khusus.
Hassabis menyatakan bahawa “MCP ialah protokol yang sangat baik yang pantas menjadi standard terbuka untuk era ejen AI. Saya berharap dapat bekerjasama dengan pasukan MCP dan rakan kongsi lain dalam industri untuk memajukan teknologi ini.”
Sejak dikeluarkan pada November 2024, MCP telah mendapat tarikan dengan pantas, menjadi cara yang mudah dan diseragamkan untuk menghubungkan model bahasa dengan alatan dan data.
MCP membolehkan model AI mengakses data daripada sumber seperti alatan dan perisian perusahaan untuk menyelesaikan tugas, serta mengakses pustaka kandungan dan persekitaran pembangunan aplikasi. Protokol ini membenarkan pembangun mewujudkan sambungan dwiarah antara sumber data dan aplikasi berkuasa AI, seperti chatbot.
Pembangun boleh mendedahkan antara muka data melalui pelayan MCP dan membina pelanggan MCP (seperti aplikasi dan aliran kerja) untuk menyambung ke pelayan ini. Sejak Anthropic sumber terbuka MCP, pelbagai syarikat telah menyepadukan sokongan MCP ke dalam platform mereka.