Ironwood TPU Google: Lompatan Kuantum dalam Kuasa Pengkomputeran AI
Lanskap kecerdasan buatan telah ditakrifkan semula dengan pengumuman Unit Pemprosesan Tensor (TPU) generasi ketujuh Google, yang dinamakan Ironwood. Pemecut AI canggih ini menawarkan kehebatan pengkomputeran yang mengatasi walaupun superkomputer paling hebat di dunia. Dalam penggunaan berskala besar, keupayaan Ironwood melebihi superkomputer terpantas sebanyak 24 kali ganda.
Pengumuman Ironwood di acara Google Cloud Next ‘25 menandakan detik penting dalam usaha Google selama sedekad untuk inovasi cip AI. Walaupun lelaran TPU sebelumnya terutamanya memenuhi beban kerja latihan dan inferensi model AI, Ironwood menonjol sebagai cip pertama yang direka dan dioptimumkan dengan teliti untuk tugas inferensi.
Menurut Amin Vahdat, Naib Presiden dan Pengurus Besar Pembelajaran Mesin, Sistem dan Cloud AI di Google, ‘Ironwood direka untuk memacu fasa seterusnya AI generatif, menangani permintaan pengkomputeran dan komunikasinya yang besar. Kita memasuki apa yang kita panggil ‘Era Inferensi,’ di mana ejen AI akan secara proaktif mendapatkan dan menjana data untuk menyampaikan pandangan dan jawapan secara kolaboratif, melampaui keupayaan pemprosesan data semata-mata.’
Membuka Kuasa Pengkomputeran yang Belum Pernah Terjadi Sebelumnya: Selami Keupayaan Ironwood
Spesifikasi teknikal Ironwood dibaca seperti senarai hajat untuk penyelidik dan pembangun AI. Berskala ke pod 9,216 cip, Ironwood menyampaikan 42.5 exaflops pengkomputeran AI yang menakjubkan. Untuk meletakkan ini dalam perspektif, ia jauh melampaui keupayaan juara superkomputer yang memerintah sekarang, El Capitan, yang memuncak pada 1.7 exaflops. Secara individu, setiap cip Ironwood mempunyai kapasiti pengkomputeran puncak 4614 TFLOPs.
Di luar kuasa pemprosesan mentah, Ironwood memperkenalkan peningkatan ketara dalam memori dan lebar jalur. Setiap cip dilengkapi dengan 192GB Memori Lebar Jalur Tinggi (HBM), peningkatan enam kali ganda berbanding TPU generasi sebelumnya, Trillium. Lebar jalur memori juga telah dipertingkatkan secara dramatik, mencapai 7.2 terabit/s setiap cip, 4.5 kali ganda daripada Trillium.
Dalam era di mana pusat data berkembang dan penggunaan kuasa menjadi faktor yang semakin kritikal, Ironwood menunjukkan kecekapan tenaga yang luar biasa. Prestasi per wattnya adalah dua kali ganda daripada Trillium dan hampir 30 kali lebih baik daripada TPU awal yang diperkenalkan pada tahun 2018.
Peralihan ke arah pengoptimuman inferensi ini mewakili pencapaian penting dalam evolusi AI. Dalam beberapa tahun kebelakangan ini, makmal AI terkemuka telah menumpukan pada pembinaan model asas dengan kiraan parameter yang sentiasa berkembang. Penekanan Google pada pengoptimuman inferensi menandakan peralihan ke arah mengutamakan kecekapan penggunaan dan keupayaan inferensi dunia sebenar.
Walaupun latihan model AI adalah aktiviti yang agak jarang berlaku, operasi inferensi berlaku berbilion kali setiap hari apabila teknologi AI menjadi lebih berleluasa. Kebolehlaksanaan ekonomi perniagaan yang dikuasakan oleh AI berkait rapat dengan kos inferensi, terutamanya apabila model menjadi semakin kompleks.
Sejak lapan tahun lalu, permintaan Google untuk pengkomputeran AI telah berkembang secara eksponen, meningkat sepuluh kali ganda dan mencapai 100 juta yang menakjubkan. Tanpa seni bina khusus seperti Ironwood, Undang-undang Moore sahaja tidak dapat mengekalkan trajektori pertumbuhan ini.
Penekanan Google pada ‘model penaakulan’ yang mampu melakukan tugas inferensi yang kompleks, dan bukannya pengecaman corak yang mudah, sangat ketara. Ini menunjukkan bahawa Google membayangkan masa depan di mana AI cemerlang bukan sahaja melalui model yang lebih besar tetapi juga melalui model yang mampu memecahkan masalah, melakukan penaakulan berbilang langkah, dan meniru proses pemikiran seperti manusia.
Memperkasakan Generasi Seterusnya Model Bahasa Besar
Google meletakkan Ironwood sebagai infrastruktur asas untuk model AInya yang paling canggih, termasuk Gemini 2.5, yang menawarkan ‘keupayaan penaakulan asli.’
Bersama-sama dengan Ironwood, Google memperkenalkan Gemini 2.5 Flash, versi model utamanya yang diperkemas yang direka untuk aplikasi harian yang sensitif terhadap kependaman. Gemini 2.5 Flash boleh melaraskan kedalaman penaakulannya secara dinamik berdasarkan kerumitan gesaan.
Google juga mempamerkan suite model generatif berbilang modalnya, meliputi teks-ke-imej, teks-ke-video, dan fungsi teks-ke-muzik yang baru diperkenalkan, Lyria. Demo yang menarik menyoroti bagaimana alat ini boleh digabungkan untuk menghasilkan video promosi lengkap untuk konsert.
Ironwood hanyalah satu komponen strategi infrastruktur AI komprehensif Google. Syarikat itu juga memperkenalkan Cloud WAN, perkhidmatan rangkaian kawasan luas terurus yang membolehkan perniagaan memanfaatkan infrastruktur rangkaian persendirian berskala global Google.
Google juga mengembangkan penawaran perisiannya untuk beban kerja AI, termasuk Pathways, masa jalan pembelajaran mesin yang dibangunkan oleh Google DeepMind, yang membolehkan pelanggan menskalakan penghidangan model merentas beratus-ratus TPU.
Visi Kepintaran Kolaboratif: Memperkenalkan Sokongan A2A dan MCP
Di luar kemajuan perkakasan, Google mengartikulasikan visinya untuk AI yang berpusat di sekitar sistem berbilang ejen dan memperkenalkan protokol Ejen-ke-Ejen (A2A), yang direka untuk memupuk komunikasi yang selamat dan standard antara ejen AI yang pelbagai.
Google menjangkakan 2025 sebagai tahun transformatif untuk AI, dengan aplikasi AI generatif berkembang daripada menjawab soalan tunggal kepada menyelesaikan masalah kompleks melalui sistem ejen yang saling berkaitan.
Protokol A2A membolehkan saling kendalian merentas platform dan rangka kerja, menyediakan ejen AI dengan ‘bahasa’ yang sama dan saluran komunikasi yang selamat. Fikirkan ia sebagai lapisan rangkaian untuk ejen AI, memudahkan kerjasama dalam aliran kerja yang kompleks dan membolehkan ejen AI khusus untuk menangani tugas-tugas dengan pelbagai kerumitan dan tempoh secara kolektif, dengan itu meningkatkan keupayaan keseluruhan melalui kerjasama.
Bagaimana A2A Berfungsi
Google telah menyediakan gambaran keseluruhan perbandingan protokol MCP dan A2A:
- MCP (Protokol Konteks Model): Memfokuskan pada pengurusan alat dan sumber.
- Menyambungkan ejen ke alat, API dan sumber melalui input/output berstruktur.
- Google ADK menyokong alat MCP, memudahkan interaksi yang lancar antara pelayan MCP dan ejen.
- A2A (Protokol Ejen2Ejen): Memudahkan kerjasama antara ejen.
- Membolehkan komunikasi dinamik dan berbilang modal antara ejen tanpa memerlukan memori, sumber atau alat yang dikongsi.
- Ia adalah standard terbuka yang didorong oleh komuniti.
- Contoh boleh diterokai menggunakan alat seperti Google ADK, LangGraph dan Crew.AI.
A2A dan MCP adalah saling melengkapi. MCP melengkapkan ejen dengan alat, manakala A2A memperkasakan ejen yang dilengkapi ini untuk berkomunikasi dan bekerjasama.
Senarai rakan kongsi awal Google mencadangkan bahawa A2A bersedia untuk menerima perhatian yang sama seperti MCP. Inisiatif itu telah menarik lebih 50 organisasi, termasuk syarikat teknologi terkemuka dan penyedia perundingan dan integrasi sistem global.
Google menekankan keterbukaan protokol itu, meletakkannya sebagai standard untuk kerjasama antara ejen yang melangkaui rangka kerja teknologi atau penyedia perkhidmatan asas. Google menyoroti lima prinsip panduan yang membentuk reka bentuk protokol:
- Hayati Keupayaan Ejen: A2A mengutamakan untuk membolehkan ejen bekerjasama secara semula jadi, walaupun tanpa berkongsi memori, alatan atau konteks. Matlamatnya adalah untuk membolehkan senario berbilang ejen yang sebenar, bukan hanya menghadkan ejen untuk bertindak sebagai ‘alat.’
- Bina Berdasarkan Piawaian Sedia Ada: Protokol ini memanfaatkan piawaian sedia ada yang diterima pakai secara meluas, termasuk HTTP, SSE dan JSON-RPC, memudahkan penyepaduan dengan timbunan IT sedia ada.
- Selamat Secara Lalai: A2A direka untuk menyokong pengesahan dan kebenaran gred perusahaan, setanding dengan skim pengesahan OpenAPI.
- Menyokong Tugas Jangka Panjang: Fleksibiliti A2A membolehkannya menyokong pelbagai senario, daripada tugas pantas kepada penyelidikan mendalam yang mungkin mengambil masa berjam-jam atau bahkan berhari-hari (terutamanya apabila penglibatan manusia diperlukan). Sepanjang proses, A2A boleh memberikan pengguna maklum balas masa nyata, pemberitahuan dan kemas kini status.
- Agnostik Modaliti: Menyedari bahawa dunia ejen melangkaui teks, A2A menyokong pelbagai modaliti, termasuk strim audio dan video.
Google memberikan contoh bagaimana A2A menyelaraskan proses pengambilan pekerja.
Dalam antara muka bersatu seperti Agentspace, pengurus pengambilan pekerja boleh menugaskan ejen untuk mengenal pasti calon yang sesuai berdasarkan keperluan kerja. Ejen ini boleh berinteraksi dengan ejen khusus untuk mendapatkan calon. Pengguna juga boleh mengarahkan ejen untuk menjadualkan temu duga dan melibatkan ejen khusus lain untuk membantu dengan semakan latar belakang, membolehkan pengambilan pekerja yang automatik sepenuhnya dan pintar merentas sistem.
Menerima Protokol Konteks Model (MCP)
Google juga menerima MCP. Tidak lama selepas OpenAI mengumumkan penerimaan Protokol Konteks Model (MCP) Anthropic, Google turut serta.
Demis Hassabis, Ketua Pegawai Eksekutif Google DeepMind, mengumumkan di X (dahulunya Twitter) bahawa Google akan menambah sokongan untuk MCP dalam model dan SDK Gemininya, walaupun beliau tidak memberikan garis masa yang khusus.
Hassabis menyatakan bahawa ‘MCP ialah protokol yang sangat baik yang dengan pantas menjadi standard terbuka untuk era ejen AI. Kami berharap untuk bekerjasama dengan pasukan MCP dan rakan kongsi lain dalam industri untuk memajukan teknologi ini.’
Sejak dilancarkan pada November 2024, MCP telah mendapat tarikan yang ketara sebagai cara yang mudah dan standard untuk menghubungkan model bahasa dengan alat dan data.
MCP membolehkan model AI mengakses data daripada alat dan perisian perusahaan untuk menyelesaikan tugas dan mengakses perpustakaan kandungan dan persekitaran pembangunan aplikasi. Protokol ini membolehkan pembangun mewujudkan sambungan dwiarah antara sumber data dan aplikasi berkuasa AI seperti chatbot.
Pembangun boleh mendedahkan antara muka data melalui pelayan MCP dan membina pelanggan MCP (seperti aplikasi dan aliran kerja) untuk menyambung ke pelayan ini. Sejak Anthropic sumber terbuka MCP, beberapa syarikat telah menyepadukan sokongan MCP ke dalam platform mereka.
Ironwood: Permulaan Era Baharu dalam AI
TPU Ironwood Google mewakili lonjakan yang ketara dalam pengkomputeran AI. Prestasi yang belum pernah terjadi sebelumnya, seni bina yang dioptimumkan dan sokongan untuk protokol baru muncul seperti A2A dan MCP meletakkannya sebagai pemboleh utama gelombang inovasi AI seterusnya. Apabila model AI menjadi lebih kompleks dan menuntut, Ironwood menyediakan kuasa mentah dan fleksibiliti yang diperlukan untuk membuka kemungkinan baharu dan mengubah industri di seluruh dunia. Ia bukan sekadar cip baharu; ia adalah asas untuk masa depan yang dikuasakan oleh mesin pintar yang bekerjasama untuk menyelesaikan masalah yang kompleks dan menambah baik kehidupan kita.