TPU Ironwood Google Lampaui Superkomputer 24x

Google telah mengubah landskap pemprosesan kecerdasan buatan (AI) dengan memperkenalkan Unit Pemprosesan Tensor (TPU) generasi ketujuh, yang dikenali sebagai Ironwood. Pemecut AI canggih ini menawarkan keupayaan pengkomputeran yang, dalam penggunaan berskala besar, melebihi superkomputer terpantas di dunia sebanyak lebih daripada 24 kali ganda.

Cip baharu ini, yang didedahkan di persidangan Google Cloud Next ‘25, menandakan detik penting dalam strategi Google selama sedekad dalam pembangunan cip AI. Tidak seperti pendahulunya, yang direka terutamanya untuk beban kerja latihan dan inferens AI, Ironwood direka khusus untuk inferens, menandakan peralihan strategik ke arah mengoptimumkan kecekapan penggunaan AI.

Amin Vahdat, Naib Presiden dan Pengurus Besar Pembelajaran Mesin, Sistem dan Cloud AI Google, menekankan peralihan ini, dengan menyatakan, ‘Ironwood direka untuk menyokong fasa seterusnya AI generatif dan permintaan pengkomputeran dan komunikasi yang besar. Ini adalah apa yang kita panggil ‘Era Inferens,’ di mana ejen AI secara proaktif akan mendapatkan dan menjana data untuk menyampaikan pandangan dan jawapan secara kolaboratif, dan bukan sekadar memproses data.’

Memecahkan Halangan dengan 42.5 Exaflops Kuasa Pengkomputeran

Spesifikasi teknikal Ironwood benar-benar mengagumkan. Apabila diskalakan kepada pod yang terdiri daripada 9,216 cip, ia memberikan 42.5 eksaflop pengkomputeran AI yang menakjubkan. Untuk meletakkan ini dalam perspektif, ia membayangi superkomputer terpantas dunia semasa, El Capitan, yang beroperasi pada 1.7 eksaflop. Setiap cip Ironwood individu boleh mencapai keupayaan pengkomputeran puncak 4614 TFLOP.

Di luar kuasa pemprosesan mentah, Ironwood meningkatkan memori dan lebar jalur dengan ketara. Setiap cip dilengkapi dengan 192GB memori jalur lebar tinggi (HBM), peningkatan enam kali ganda berbanding TPU generasi sebelumnya, Trillium, yang dikeluarkan tahun lepas. Lebar jalur memori setiap cip mencapai 7.2 terabit/s, 4.5 kali ganda daripada Trillium.

  • Kuasa Pengkomputeran: 42.5 exaflops (setiap pod 9,216 cip)
  • Pengkomputeran Puncak setiap Cip: 4614 TFLOP
  • Memori: 192GB HBM setiap cip
  • Lebar Jalur Memori: 7.2 terabit/s setiap cip

Dalam era di mana pusat data berkembang dan penggunaan kuasa menjadi kebimbangan yang semakin meningkat, Ironwood juga menunjukkan peningkatan yang ketara dalam kecekapan tenaga. Ia menawarkan dua kali ganda prestasi setiap watt berbanding Trillium dan hampir 30 kali ganda daripada TPU pertama yang diperkenalkan pada tahun 2018.

Pengoptimuman untuk inferens ini menandakan titik perubahan kritikal dalam evolusi AI. Dalam tahun-tahun kebelakangan ini, makmal AI terkemuka telah menumpukan pada pembangunan model asas yang semakin besar dengan kiraan parameter yang sentiasa berkembang. Tumpuan Google pada pengoptimuman inferens mencadangkan langkah ke arah paradigma baharu yang berpusat pada kecekapan penggunaan dan keupayaan inferens.

Walaupun latihan model kekal penting, operasi inferens adalah lebih kerap, berlaku berbilion kali setiap hari apabila teknologi AI menjadi lebih berleluasa. Bagi perniagaan yang memanfaatkan AI, ekonomi secara intrinsik terikat dengan kos inferens apabila model menjadi lebih kompleks.

Permintaan pengkomputeran AI Google telah meningkat sepuluh kali ganda dalam tempoh lapan tahun yang lalu, mencapai 100 juta yang menakjubkan. Tanpa seni bina khusus seperti Ironwood, adalah mustahil untuk mengekalkan trajektori pertumbuhan ini melalui kemajuan tradisional dalam Undang-undang Moore sahaja.

Khususnya, pengumuman Google menekankan tumpuan pada ‘model penaakulan’ yang mampu melaksanakan tugas inferens yang kompleks dan bukannya pengecaman corak yang mudah. Ini mencadangkan kepercayaan bahawa masa depan AI terletak bukan sahaja pada model yang lebih besar tetapi juga dalam model yang mampu memecahkan masalah, melibatkan diri dalam penaakulan berbilang langkah, dan meniru proses pemikiran seperti manusia.

Memacu Model Besar Generasi Seterusnya

Google meletakkan Ironwood sebagai infrastruktur asas untuk model AI yang paling canggih, termasuk Gemini 2.5nya sendiri, yang menawarkan ‘keupayaan penaakulan asli.’

Syarikat itu juga baru-baru ini memperkenalkan Gemini 2.5 Flash, versi yang lebih kecil daripada model utamanya yang direka untuk ‘melaraskan kedalaman penaakulan berdasarkan kerumitan gesaan.’ Model ini ditujukan untuk aplikasi harian yang memerlukan masa tindak balas yang cepat.

Google selanjutnya mempamerkan suite komprehensif model penjanaan multimodal, yang merangkumi teks-ke-imej, teks-ke-video, dan keupayaan teks-ke-muzik yang baru diperkenalkan, Lyria. Demo menggambarkan bagaimana alat ini boleh digabungkan untuk mencipta video promosi yang lengkap untuk konsert.

Ironwood hanyalah satu komponen strategi infrastruktur AI Google yang lebih luas. Syarikat itu juga mengumumkan Cloud WAN, perkhidmatan rangkaian kawasan luas terurus yang menyediakan perusahaan dengan akses kepada infrastruktur rangkaian persendirian berskala global Google.

Google juga mengembangkan penawaran perisiannya untuk beban kerja AI, termasuk Pathways, runtime pembelajaran mesin yang dibangunkan oleh Google DeepMind. Pathways kini membolehkan pelanggan menskalakan model yang berkhidmat merentasi beratus-ratus TPU.

Memperkenalkan A2A: Memupuk Ekosistem Kerjasama Ejen Pintar

Di sebalik kemajuan perkakasan, Google membentangkan visinya untuk AI yang berpusat di sekitar sistem berbilang ejen, memperkenalkan protokol untuk memudahkan pembangunan ejen pintar: Agent-to-Agent (A2A). Protokol ini direka untuk menggalakkan komunikasi yang selamat dan standard antara ejen AI yang berbeza.

Google percaya bahawa 2025 akan menandakan tahun transformasi untuk AI, dengan aplikasi AI generatif berkembang daripada menjawab soalan tunggal kepada menyelesaikan masalah kompleks melalui sistem ejen pintar.

Protokol A2A membolehkan interoperabiliti merentasi platform dan rangka kerja, menyediakan ejen dengan ‘bahasa’ biasa dan saluran komunikasi yang selamat. Protokol ini boleh dilihat sebagai lapisan rangkaian untuk ejen pintar, bertujuan untuk memudahkan kerjasama ejen dalam aliran kerja yang kompleks. Ia memperkasakan ejen AI khusus untuk bekerjasama dalam tugas yang berbeza kerumitan dan tempoh, akhirnya meningkatkan keupayaan keseluruhan melalui kerjasama.

Bagaimana A2A Berfungsi

Google memberikan perbandingan antara protokol MCP dan A2A dalam catatan blognya:

  • MCP (Protokol Konteks Model): Untuk pengurusan alat dan sumber
    • Menyambungkan ejen kepada alat, API dan sumber melalui input/output berstruktur.
    • Google ADK menyokong alat MCP, membolehkan pelbagai pelayan MCP berfungsi dengan ejen.
  • A2A (Protokol Agent2Agent): Untuk kerjasama antara ejen
    • Membolehkan komunikasi multimodal dinamik antara ejen tanpa berkongsi memori, sumber atau alat.
    • Standard terbuka yang didorong oleh komuniti.
    • Contoh boleh dilihat menggunakan alat seperti Google ADK, LangGraph dan Crew.AI.

Pada dasarnya, A2A dan MCP saling melengkapi. MCP menyediakan ejen dengan sokongan alat, manakala A2A membenarkan ejen yang dilengkapi ini untuk berkomunikasi dan bekerjasama antara satu sama lain.

Senarai rakan kongsi yang diumumkan oleh Google mencadangkan bahawa A2A bersedia untuk menerima perhatian yang sama seperti MCP. Inisiatif ini telah menarik lebih 50 syarikat ke kohort kerjasama awalnya, termasuk firma teknologi terkemuka dan pembekal perkhidmatan integrasi sistem dan perundingan global terkemuka.

Google menekankan keterbukaan protokol itu, meletakkannya sebagai kaedah standard untuk ejen bekerjasama, tanpa mengira rangka kerja teknologi atau pembekal perkhidmatan yang mendasari. Syarikat itu menyatakan bahawa ia mematuhi lima prinsip utama berikut semasa mereka bentuk protokol dengan rakan kongsinya:

  1. Menerima Keupayaan Ejen: A2A memfokuskan pada membolehkan ejen bekerjasama dalam cara semula jadi mereka yang tidak berstruktur, walaupun mereka tidak berkongsi memori, alat dan konteks. Matlamatnya adalah untuk membolehkan senario berbilang ejen tulen tanpa mengehadkan ejen kepada ‘alat’ semata-mata.
  2. Membina Berdasarkan Piawaian Sedia Ada: Protokol ini dibina berdasarkan piawaian popular sedia ada, termasuk HTTP, SSE dan JSON-RPC, menjadikannya lebih mudah untuk disepadukan dengan tindanan IT sedia ada yang digunakan oleh perusahaan.
  3. Selamat Secara Lalai: A2A direka untuk menyokong pengesahan dan kebenaran gred perusahaan, setanding dengan skim pengesahan OpenAPI semasa pelancaran.
  4. Menyokong Tugas Jangka Panjang: A2A direka dengan fleksibiliti untuk menyokong pelbagai senario, daripada tugas pantas kepada penyelidikan mendalam yang mungkin mengambil masa berjam-jam atau bahkan berhari-hari (apabila manusia terlibat). Sepanjang proses, A2A boleh memberikan pengguna dengan maklum balas, pemberitahuan dan kemas kini status masa nyata.
  5. Agnostik Modaliti: Dunia ejen tidak terhad kepada teks, itulah sebabnya A2A direka untuk menyokong pelbagai modaliti, termasuk strim audio dan video.

Contoh: Proses Pengambilan Pekerja yang Diperkemas melalui A2A

Contoh yang diberikan oleh Google menggambarkan bagaimana A2A boleh memperkemas proses pengambilan pekerja dengan ketara.

Dalam antara muka bersatu seperti Agentspace, pengurus pengambilan pekerja boleh menugaskan ejen untuk mencari calon yang sesuai berdasarkan keperluan pekerjaan. Ejen ini boleh berinteraksi dengan ejen khusus dalam bidang tertentu untuk melengkapkan penyumberan calon. Pengguna juga boleh mengarahkan ejen untuk menjadualkan temu duga dan membolehkan ejen khusus lain untuk membantu dengan pemeriksaan latar belakang, dengan itu membolehkan pengambilan pekerja kerjasama merentas sistem yang automatik sepenuhnya.

Menerima MCP: Menyertai Ekosistem Protokol Konteks Model

Serentak, Google juga menerima MCP. Hanya beberapa minggu selepas OpenAI mengumumkan penerimaan Protokol Konteks Model (MCP) Anthropic, Google mengikutinya dan menyertai inisiatif itu.

Ketua Pegawai Eksekutif Google DeepMind, Demis Hassabis mengumumkan di X bahawa Google akan menambah sokongan untuk MCP kepada model dan SDK Gemini, walaupun garis masa tertentu tidak diberikan.

Hassabis menyatakan, ‘MCP ialah protokol yang sangat baik yang dengan cepat menjadi standard terbuka untuk era ejen AI. Kami berharap untuk bekerjasama dengan pasukan MCP dan rakan kongsi lain dalam industri untuk memajukan pembangunan teknologi ini.’

Sejak dikeluarkan pada November 2024, MCP telah mendapat populariti dan perhatian yang meluas dengan cepat, muncul sebagai cara yang mudah dan standard untuk menghubungkan model bahasa dengan alat dan data.

MCP membolehkan model AI mengakses data daripada sumber data seperti alat dan perisian perusahaan untuk menyelesaikan tugas dan mengakses pustaka kandungan dan persekitaran pembangunan aplikasi. Protokol ini membenarkan pembangun mewujudkan sambungan dwiarah antara sumber data dan aplikasi dipacu AI, seperti chatbot.

Pembangun boleh mendedahkan antara muka data melalui pelayan MCP dan membina pelanggan MCP (seperti aplikasi dan aliran kerja) untuk menyambung ke pelayan ini. Sejak Anthropic sumber terbuka MCP, beberapa syarikat telah menyepadukan sokongan MCP ke dalam platform mereka.

Pecahan Dipertingkat bagi Konsep Utama:

Untuk menjelaskan lagi impak dan kepentingan pengumuman terbaru Google, mari kita mendalami komponen teras: Ironwood, A2A dan MCP.

Ironwood: Selaman Dalam ke Era Inferens

Peralihan daripada memfokuskan terutamanya pada model latihan kepada mengoptimumkan untuk inferens ialah evolusi kritikal dalam landskap AI. Latihan melibatkan pemberian sejumlah besar data kepada model untuk mengajar ia untuk mengenali corak dan membuat ramalan. Inferens, sebaliknya, ialah proses menggunakan model terlatih untuk membuat ramalan pada data baharu yang tidak dilihat.

Walaupun latihan ialah peristiwa yang intensif sumber, sekali sahaja (atau jarang), inferens berlaku secara berterusan dan pada skala dalam aplikasi dunia sebenar. Pertimbangkan aplikasi seperti:

  • Chatbot: Membalas pertanyaan pengguna dalam masa nyata.
  • Sistem Cadangan: Mencadangkan produk atau kandungan berdasarkan pilihan pengguna.
  • Pengesanan Penipuan: Mengenal pasti transaksi penipuan semasa ia berlaku.
  • Pengecaman Imej: Menganalisis imej untuk mengenal pasti objek, orang atau adegan.

Aplikasi ini memerlukan inferens yang pantas dan cekap untuk memberikan pengalaman pengguna yang lancar. Ironwood direka khusus untuk cemerlang dalam tugas ini.

Kelebihan Utama Ironwood untuk Inferens:

  • Throughput Tinggi: Kuasa pengkomputeran yang besar (42.5 exaflops) membolehkan Ironwood mengendalikan sejumlah besar permintaan inferens serentak.
  • Kependaman Rendah: Memori jalur lebar tinggi (HBM) dan seni bina yang cekap meminimumkan masa yang diambil untuk memproses setiap permintaan inferens.
  • Kecekapan Tenaga: Prestasi yang dipertingkatkan setiap watt mengurangkan kos operasi yang berkaitan dengan menjalankan penggunaan inferens berskala besar.

Dengan mengoptimumkan untuk inferens, Google membolehkan perniagaan menggunakan aplikasi dikuasakan AI dengan lebih cekap dan kos efektif.

A2A: Asas untuk AI Kolaboratif

Protokol Agent-to-Agent (A2A) mewakili langkah penting ke arah mewujudkan sistem AI yang lebih canggih dan kolaboratif. Dalam sistem berbilang ejen, berbilang ejen AI bekerjasama untuk menyelesaikan masalah yang kompleks. Setiap ejen mungkin mempunyai kemahiran dan pengetahuan khusus mereka sendiri, dan mereka berkomunikasi dan menyelaraskan antara satu sama lain untuk mencapai matlamat bersama.

Pertimbangkan senario yang melibatkan sokongan pelanggan automatik:

  • Ejen 1: Memahami pertanyaan awal pelanggan dan mengenal pasti isu yang mendasari.
  • Ejen 2: Mengakses pangkalan pengetahuan untuk mencari maklumat yang berkaitan.
  • Ejen 3: Menjadualkan janji temu susulan dengan ejen manusia jika perlu.

Ejen ini perlu dapat berkomunikasi dan berkongsi maklumat dengan lancar untuk memberikan pengalaman pelanggan yang padu. A2A menyediakan rangka kerja untuk jenis kerjasama ini.

Faedah Utama A2A:

  • Interoperabiliti: Membenarkan ejen yang dibangunkan pada platform dan rangka kerja yang berbeza untuk berkomunikasi antara satu sama lain.
  • Piawaian: Menyediakan ‘bahasa’ biasa dan set protokol untuk komunikasi ejen.
  • Keselamatan: Memastikan komunikasi selamat antara ejen, melindungi data sensitif.
  • Fleksibiliti: Menyokong pelbagai modaliti komunikasi, termasuk teks, audio dan video.

Dengan memupuk kerjasama antara ejen AI, A2A membolehkan pembangunan sistem AI yang lebih berkuasa dan serba boleh.

MCP: Merapatkan Jurang Antara AI dan Data

Protokol Konteks Model (MCP) menangani cabaran menghubungkan model AI kepada jumlah data yang besar yang diperlukan untuk melaksanakan tugas mereka dengan berkesan. Model AI memerlukan akses kepada data masa nyata daripada pelbagai sumber, seperti pangkalan data, API dan perkhidmatan awan, untuk membuat ramalan yang tepat dan keputusan termaklum.

MCP menyediakan cara yang standard untuk model AI mengakses dan berinteraksi dengan sumber data ini. Ia mentakrifkan set protokol untuk:

  • Penemuan Data: Mengenal pasti sumber data yang tersedia.
  • Akses Data: Mendapatkan data daripada sumber data.
  • Transformasi Data: Menukar data ke dalam format yang model AI boleh fahami.

Dengan menyediakan antara muka standard untuk akses data, MCP memudahkan proses mengintegrasikan model AI dengan data dunia sebenar.

Kelebihan Utama MCP:

  • Penyepaduan Dipermudahkan: Memudahkan untuk menyambungkan model AI kepada sumber data.
  • Piawaian: Menyediakan set protokol biasa untuk akses data.
  • Kecekapan Peningkatan: Mengurangkan masa dan usaha yang diperlukan untuk mengakses dan mengubah data.
  • Ketepatan Dipertingkatkan: Membolehkan model AI mengakses maklumat yang paling terkini, membawa kepada ramalan yang lebih tepat.

Dengan menyambungkan model AI kepada data yang mereka perlukan, MCP membolehkan mereka melaksanakan dengan lebih berkesan dan memberikan nilai yang lebih besar.