Ironwood TPU Google: Lompatan AI Dahsyat

Google Ironwood TPU: Lompatan Kuantum dalam Kekuatan Komputasi AI

Lanskap kecerdasan buatan (AI) terus berkembang, dengan kemajuan dalam perangkat keras memainkan peran penting dalam membuka kemungkinan baru. Google, pelopor dalam inovasi AI, baru-baru ini meluncurkan Tensor Processing Unit (TPU) generasi ketujuhnya, dengan nama kode Ironwood, menandai langkah signifikan dalam kemampuan komputasi AI. Akselerator AI mutakhir ini menawarkan kecakapan komputasi yang melampaui bahkan superkomputer tercepat di dunia dengan faktor 24 yang mencengangkan dalam penerapan skala besar.

Diumumkan di konferensi Google Cloud Next ‘25, Ironwood mewakili poros strategis dalam perjalanan satu dekade Google dalam pengembangan chip AI. Tidak seperti pendahulunya, yang dirancang terutama untuk pelatihan AI dan beban kerja inferensi, Ironwood secara khusus direkayasa untuk unggul dalam tugas-tugas inferensi, mengantarkan era baru aplikasi berbasis AI.

Menurut Amin Vahdat, Wakil Presiden dan General Manager Pembelajaran Mesin, Sistem, dan Cloud AI di Google, ‘Ironwood dirancang untuk mendukung fase berikutnya dari AI generatif dan kebutuhan komputasi dan komunikasinya yang sangat besar. Inilah yang kami sebut ‘Era Inferensi,’ di mana agen AI akan secara proaktif mengambil dan menghasilkan data untuk secara kolaboratif memberikan wawasan dan jawaban, bukan hanya data.’

Membongkar Kapabilitas Ironwood yang Belum Pernah Terjadi Sebelumnya

Spesifikasi teknis Ironwood tidak kurang dari luar biasa. Ketika diskalakan ke pod yang terdiri dari 9.216 chip, ia dapat menghasilkan daya komputasi AI sebesar 42,5 exaflop yang mencengangkan. Angka ini mengerdilkan 1,7 exaflop yang ditawarkan oleh El Capitan, pemegang gelar saat ini untuk superkomputer tercepat di dunia. Setiap chip Ironwood individual menawarkan kapasitas komputasi puncak 4.614 TFLOPs.

Di luar kekuatan pemrosesan semata, Ironwood juga menampilkan peningkatan signifikan dalam memori dan bandwidth. Setiap chip dilengkapi dengan memori bandwidth tinggi (HBM) 192GB, peningkatan enam kali lipat dibandingkan dengan TPU generasi sebelumnya, Trillium, yang dirilis tahun lalu. Selain itu, bandwidth memori per chip mencapai 7,2 terabit/s, mewakili peningkatan 4,5 kali lipat dibandingkan Trillium.

Di era di mana pusat data berkembang dan konsumsi daya menjadi perhatian kritis, Ironwood juga menonjol karena efisiensi energinya. Kinerjanya per watt dua kali lipat dari Trillium dan hampir 30 kali lebih tinggi dari TPU pertama yang diperkenalkan pada tahun 2018.

Penekanan pada optimasi inferensi menandakan perubahan penting dalam lanskap AI. Dalam beberapa tahun terakhir, lab AI terkemuka terutama berfokus pada pembangunan model fondasi yang lebih besar dengan peningkatan jumlah parameter. Fokus Google pada optimasi inferensi menunjukkan transisi menuju fase baru yang berpusat pada efisiensi penerapan dan kemampuan inferensi.

Sementara pelatihan model tetap penting, jumlah iterasi pelatihan terbatas. Sebaliknya, karena teknologi AI semakin terintegrasi ke dalam berbagai aplikasi, operasi inferensi diharapkan terjadi miliaran kali setiap hari. Seiring pertumbuhan model dalam kompleksitas, kelayakan ekonomi aplikasi ini menjadi terkait erat dengan biaya inferensi.

Selama delapan tahun terakhir, permintaan Google untuk komputasi AI telah tumbuh sepuluh kali lipat, mencapai 100 juta yang mencengangkan. Tanpa arsitektur khusus seperti Ironwood, bahkan kemajuan tanpa henti dari Hukum Moore akan berjuang untuk mengimbangi pertumbuhan eksponensial ini.

Khususnya, pengumuman Google menyoroti fokusnya pada ‘model mental’ yang mampu melakukan tugas penalaran yang kompleks daripada pengenalan pola sederhana. Ini menunjukkan bahwa Google membayangkan masa depan di mana AI melampaui model yang lebih besar dan mencakup model yang dapat menguraikan masalah, melakukan penalaran multi-langkah, dan meniru proses berpikir seperti manusia.

Memberdayakan Generasi Berikutnya dari Model Besar

Google memposisikan Ironwood sebagai infrastruktur dasar untuk model AI-nya yang paling canggih, termasuk Gemini 2.5, yang menawarkan kemampuan penalaran bawaan.

Google juga baru-baru ini memperkenalkan Gemini 2.5 Flash, varian yang lebih kecil dari model andalannya yang dirancang untuk aplikasi sehari-hari yang sensitif terhadap latensi. Gemini 2.5 Flash dapat secara dinamis menyesuaikan kedalaman penalarannya berdasarkan kompleksitas prompt.

Google juga memamerkan rangkaian lengkap model generatif multimodalnya, termasuk teks-ke-gambar, teks-ke-video, dan fitur teks-ke-musik yang baru diluncurkan, Lyria. Sebuah demo mengilustrasikan bagaimana alat-alat ini dapat digabungkan untuk menghasilkan video promosi lengkap untuk sebuah konser.

Ironwood hanyalah salah satu komponen dari strategi infrastruktur AI Google yang lebih luas. Google juga mengumumkan Cloud WAN, layanan jaringan area luas terkelola yang memungkinkan perusahaan untuk mengakses infrastruktur jaringan pribadi skala global Google.

Selain itu, Google memperluas penawaran perangkat lunaknya untuk beban kerja AI, termasuk Pathways, runtime pembelajaran mesin yang dikembangkan oleh Google DeepMind. Pathways sekarang memungkinkan pelanggan untuk menskalakan penyajian model di ratusan TPU.

Mendorong Kolaborasi Agen AI dengan A2A

Di luar kemajuan perangkat keras, Google juga telah menguraikan visinya untuk ekosistem AI yang berpusat di sekitar sistem multi-agen. Untuk memfasilitasi pengembangan agen cerdas, Google telah memperkenalkan protokol Agent-to-Agent (A2A), yang dirancang untuk memungkinkan komunikasi yang aman dan terstandarisasi antara agen AI yang berbeda.

Google percaya bahwa 2025 akan menandai tahun transformatif bagi AI, dengan aplikasi AI generatif yang berkembang dari menjawab pertanyaan tunggal menjadi memecahkan masalah kompleks melalui sistem agen.

Protokol A2A memungkinkan interoperabilitas antara agen di berbagai platform dan kerangka kerja, memberi mereka ‘bahasa’ umum dan saluran komunikasi yang aman. Protokol ini dapat dilihat sebagai lapisan jaringan untuk agen cerdas, yang bertujuan untuk menyederhanakan kolaborasi agen dalam alur kerja yang kompleks. Dengan memungkinkan agen AI khusus untuk bekerja sama dalam tugas-tugas dengan kompleksitas dan durasi yang bervariasi, A2A berupaya untuk meningkatkan kemampuan keseluruhan melalui kolaborasi.

A2A bekerja dengan menetapkan cara standar bagi agen untuk bertukar informasi dan mengoordinasikan tindakan, tanpa mengharuskan mereka untuk berbagi kode atau struktur data yang mendasari. Ini memungkinkan pembuatan sistem AI yang lebih modular dan fleksibel, di mana agen dapat dengan mudah ditambahkan, dihapus, atau dikonfigurasi ulang sesuai kebutuhan.

Google telah menarik perbandingan antara protokol MCP dan A2A dalam posting blog.

  • MCP (Model Context Protocol) dirancang untuk manajemen alat dan sumber daya.
    • Ini menghubungkan agen ke alat, API, dan sumber daya melalui input/output terstruktur.
    • Google ADK mendukung alat MCP, memungkinkan berbagai server MCP untuk bekerja dengan agen.
  • A2A (Agent2Agent Protocol) dirancang untuk kolaborasi antara agen.
    • Ini memungkinkan komunikasi dinamis dan multi-modal antara agen tanpa berbagi memori, sumber daya, atau alat.
    • Ini adalah standar terbuka yang didorong oleh komunitas.
    • Contoh dapat dilihat menggunakan Google ADK, LangGraph, Crew.AI, dan alat lainnya.

Singkatnya, A2A dan MCP saling melengkapi: MCP menyediakan agen dengan dukungan alat, sementara A2A memungkinkan agen yang dilengkapi alat ini untuk berkomunikasi dan berkolaborasi satu sama lain.

Dilihat dari mitra awal, A2A tampaknya siap untuk mendapatkan perhatian yang sama seperti MCP. Lebih dari 50 perusahaan telah bergabung dengan kolaborasi awal, termasuk perusahaan teknologi terkemuka dan penyedia layanan integrasi sistem dan konsultasi global teratas.

Google menekankan keterbukaan protokol, memposisikannya sebagai cara standar bagi agen untuk berkolaborasi, terlepas dari kerangka kerja teknologi atau penyedia layanan yang mendasari. Google menguraikan lima prinsip utama yang memandu desain protokol dalam kolaborasi dengan mitranya:

  1. Rangkul Kemampuan Agen: A2A berfokus pada memungkinkan agen untuk berkolaborasi dengan cara alami dan tidak terstruktur mereka, bahkan jika mereka tidak berbagi memori, alat, dan konteks. Protokol ini bertujuan untuk memungkinkan skenario multi-agen yang sebenarnya, daripada membatasi agen untuk menjadi sekadar ‘alat.’
  2. Bangun di Atas Standar yang Ada: Protokol ini dibangun di atas standar populer yang ada, termasuk HTTP, SSE, dan JSON-RPC, sehingga lebih mudah untuk diintegrasikan dengan tumpukan TI yang ada yang umum digunakan oleh perusahaan.
  3. Aman Secara Default: A2A dirancang untuk mendukung otentikasi dan otorisasi tingkat perusahaan, sebanding dengan skema otentikasi OpenAPI saat peluncuran.
  4. Mendukung Tugas Jangka Panjang: A2A dirancang agar fleksibel, mendukung berbagai skenario, dari tugas cepat hingga penelitian mendalam yang mungkin memakan waktu berjam-jam atau bahkan berhari-hari (ketika manusia terlibat). Sepanjang proses, A2A dapat memberi pengguna umpan balik, notifikasi, dan pembaruan status secara real-time.
  5. Agnostik Modalitas: Dunia agen tidak terbatas pada teks, itulah sebabnya A2A dirancang untuk mendukung berbagai modalitas, termasuk aliran audio dan video.

Google memberikan contoh bagaimana A2A dapat secara signifikan merampingkan proses perekrutan.

Dalam antarmuka terpadu seperti Agentspace, seorang manajer perekrutan dapat menugaskan agen untuk menemukan kandidat yang cocok berdasarkan persyaratan pekerjaan. Agen ini dapat berinteraksi dengan agen khusus untuk mencari kandidat, menjadwalkan wawancara, dan bahkan melibatkan agen khusus lainnya untuk membantu pemeriksaan latar belakang, memungkinkan otomatisasi cerdas dari seluruh proses perekrutan di berbagai sistem.

Merangkul Model Context Protocol (MCP)

Selain upaya dalam mengembangkan A2A, Google juga merangkul Model Context Protocol (MCP). Hanya beberapa minggu setelah OpenAI mengumumkan adopsi MCP, Google mengikuti jejaknya.

Demis Hassabis, CEO Google DeepMind, baru-baru ini mengumumkan di X bahwa Google akan menambahkan dukungan untuk MCP ke model dan SDK Gemini-nya. Namun, dia tidak memberikan garis waktu yang spesifik.

Hassabis menyatakan bahwa ‘MCP adalah protokol yang sangat baik yang dengan cepat menjadi standar terbuka untuk era agen AI. Saya berharap dapat bekerja dengan tim MCP dan mitra lain di industri untuk memajukan teknologi ini.’

Sejak dirilis pada November 2024, MCP dengan cepat mendapatkan daya tarik, menjadi cara yang sederhana dan terstandarisasi untuk menghubungkan model bahasa dengan alat dan data.

MCP memungkinkan model AI untuk mengakses data dari sumber seperti alat dan perangkat lunak perusahaan untuk menyelesaikan tugas, serta mengakses pustaka konten dan lingkungan pengembangan aplikasi. Protokol ini memungkinkan pengembang untuk membuat koneksi dua arah antara sumber data dan aplikasi bertenaga AI, seperti chatbot.

Pengembang dapat mengekspos antarmuka data melalui server MCP dan membangun klien MCP (seperti aplikasi dan alur kerja) untuk terhubung ke server ini. Karena Anthropic membuka sumber MCP, beberapa perusahaan telah mengintegrasikan dukungan MCP ke dalam platform mereka.