TPU Ironwood Google: 24x Lebih Cepat! | id

Lanskap pemrosesan kecerdasan buatan (AI) telah berubah secara signifikan dengan peluncuran Tensor Processing Unit (TPU) generasi ketujuh Google, yang dikenal sebagai Ironwood. Akselerator AI mutakhir ini menawarkan kemampuan komputasi yang, dalam penerapan skala besar, melampaui superkomputer tercepat di dunia lebih dari 24 kali lipat.

Chip baru ini, yang diungkapkan pada konferensi Google Cloud Next ‘25, menandai momen penting dalam strategi sepuluh tahun Google dalam pengembangan chip AI. Tidak seperti pendahulunya, yang terutama dirancang untuk beban kerja pelatihan dan inferensi AI, Ironwood secara khusus direkayasa untuk inferensi, menandakan pergeseran strategis menuju pengoptimalan efisiensi penerapan AI.

Amin Vahdat, Wakil Presiden dan Manajer Umum Pembelajaran Mesin, Sistem, dan Cloud AI Google, menekankan transisi ini, dengan menyatakan, ‘Ironwood dirancang untuk mendukung fase berikutnya dari AI generatif dan tuntutan komputasi dan komunikasinya yang sangat besar. Inilah yang kami sebut ‘Era Inferensi,’ di mana agen AI akan secara proaktif mengambil dan menghasilkan data untuk berkolaborasi dalam memberikan wawasan dan jawaban, daripada hanya memproses data.’

Memecah Hambatan dengan 42,5 Exaflops Daya Komputasi

Spesifikasi teknis Ironwood benar-benar mengesankan. Ketika diskalakan ke pod dengan 9.216 chip, ia menghasilkan 42,5 exaflops komputasi AI yang mengejutkan. Untuk menempatkan ini dalam perspektif, ia mengerdilkan superkomputer tercepat dunia saat ini, El Capitan, yang beroperasi pada 1,7 exaflops. Setiap chip Ironwood individu dapat mencapai kemampuan komputasi puncak 4614 TFLOPs.

Selain daya pemrosesan mentah, Ironwood secara signifikan meningkatkan memori dan bandwidth. Setiap chip dilengkapi dengan 192GB memori bandwidth tinggi (HBM), peningkatan enam kali lipat dibandingkan dengan TPU generasi sebelumnya, Trillium, yang dirilis tahun lalu. Bandwidth memori per chip mencapai 7,2 terabit/s, 4,5 kali lipat dari Trillium.

Daya Komputasi: 42,5 exaflops (per pod 9.216 chip)
Komputasi Puncak per Chip: 4614 TFLOPs
Memori: 192GB HBM per chip
Bandwidth Memori: 7,2 terabit/s per chip

Di era di mana pusat data berkembang dan konsumsi daya menjadi perhatian yang berkembang, Ironwood juga menunjukkan peningkatan signifikan dalam efisiensi energi. Ia menawarkan dua kali kinerja per watt dibandingkan dengan Trillium dan hampir 30 kali lipat dari TPU pertama yang diperkenalkan pada tahun 2018.

Optimalisasi untuk inferensi ini menandakan titik balik penting dalam evolusi AI. Dalam beberapa tahun terakhir, laboratorium AI terkemuka telah berkonsentrasi pada pengembangan model fondasi yang semakin besar dengan jumlah parameter yang terus bertambah. Fokus Google pada optimalisasi inferensi menunjukkan perpindahan ke paradigma baru yang berpusat pada efisiensi penerapan dan kemampuan inferensi.

Meskipun pelatihan model tetap penting, operasi inferensi jauh lebih sering, terjadi miliaran kali setiap hari karena teknologi AI menjadi lebih luas. Bagi bisnis yang memanfaatkan AI, ekonomi secara intrinsik terkait dengan biaya inferensi karena model menjadi lebih kompleks.

Permintaan komputasi AI Google telah tumbuh sepuluh kali lipat dalam delapan tahun terakhir, mencapai 100 juta yang mencengangkan. Tanpa arsitektur khusus seperti Ironwood, tidak mungkin untuk mempertahankan lintasan pertumbuhan ini melalui kemajuan tradisional dalam Hukum Moore saja.

Khususnya, pengumuman Google menekankan fokus pada ‘model penalaran’ yang mampu menjalankan tugas inferensi yang kompleks daripada pengenalan pola sederhana. Ini menunjukkan keyakinan bahwa masa depan AI tidak hanya terletak pada model yang lebih besar tetapi juga pada model yang mampu memecah masalah, terlibat dalam penalaran multi-langkah, dan meniru proses berpikir seperti manusia.

Memberdayakan Model Besar Generasi Berikutnya

Google memposisikan Ironwood sebagai infrastruktur fondasi untuk model AI-nya yang paling canggih, termasuk Gemini 2.5 miliknya sendiri, yang menawarkan ‘kemampuan penalaran asli.’

Perusahaan juga baru-baru ini memperkenalkan Gemini 2.5 Flash, versi yang lebih kecil dari model andalannya yang dirancang untuk ‘menyesuaikan kedalaman penalaran berdasarkan kompleksitas prompt.’ Model ini diarahkan untuk aplikasi sehari-hari yang membutuhkan waktu respons yang cepat.

Google lebih lanjut memamerkan rangkaian lengkap model generasi multimodalnya, yang mencakup teks-ke-gambar, teks-ke-video, dan kemampuan teks-ke-musik yang baru diluncurkan, Lyria. Demo mengilustrasikan bagaimana alat ini dapat digabungkan untuk membuat video promosi lengkap untuk konser.

Ironwood hanyalah salah satu komponen dari strategi infrastruktur AI Google yang lebih luas. Perusahaan juga mengumumkan Cloud WAN, layanan jaringan area luas terkelola yang memberi perusahaan akses ke infrastruktur jaringan pribadi skala global Google.

Google juga memperluas penawaran perangkat lunaknya untuk beban kerja AI, termasuk Pathways, runtime pembelajaran mesin yang dikembangkan oleh Google DeepMind. Pathways sekarang memungkinkan pelanggan untuk menskalakan model yang melayani ratusan TPU.

Memperkenalkan A2A: Mendorong Ekosistem Kolaborasi Agen Cerdas

Selain kemajuan perangkat keras, Google mempresentasikan visinya untuk AI yang berpusat di sekitar sistem multi-agen, meluncurkan protokol untuk memfasilitasi pengembangan agen cerdas: Agent-to-Agent (A2A). Protokol ini dirancang untuk mempromosikan komunikasi yang aman dan standar antara agen AI yang berbeda.

Google percaya bahwa tahun 2025 akan menandai tahun transformatif bagi AI, dengan penerapan AI generatif yang berkembang dari menjawab pertanyaan tunggal menjadi memecahkan masalah kompleks melalui sistem agen cerdas.

Protokol A2A memungkinkan interoperabilitas lintas platform dan kerangka kerja, menyediakan agen dengan ‘bahasa’ umum dan saluran komunikasi yang aman. Protokol ini dapat dilihat sebagai lapisan jaringan untuk agen cerdas, yang bertujuan untuk menyederhanakan kolaborasi agen dalam alur kerja yang kompleks. Ini memberdayakan agen AI khusus untuk bekerja sama dalam tugas-tugas dengan berbagai kompleksitas dan durasi, yang pada akhirnya meningkatkan kemampuan keseluruhan melalui kolaborasi.

Cara Kerja A2A

Google memberikan perbandingan antara protokol MCP dan A2A di posting blog-nya:

MCP (Model Context Protocol): Untuk manajemen alat dan sumber daya
- Menghubungkan agen ke alat, API, dan sumber daya melalui input/output terstruktur.
- Google ADK mendukung alat MCP, memungkinkan berbagai server MCP untuk bekerja dengan agen.
A2A (Agent2Agent Protocol): Untuk kolaborasi antar agen
- Memungkinkan komunikasi multimodal dinamis antar agen tanpa berbagi memori, sumber daya, atau alat.
- Standar terbuka yang didorong oleh komunitas.
- Contoh dapat dilihat menggunakan alat seperti Google ADK, LangGraph, dan Crew.AI.

Singkatnya, A2A dan MCP saling melengkapi. MCP menyediakan agen dengan dukungan alat, sementara A2A memungkinkan agen yang dilengkapi ini untuk berkomunikasi dan berkolaborasi satu sama lain.

Daftar mitra yang diumumkan oleh Google menunjukkan bahwa A2A siap menerima perhatian yang sama dengan MCP. Inisiatif ini telah menarik lebih dari 50 perusahaan ke kohort kolaborasi awalnya, termasuk perusahaan teknologi terkemuka dan penyedia layanan konsultasi dan integrasi sistem global terkemuka.

Google menekankan keterbukaan protokol, memposisikannya sebagai metode standar bagi agen untuk berkolaborasi, terlepas dari kerangka kerja teknologi atau penyedia layanan yang mendasarinya. Perusahaan menyatakan bahwa mereka mematuhi lima prinsip utama berikut saat merancang protokol dengan mitranya:

Merangkul Kemampuan Agen: A2A berfokus pada pemberdayaan agen untuk berkolaborasi dengan cara alami dan tidak terstruktur, bahkan jika mereka tidak berbagi memori, alat, dan konteks. Tujuannya adalah untuk memungkinkan skenario multi-agen yang tulus tanpa membatasi agen hanya pada ‘alat.’
Membangun Standar yang Ada: Protokol ini dibangun di atas standar populer yang ada, termasuk HTTP, SSE, dan JSON-RPC, membuatnya lebih mudah untuk diintegrasikan dengan tumpukan TI yang ada yang digunakan oleh perusahaan.
Aman Secara Default: A2A dirancang untuk mendukung otentikasi dan otorisasi tingkat perusahaan, sebanding dengan skema otentikasi OpenAPI saat peluncuran.
Mendukung Tugas Berjangka Panjang: A2A dirancang dengan fleksibilitas untuk mendukung berbagai skenario, dari tugas cepat hingga penelitian mendalam yang dapat memakan waktu berjam-jam atau bahkan berhari-hari (ketika manusia terlibat). Sepanjang proses, A2A dapat memberi pengguna umpan balik real-time, pemberitahuan, dan pembaruan status.
Agnostik Modalitas: Dunia agen tidak terbatas pada teks, itulah mengapa A2A dirancang untuk mendukung berbagai modalitas, termasuk aliran audio dan video.

Contoh: Proses Perekrutan yang Disederhanakan melalui A2A

Contoh yang diberikan oleh Google mengilustrasikan bagaimana A2A dapat secara signifikan menyederhanakan proses perekrutan.

Dalam antarmuka terpadu seperti Agentspace, manajer perekrutan dapat menugaskan agen untuk menemukan kandidat yang cocok berdasarkan persyaratan pekerjaan. Agen ini dapat berinteraksi dengan agen khusus di bidang tertentu untuk menyelesaikan sumber kandidat. Pengguna juga dapat menginstruksikan agen untuk menjadwalkan wawancara dan memungkinkan agen khusus lainnya untuk membantu pemeriksaan latar belakang, sehingga memungkinkan perekrutan kolaboratif lintas sistem yang sepenuhnya otomatis.

Merangkul MCP: Bergabung dengan Ekosistem Model Context Protocol

Secara bersamaan, Google juga merangkul MCP. Hanya beberapa minggu setelah OpenAI mengumumkan adopsi Anthropic’s Model Context Protocol (MCP), Google mengikuti dan bergabung dengan inisiatif tersebut.

CEO Google DeepMind Demis Hassabis mengumumkan di X bahwa Google akan menambahkan dukungan untuk MCP ke model dan SDK Gemini-nya, meskipun jadwal khusus tidak diberikan.

Hassabis menyatakan, ‘MCP adalah protokol yang sangat baik yang dengan cepat menjadi standar terbuka untuk era agen AI. Kami berharap dapat bekerja sama dengan tim MCP dan mitra lain di industri untuk memajukan pengembangan teknologi ini.’

Sejak dirilis pada November 2024, MCP dengan cepat mendapatkan popularitas dan perhatian luas, muncul sebagai cara yang sederhana dan standar untuk menghubungkan model bahasa dengan alat dan data.

MCP memungkinkan model AI untuk mengakses data dari sumber data seperti alat dan perangkat lunak perusahaan untuk menyelesaikan tugas dan untuk mengakses perpustakaan konten dan lingkungan pengembangan aplikasi. Protokol ini memungkinkan pengembang untuk membangun koneksi dua arah antara sumber data dan aplikasi yang digerakkan oleh AI, seperti chatbot.

Pengembang dapat mengekspos antarmuka data melalui server MCP dan membangun klien MCP (seperti aplikasi dan alur kerja) untuk terhubung ke server ini. Karena Anthropic open-sourced MCP, beberapa perusahaan telah mengintegrasikan dukungan MCP ke dalam platform mereka.

Analisis Mendalam tentang Konsep Utama:

Untuk lebih memperjelas dampak dan signifikansi dari pengumuman terbaru Google, mari kita gali lebih dalam komponen inti: Ironwood, A2A, dan MCP.

Ironwood: Selami Era Inferensi

Pergeseran dari berfokus terutama pada pelatihan model ke pengoptimalan untuk inferensi adalah evolusi penting dalam lanskap AI. Pelatihan melibatkan pemberian sejumlah besar data ke model untuk mengajarinya mengenali pola dan membuat prediksi. Inferensi, di sisi lain, adalah proses menggunakan model terlatih untuk membuat prediksi pada data baru yang tidak terlihat.

Meskipun pelatihan adalah peristiwa satu kali (atau jarang) yang intensif sumber daya, inferensi terjadi terus menerus dan pada skala besar dalam aplikasi dunia nyata. Pertimbangkan aplikasi seperti:

Chatbot: Menanggapi pertanyaan pengguna secara real-time.
Sistem Rekomendasi: Menyarankan produk atau konten berdasarkan preferensi pengguna.
Deteksi Penipuan: Mengidentifikasi transaksi penipuan saat terjadi.
Pengenalan Gambar: Menganalisis gambar untuk mengidentifikasi objek, orang, atau adegan.

Aplikasi ini membutuhkan inferensi yang cepat dan efisien untuk memberikan pengalaman pengguna yang mulus. Ironwood dirancang khusus untuk unggul dalam tugas-tugas ini.

Keuntungan Utama Ironwood untuk Inferensi:

Throughput Tinggi: Daya komputasi besar (42,5 exaflops) memungkinkan Ironwood untuk menangani volume besar permintaan inferensi secara bersamaan.
Latensi Rendah: Memori bandwidth tinggi (HBM) dan arsitektur efisien meminimalkan waktu yang dibutuhkan untuk memproses setiap permintaan inferensi.
Efisiensi Energi: Kinerja per watt yang ditingkatkan mengurangi biaya operasional yang terkait dengan menjalankan penerapan inferensi skala besar.

Dengan mengoptimalkan untuk inferensi, Google memungkinkan bisnis untuk menerapkan aplikasi bertenaga AI secara lebih efisien dan hemat biaya.

A2A: Fondasi untuk AI Kolaboratif

Protokol Agent-to-Agent (A2A) mewakili langkah signifikan menuju penciptaan sistem AI yang lebih canggih dan kolaboratif. Dalam sistem multi-agen, beberapa agen AI bekerja sama untuk memecahkan masalah yang kompleks. Setiap agen mungkin memiliki keterampilan dan pengetahuan khusus sendiri, dan mereka berkomunikasi dan berkoordinasi satu sama lain untuk mencapai tujuan bersama.

Pertimbangkan skenario yang melibatkan dukungan pelanggan otomatis:

Agen 1: Memahami pertanyaan awal pelanggan dan mengidentifikasi masalah yang mendasarinya.
Agen 2: Mengakses basis pengetahuan untuk menemukan informasi yang relevan.
Agen 3: Menjadwalkan janji tindak lanjut dengan agen manusia jika perlu.

Agen-agen ini perlu dapat berkomunikasi dan berbagi informasi dengan lancar untuk memberikan pengalaman pelanggan yang kohesif. A2A menyediakan kerangka kerja untuk jenis kolaborasi ini.

Manfaat Utama A2A:

Interoperabilitas: Memungkinkan agen yang dikembangkan di platform dan kerangka kerja yang berbeda untuk berkomunikasi satu sama lain.
Standardisasi: Menyediakan ‘bahasa’ umum dan serangkaian protokol untuk komunikasi agen.
Keamanan: Memastikan komunikasi yang aman antar agen, melindungi data sensitif.
Fleksibilitas: Mendukung berbagai modalitas komunikasi, termasuk teks, audio, dan video.

Dengan mendorong kolaborasi antar agen AI, A2A memungkinkan pengembangan sistem AI yang lebih kuat dan serbaguna.

MCP: Menjembatani Kesenjangan Antara AI dan Data

Model Context Protocol (MCP) mengatasi tantangan menghubungkan model AI ke sejumlah besar data yang diperlukan untuk melakukan tugas mereka secara efektif. Model AI memerlukan akses ke data real-time dari berbagai sumber, seperti database, API, dan layanan cloud, untuk membuat prediksi yang akurat dan keputusan yang tepat.

MCP menyediakan cara standar bagi model AI untuk mengakses dan berinteraksi dengan sumber data ini. Ini mendefinisikan serangkaian protokol untuk:

Penemuan Data: Mengidentifikasi sumber data yang tersedia.
Akses Data: Mengambil data dari sumber data.
Transformasi Data: Mengonversi data ke format yang dapat dipahami oleh model AI.

Dengan menyediakan antarmuka standar untuk akses data, MCP menyederhanakan proses mengintegrasikan model AI dengan data dunia nyata.

Keuntungan Utama MCP:

Integrasi yang Disederhanakan: Memudahkan untuk menghubungkan model AI ke sumber data.
Standardisasi: Menyediakan serangkaian protokol umum untuk akses data.
Peningkatan Efisiensi: Mengurangi waktu dan upaya yang dibutuhkan untuk mengakses dan mengubah data.
Peningkatan Akurasi: Memungkinkan model AI untuk mengakses informasi terbaru, yang mengarah pada prediksi yang lebih akurat.

Dengan menghubungkan model AI ke data yang mereka butuhkan, MCP memungkinkan mereka untuk melakukan lebih efektif dan memberikan nilai yang lebih besar.

diperbarui pada 2025-04-16

# Google # Gemini # Agent