Setiap laboratorium AI di garis depan saat ini sedang mengatur dua hal: listrik dan komputasi. Sebagian besar dari mereka membeli komputasi untuk pelatihan model dari pemasok yang sama, dengan margin kotor yang tinggi sehingga membuat Nvidia menjadi salah satu perusahaan paling berharga di dunia. Namun, Google tidak mengikuti jejak tersebut.
- “Satu chip dalam setahun tidak cukup”: Dalam taruhan dua chip Google untuk 2024
- TPU 8t: Sebuah jalinan pelatihan yang bisa skala hingga satu juta chip
- TPU 8i dan Boardfly: Merekayasa ulang jaringan untuk agen
- Keuntungan integrasi vertikal: Mengapa Google tidak membayar “pajak Nvidia”
- Apa yang v8 berarti untuk perlombaan komputasi: Daftar evaluasi baru untuk pemimpin TI
Pada malam Selasa, dalam sebuah pertemuan pribadi di F1 Plaza di Las Vegas, Google memperkenalkan Tensor Processing Units generasi kedelapan mereka. Penawaran ini meliputi dua desain silikon kustom yang akan mulai dikirim tahun ini, masing-masing dirancang khusus untuk setengah beban kerja AI modern yang berbeda. TPU 8t ditujukan untuk pelatihan model yang ada di garis depan, sementara TPU 8i fokus pada dunia inferensi agentic yang membutuhkan latensi rendah dan pengambilan sampel secara real-time.
Amin Vahdat, SVP dan kepala teknolog AI serta infrastruktur di Google, menggunakan momen itu di panggung untuk menyampaikan poin penting yang lebih berarti bagi pembeli korporat daripada spesifikasi individu. Google merancang setiap lapisan dari stack AI-nya secara menyeluruh, dan integrasi vertikal ini mulai terlihat dalam ekonomi biaya per token yang menurut Google tidak dapat ditandingi oleh pesaing.
“Satu chip dalam setahun tidak cukup”: Dalam taruhan dua chip Google untuk 2024
Kisah yang lebih menarik di balik TPU 8t dan TPU 8i adalah kapan keputusan untuk memisahkan roadmap itu diambil. Keputusan ini diambil pada tahun 2024, menurut Vahdat, satu tahun sebelum industri secara keseluruhan beralih ke model pemikiran, agen, dan pembelajaran penguatan sebagai beban kerja utama. Saat itu, ini adalah pandangan yang berlawanan.
“Kami menyadari dua tahun lalu bahwa satu chip dalam setahun tidak akan cukup,” kata Vahdat selama acara. “Ini adalah percobaan pertama kami benar-benar menggunakan dua chip khusus berkekuatan tinggi.”
Bagi pembeli korporat, implikasinya sangat jelas. Pelanggan yang melakukan fine-tuning atau pelatihan berskala besar di Google Cloud dan mereka yang menyuplai agen produksi di Vertex AI telah menyewa akselerator yang sama dan menghadapi ketidakefisienan. V8 adalah generasi pertama di mana silikon itu sendiri menganggap masalah ini sebagai dua masalah yang berbeda dengan dua set chip.
TPU 8t: Sebuah jalinan pelatihan yang bisa skala hingga satu juta chip
Secara asumsi, TPU 8t adalah langkah generasi yang agresif. Menurut Google, 8t memberikan 2,8 kali FP4 EFlops per pod (121 vs 42,5) dibandingkan dengan Ironwood, TPU generasi ketujuh yang dirilis pada 2025. Bandwidth skala dua arah meningkat dua kali lipat menjadi 19,2 Tb/s per chip dan jaringan skala luar meningkat empat kali lipat menjadi 400 Gb/s per chip. Ukuran pod sedikit meningkat dari 9.216 menjadi 9.600 chip, dihubungkan dengan topologi 3D Torus milik Google.
Angka yang paling penting bagi pemimpin TI yang mengevaluasi di mana akan menjalani pelatihan skala frontier adalah bahwa kluster 8t (Superpods) dapat meningkat menjadi lebih dari satu juta chip TPU dalam satu pekerjaan pelatihan melalui interkoneksi baru yang disebut Google sebagai jaringan Virgo.
TPU 8t juga memperkenalkan TPU Direct Storage, yang memindahkan data dari tier penyimpanan yang dikelola Google langsung ke HBM tanpa perlu langkah CPU yang biasa. Untuk pelatihan yang panjang, di mana waktu yang terbuang menjadi faktor biaya, penyederhanaan jalur data ini mengurangi jumlah jam pod yang dibutuhkan untuk menyelesaikan setiap epoch.
TPU 8i dan Boardfly: Merekayasa ulang jaringan untuk agen
Jika 8t adalah langkah evolusioner, TPU 8i adalah chip yang lebih menarik secara arsitektural. Di sinilah cerita untuk pembeli IT menjadi sangat menarik.
Peningkatan spesifikasi tahun ke tahun, seperti yang disampaikan Vahdat, “sangat mencolok.” Menurut Google, 8i menghasilkan 9,8 kali FP8 EFlops per pod (11,6 vs 1,2), kapasitas HBM per pod meningkat 6,8 kali lipat (331,8 TB vs 49,2), dengan ukuran pod yang tumbuh 4,5 kali lipat dari 256 menjadi 1.152 chip.
Angka-angka ini didorong oleh pemikiran ulang tentang jaringan itu sendiri. Vahdat menjelaskan wawasan tersebut secara langsung: cara default Google untuk menghubungkan chip mendukung bandwidth dibanding latensi — bagus untuk memindahkan banyak data, tetapi tidak dirancang untuk seberapa cepat respons dapat kembali. Profil ini bekerja untuk pelatihan, tetapi tidak untuk agen. Bersama Google DeepMind, tim TPU membangun topologi yang dinamakan Boardfly untuk mengurangi diameter jaringan — memperkecil jumlah langkah antara dua chip dalam sebuah pod. Dikenakan dengan Collective Acceleration Engine dan SRAM on-chip yang sangat besar, 8i mengklaim memberikan perbaikan latensi sebesar 5 kali untuk pengambilan LLM secara real-time dan pembelajaran penguatan.
Keuntungan integrasi vertikal: Mengapa Google tidak membayar “pajak Nvidia”
Di balik presentasi Vahdat terlihat diagram enam lapis yang disebut Google sebagai stack AI mereka: energi di bagian bawah, kemudian tanah dan wadah pusat data, perangkat keras infrastruktur AI, perangkat lunak infrastruktur AI, model (Gemini 3), dan layanan di atasnya. Vahdat mencatat bahwa mendesain setiap lapisan secara terpisah memaksa Anda ke penyewa paling umum untuk setiap lapisan. Google merancang semuanya bersama-sama.
Di sinilah cerita kompetitif bagi pembeli TI dan analis menjadi jelas. OpenAI, Anthropic, xAI, dan Meta sangat bergantung pada silikon Nvidia untuk melatih model-model frontier mereka. Setiap H200 dan GPU Blackwell yang mereka beli membawa margin kotor data center Nvidia — istilah tidak resmi “pajak Nvidia” yang telah diperingatkan para analis industri selama dua tahun berturut-turut sebagai kelemahan biaya struktural bagi siapa saja yang menyewa alih-alih merancang. Google membayar biaya fab, pengepakan, dan rekayasa pada TPUs-nya. Mereka tidak membayar margin itu.
Apa yang v8 berarti untuk perlombaan komputasi: Daftar evaluasi baru untuk pemimpin TI
Bagi tim pengadaan dan infrastruktur, TPU v8 mengubah cara evaluasi cloud 2026–2027 dengan cara konkret.
Tim yang melatih model kepemilikan besar harus memperhatikan jendela ketersediaan 8t, akses jaringan Virgo, dan SLA goodput — bukan hanya headline EFlops. Tim yang melayani agen atau beban kerja pemikiran harus mengevaluasi ketersediaan 8i di Vertex AI, tolok ukur latensi independen saat muncul, dan apakah ukuran HBM-per-pod sesuai dengan konteks mereka. Tim yang mengonsumsi Gemini melalui Gemini Enterprise harus mewarisi keuntungan 8i dan mengharapkan batas maksimum yang dapat mereka kerahkan di produksi meningkat secara signifikan hingga 2026.
Ada beberapa catatan penting. Ketersediaan umum masih “di akhir 2026.” V8 hanyalah sinyal roadmap, bukan keputusan pengadaan saat ini. Tolok ukur Google adalah yang dilaporkan sendiri; pasti ada angka independen yang akan datang dari pelanggan cloud awal dan evaluator pihak ketiga dalam dua kuartal ke depan. Dan portabilitas antara JAX/XLA dan ekosistem CUDA/PyTorch tetap menjadi biaya gesekan yang perlu dipikirkan saat bernegosiasi tentang komitmen multiyear.
Melihat lebih jauh, Vahdat memberikan dua prediksi yang patut dicatat. Pertama, CPU serbaguna akan mengalami kebangkitan di dalam sistem AI — bukan sebagai akselerator, tetapi sebagai komputasi orkestrasi untuk sandbox agen, mesin virtual, dan eksekusi alat. Kedua, yang dikemukakan secara eksplisit sebagai prediksi industri daripada pratinjau roadmap Google, spesialisasi juga akan terus berjalan kuat. Ketika CPU serbaguna mencapai plateau pada beberapa persen per tahun, beban kerja yang signifikan akan membutuhkan silikon yang dirancang khusus. “Dua chip mungkin akan bertambah,” kata Vahdat — tanpa spesifikasi apakah “lebih banyak” itu berarti varian TPU di masa depan atau kelas akselerator khusus lainnya.
Perlombaan komputasi di garis depan dulunya merupakan tentang siapa yang bisa membeli paling banyak H100. Sekarang, pertanyaannya adalah siapa yang mengendalikan stack. Daftar pendek perusahaan yang benar-benar melakukannya saat ini adalah dua: Google dan Nvidia.

