Siapa sih yang tidak pernah menggunakan Google Street View untuk menunjukkan rumah masa kecil kita atau mengecek lokasi hotel di Paris? Bayangkan jika kita bisa mengalaminya dengan cara yang lebih interaktif, misalnya dengan bisa mengubah cuaca atau menyimulasikan skenario seperti film “Day After Tomorrow”. Inilah salah satu ambisi dari integrasi terbaru Google.
Mulai hari ini, Google DeepMind menghubungkan Street View dengan Project Genie, sebuah model dunia serbaguna yang bisa menciptakan lingkungan interaktif dan beragam. Fitur baru ini diperkenalkan saat konferensi pengembang Google I/O.
“Ini sangat kuat baik untuk keperluan agen dan robot, maupun untuk kebutuhan manusia dalam bereksperimen. Itu selalu menjadi tesis dari Genie,” ungkap Jack Parker-Holder, seorang ilmuwan riset di tim open-endedness DeepMind, kepada TechCrunch.
Dia memberikan contoh tentang robot baru yang akan digunakan di London, yang jarang melihat matahari. Genie, katanya, bisa mensimulasikan momen-momen langka ketika sinar matahari memantul dari rumah-rumah bergaya Victoria, sehingga robot tersebut tidak terkejut saat hal itu terjadi.
“Sementara itu, mungkin Anda bisa bilang, ‘Saya pergi ke New York City, tapi bukan saat musim ini.’ Saya ingin melihat bagaimana blok itu tampak saat bersalju,” tambahnya.
Google telah mengumpulkan data Street View selama 20 tahun melalui mobil bercamera dan individu yang membawa “tas pelacak”. Perusahaan teknologi raksasa ini telah mengumpulkan lebih dari 280 miliar gambar di 110 negara dan tujuh benua.
“Dengan Street View, kami memiliki gambar dari banyak tempat di dunia,” kata Jack. “Anda bisa membayangkan betapa kuatnya menggabungkan sumber informasi dunia nyata yang kaya ini dengan kemampuan untuk mensimulasikan dunia.”
Google merilis model dunia terbaru, Genie 3, untuk preview riset pada Agustus lalu dan membuka akses alat ini kepada pelanggan Google AI Ultra di AS pada Januari. Alat ini memungkinkan pengguna untuk menciptakan dunia permainan interaktif dari perintah teks atau gambar. Tujuannya adalah untuk menggunakan Genie dalam pengalaman edukasi, permainan, dan pelatihan robot.
Genie 3 juga sudah membantu menjalankan salah satu simulator Waymo untuk melatih mobil tanpa pengemudi dalam menghadapi “peristiwa yang sangat langka” seperti tornado atau pertemuan dengan gajah. Menambahkan data Street View bisa membantu Waymo bersiap untuk membuka operasional di lebih banyak kota di seluruh dunia.
Waymo memiliki simulator sendiri yang digunakan untuk memperluas operasionalnya ke 11 kota di AS dan menguji sistem AI-nya di beberapa kota lainnya. Perbedaannya dengan Genie, menurut Parker-Holder, adalah bahwa simulator Waymo hanya mengambil sudut pandang mobil. Street View tidak hanya memungkinkan simulasi dunia yang terhubung dengan lokasi nyata, tetapi juga dapat menggeser sudut pandang ke agen lain, seperti manusia atau robot.
Google akan meluncurkan Street View dalam Genie kepada beberapa pengguna Ultra di Amerika Serikat mulai hari ini, dengan akses yang akan diperluas secara bertahap. Pengguna Ultra di seluruh dunia akan mendapatkan akses dalam beberapa minggu ke depan, sesuai dengan info dari perusahaan.
Tim peneliti berharap untuk memberikan kemampuan baru ini kepada sebanyak mungkin orang, kata Diego Rivas, manajer produk di DeepMind. Dia memperingatkan bahwa Street View dan Genie pada umumnya masih dalam tahap eksperimen, jadi masih banyak yang perlu diperbaiki dalam hal akurasi.
Dalam contoh yang diperlihatkan oleh tim Google kepada saya — termasuk simulasi bawah laut dari lingkungan yang pernah saya tinggali — hasilnya mengesankan dan dikenali, meskipun masih dalam kualitas game dan bukan fotorealistik. Model-model tersebut juga belum sepenuhnya memahami fisika, sehingga tidak mengerti kausalitas. Misalnya, dalam simulasi seorang wanita berlari di Joshua Tree yang bersalju, dia melintasi kaktus dan semak-semak tanpa terhalang.
Kalau kita bandingkan dengan generator gambar Google, Nano Banana, yang kini bisa menghasilkan teks yang sempurna dalam infografis, atau generator video Veo yang memahami cara kapal kertas mengapung di arus air, asap mengalir di udara, dan kain menjuntai mengikuti bentuk, jelas bahwa masih ada jalan panjang di depan.
Fisiknya tidak dikodekan secara keras dalam model ini; mereka belajar dengan cara yang intuitif seiring waktu melalui pengamatan pasif, seperti halnya makhluk hidup. “Saya pikir untuk jenis model ini, mungkin enam sampai dua belas bulan di belakang video dalam hal akurasi dan kualitas, jadi saya rasa ini adalah sesuatu yang akan kita selesaikan,” kata Parker-Holder.
Jonathan Herbert, direktur Google Maps yang memulai karirnya di tim Street View sebagai magang 12 tahun lalu, mengatakan bahwa Genie belum bisa menciptakan rekonstruksi jalan yang akurat. Dia percaya bahwa terobosan sejati adalah kesinambungan spasial AI. Jika Anda berputar 360 derajat, AI dapat dengan benar mengingat dan mensimulasikan lingkungan di belakang Anda. Dari titik itu, model dapat membangun lingkungan baru di atas yang sudah ada.
“Kami telah lama memikirkan bagaimana kita bisa membangun model terbaik dan terkaya tentang dunia berdasarkan data Street View,” kata Herbert. “Memang sudah menjadi ide kami untuk menggunakan Data Maps dengan cara baru dan untuk penelitian AI yang baru selama waktu yang cukup lama.”

