BEIJING — Alibaba Cloud sedang menginvestasikan dana besar untuk mengembangkan jenis kecerdasan buatan (AI) baru yang dirancang untuk lebih baik mereplikasi dunia nyata. Pendekatan ini berbeda dari chatbot seperti ChatGPT dari OpenAI.
Perubahan ini menunjukkan pengakuan akan batasan “model bahasa besar” yang kebanyakan dilatih hanya dengan teks. Kini, para pengembang mulai fokus pada “model dunia” yang berbasis video dan skenario fisik dalam kehidupan sehari-hari.
Untuk mengejar tren ini, Alibaba memimpin investasi sebesar 2 miliar yuan (sekitar $290 juta) di ShengShu, startup yang mengembangkan alat generasi video AI yang bernama Vidu. Pengumuman tersebut dibuat pada hari Jumat. Tal Education dan Baidu Ventures juga ikut berpartisipasi dalam putaran pendanaan seri B ini.
Investasi ini datang tidak lama setelah ShengShu berhasil mengumpulkan 600 juta yuan dari Qiming Venture Partners dan investor lainnya. Namun, startup ini memilih untuk tidak mengungkapkan valuasinya.
ShengShu menyatakan bahwa pendanaan terbaru ini akan mendukung pengembangan “model dunia umum” yang menggunakan AI untuk menghubungkan dua domain yang saat ini terpisah: dunia digital dari permainan dan video yang dihasilkan AI, serta dunia fisik dari mobil otonom dan robot.
“ShengShu percaya bahwa model dunia umum, yang dibangun berdasarkan data multimodal seperti penglihatan, audio, dan sentuhan, lebih alami dalam menangkap cara kerja dunia fisik dibandingkan model bahasa besar,” ungkap startup berusia tiga tahun ini dalam sebuah pernyataan.
“Kami bertujuan untuk menghubungkan persepsi dan aksi,” tambah Zhu Jun, pendiri ShengShu, dalam pernyataannya, agar sistem AI dapat lebih baik dalam memodelkan dan memprediksi perilaku dunia nyata secara konsisten.
Model terbaru dari Vidu Q3 Pro yang diluncurkan pada bulan Januari telah masuk dalam 10 besar model AI untuk menghasilkan video dari teks dan gambar, menurut Artificial Analysis.
Perusahaan ini sudah meluncurkan Vidu secara global beberapa bulan sebelum OpenAI merilis alat Sora untuk generasi video AI yang kini sudah ditutup. Perusahaan video pendek China seperti Kuaishou dan ByteDance juga telah meluncurkan alat AI sejenis untuk menghasilkan video.
Kompetisi Model Dunia
Alibaba telah memperluas investasinya di startup-startup terkait.
Raksasa teknologi China ini dan Baidu Ventures bulan lalu memimpin investasi sebesar $50 juta di Tripo AI, sebuah platform yang menggunakan AI untuk dengan cepat menghasilkan model 3D digital dari foto. Tripo juga mengatakan bahwa mereka sedang menjauh dari teknik yang digunakan oleh model bahasa menuju alat AI yang berbasis pada ruang fisik dan mengembangkan model dunia mereka sendiri.
Pada bulan September, Alibaba juga memimpin investasi sebesar $60 juta di PixVerse, yang meluncurkan model dunia AI lebih awal tahun ini yang memungkinkan pengguna untuk mengarahkan bagaimana video berkembang saat dihasilkan.
Alibaba, yang awalnya bergerak di bidang e-commerce, juga telah merilis model AI open-source gratis untuk generasi video dan, pada bulan Februari, meluncurkan salah satu untuk menggerakkan robot.
ShengShu juga mengungkapkan bahwa mereka memiliki kemitraan strategis dengan perusahaan-perusahaan yang mengembangkan AI yang tertanam — sistem seperti robot humanoid yang berinteraksi dengan dunia fisik — untuk digunakan di berbagai bidang industri, komersial, dan rumah tangga.
Model dunia ini sangat penting untuk robotika karena teknologi ini membutuhkan lebih dari sekadar LLM untuk berfungsi. Kevin Kelly, co-founder majalah teknologi Amerika Serikat Wired, menulis bulan lalu di Substack-nya bahwa untuk mereplikasi kecerdasan manusia, AI perlu tiga hal: penalaran, pemahaman tentang dunia fisik, dan pembelajaran terus-menerus.
Sementara AI untuk kategori pembelajaran belum dikembangkan, chatbot yang didukung LLM telah menciptakan elemen pengetahuan, sehingga menjadikan model dunia sebagai area kunci yang membutuhkan terobosan.

