Pinterest, dengan 620 juta pengguna aktif bulanan, baru saja menunjukkan bagaimana inovasi dalam teknologi bisa mengubah pengalaman pengguna secara dramatis. CTO Pinterest, Matt Madrigal, berhasil merombak model Qwen3-VL agar lebih efisien dengan memangkas lapisan visual dan membangunnya kembali menggunakan embedding khusus. Hasilnya, mereka berhasil mengurangi biaya hingga 90% dan meningkatkan akurasi hingga 30%.
Madrigal dan timnya telah banyak berinvestasi dalam menyesuaikan model open-source yang mereka bangun sendiri. “Jika kamu memiliki data unik yang bisa digunakan untuk menyesuaikan model open-source, kualitas data itu akan mengalahkan ukuran model,” ujar Madrigal dalam podcast VB Beyond the Pilot baru-baru ini.
Pinterest mengkustomisasi Qwen untuk penemuan visual
Pinterest sudah lama memakai model open-source untuk pencarian dan penemuan visual, mulai dari BERT milik Google hingga CLIP dari OpenAI. Mereka memperhalus Pin CLIP mereka sendiri berdasarkan yang terakhir, dengan memasukkan embedding visual dan metadata gambar yang unik.
Asisten belanja percakapan Pinterest, Navigator 1, dibangun di atas Qwen3-VL dan telah disesuaikan dengan cara yang signifikan. Tim Madrigal pada dasarnya “mengeluarkan” lapisan encoder vision dari Qwen dan menyesuaikan model dengan embedding multimodal khusus. Ini memungkinkan mereka menangkap metadata seputar pin dan gambar yang kemudian bisa dihitung sebelumnya dan dilatih ulang secara berkala dengan informasi baru untuk memberikan pengalaman yang lebih personal.
“Model open-source, terutama yang memiliki lisensi Apache terbuka di mana kamu bisa mengutak-atik banyak bobot dan menyesuaikan untuk kasus penggunaan yang unik — di situlah kita menemukan kekuatan model open-source,” jelas Madrigal.
Membawa embedding mereka sendiri memungkinkan timnya memahami konteks seputar metadata, pin, dan gambar. Yang menarik, model ini juga bekerja lebih baik saat dijalankan. Tanpa embedding ini, pengembang harus memanggil dan mengkode setiap gambar yang dikembalikan secara satu per satu, yang mengakibatkan latensi yang “20 kali lebih buruk” dari perspektif inferensi, kata Madrigal.
“Jika itu penting bagi pengguna akhir kami, yang akan mendorong keterlibatan dan harus mampu berskala hingga lebih dari 600 juta pengguna aktif bulanan, kami kemungkinan besar akan membangunnya sendiri atau memanfaatkan open-source dan menyesuaikannya sebaik mungkin,” tutup Madrigal.
Bagaimana grafik rasa menangkap minat yang berkembang
Untuk membantu pengguna dari inspirasi hingga pembelian, tim Madrigal membuat “grafik rasa”: representasi dinamis dari apa yang sebenarnya disukai oleh individu, bukan hanya apa yang mereka klik. “Ini adalah representasi dari miliaran selera yang terus berkembang,” kata Madrigal.
Orang-orang mencari di Google atau mesin pencari lain ketika mereka sudah memiliki gambaran yang jelas tentang apa yang mereka inginkan. Pinterest hadir untuk saat-saat ketika mereka masih dalam fase penemuan, kata Madrigal. Tujuan Pinterest adalah untuk mendorong “eksplorasi lateral” dan mengubah penemuan menjadi niat, seperti mengklik iklan atau melakukan pembelian.
Dari sisi teknis, arsitektur ini menggabungkan struktur grafik dengan pembelajaran representasional. User embedding menangkap selera pengguna yang terus berubah. Ini terus diperbarui berdasarkan aktivitas dan konten baru. “Ini bukan grafik sosial,” kata Madrigal. “Ini lebih mirip grafik preferensi: Apa yang akan menginspirasi kamu? Apa yang akan kamu lakukan selanjutnya?”
Misalnya, satu pengguna mungkin menyukai desain mid-century modern; sementara pengguna lain lebih suka estetika Nantucket. Preferensi ini akan tertangkap dalam user embedding, dan grafik rasa akan menyajikan produk-produk relevan yang sesuai.
“Kamu bergerak dari atas funnel, penemuan inspirasi, hingga ke bagian bawah funnel untuk niat,” jelas Madrigal.
Dengarkan podcast lengkapnya untuk mendengar lebih banyak tentang:
-
Bagaimana Pinterest menggunakan sandbox untuk mendorong kreativitas dengan cara yang aman dan terkendali;
-
Mengapa umpan balik yang terus menerus bisa mencegah masalah pada AI visual;
-
Betapa pentingnya benchmarking secara konstan untuk mengukur keterlibatan pengguna, kinerja, latensi, dan faktor-faktor lainnya.

