Mistral AI Luncurkan Model Text-to-Speech yang Dikatakan Lebih Unggul dari ElevenLabs â€” Siap-Siap Dapatkan Bobotnya Secara Gratis!

Pasar AI suara untuk perusahaan saat ini sedang dalam perebutan yang sengit. Baru-baru ini, ElevenLabs dan IBM mengumumkan kerja sama untuk menghadirkan kemampuan suara premium ke dalam platform watsonx Orchestrate milik IBM. Google Cloud pun telah memperluas suara Chirp 3 HD-nya. Sementara itu, OpenAI terus melakukan iterasi pada sintesis suaranya. Dan angka di balik semua aktivitas ini sangat besar â€” menurut perkiraan industri, AI suara diprediksi melampaui $22 miliar secara global pada tahun 2026, dengan segmen agen AI suara saja diproyeksikan mencapai $47,5 miliar pada tahun 2034.

Table of Content

Model 3 miliar parameter yang bisa dijalankan di laptop dan beroperasi enam kali lebih cepat daripada suara real-time
Evaluasi manusia menunjukkan preferensi untuk Voxtral dibandingkan ElevenLabs hampir 70 persen
Mistral menegaskan bahwa AI audio end-to-end adalah arah pergerakan perusahaan selanjutnya

Di pagi hari Kamis, Mistral AI masuk ke dalam pertempuran dengan tawaran yang sangat berbeda. Startup AI yang berbasis di Paris ini merilis Voxtral TTS, yang mereka sebut sebagai model teks-ke-suara berkualitas frontier pertama dengan bobot terbuka yang dirancang khusus untuk digunakan di perusahaan. Sementara setiap pesaing besar di ruang ini menjalankan bisnis berbasis API yang bersifat tertutup â€” di mana perusahaan menyewa suara dan tidak memilikinya â€” Mistral merilis bobot model secara penuh, mengundang perusahaan untuk mengunduh Voxtral TTS, menjalankannya di server mereka sendiri atau bahkan di smartphone, tanpa perlu mengirimkan frame audio apapun ke pihak ketiga.

Ini adalah taruhan bahwa masa depan AI suara untuk perusahaan tidak akan ditentukan oleh siapa yang membangun model dengan suara terbaik, tetapi oleh siapa yang memberikan kontrol terbesar kepada perusahaan. Dan ini datang pada saat Mistral, yang dihargai $13,8 miliar setelah putaran Seri C senilai $2 miliar yang dipimpin oleh pembuat chip asal Belanda ASML pada bulan September lalu, sedang agresif merakit blok-blok bangunan untuk membentuk tumpukan AI yang sepenuhnya dimiliki perusahaan â€” mulai dari platform kustomisasi Forge yang diumumkan di Nvidia GTC awal bulan ini, hingga infrastruktur produksi AI Studio, serta model Voxtral Transcribe untuk pengenalan suara yang dirilis beberapa minggu lalu.

Voxtral TTS menjadi lapisan output yang melengkapi gambaran tersebut, memberikan perusahaan saluran suara-ke-suara yang dapat mereka jalankan dari awal hingga akhir tanpa bergantung pada penyedia eksternal.

“Kami melihat audio sebagai taruhan besar dan sebagai antarmuka yang krusial mungkin satu-satunya untuk semua model AI,” kata Pierre Stock, wakil presiden sains di Mistral dan karyawan pertama yang direkrut oleh perusahaan, dalam wawancara eksklusif dengan VentureBeat. “Ini adalah sesuatu yang diminta oleh para pelanggan.”

Model 3 miliar parameter yang bisa dijalankan di laptop dan beroperasi enam kali lebih cepat daripada suara real-time

Spesifikasi teknis Voxtral TTS seperti membalikkan norma industri secara sengaja. Di mana sebagian besar model TTS frontier besar dan memerlukan sumber daya yang tinggi, Mistral merancang modelnya agar tiga kali lebih kecil dari standar industri untuk kualitas yang sebanding.

Arsitekturnya terdiri dari tiga komponen: backbone transformer dekoder dengan 3,4 miliar parameter, transformer akustik flow-matching dengan 390 juta parameter, dan codec audio neural dengan 300 juta parameter yang dikembangkan sendiri oleh Mistral. Sistem ini dibangun di atas Ministral 3B, backbone yang sama yang memberi daya pada model Voxtral Transcribe â€” pilihan desain yang Stock sebut sebagai manifestasi dari budaya efisiensi dan reuse artefak Mistral.

Dalam praktiknya, model ini mencapai waktu audio pertama sebesar 90 milidetik untuk input yang tipikal dan menghasilkan suara sekitar enam kali lebih cepat dari kecepatan real-time. Saat dioptimalkan untuk inferensi, dibutuhkan sekitar tiga gigabyte RAM. Stock memastikan bahwa model ini dapat dijalankan di laptop atau smartphone apa saja, dan bahkan pada perangkat keras yang lebih tua, model ini tetap beroperasi dalam real-time.

“Ini adalah model 3B, jadi bisa dijalankan di laptop atau smartphone mana saja,” kata Stock. “Jika dioptimalkan untuk inferensi, ini membutuhkan tiga gigabyte RAM. Dan Anda bisa menjalankannya di chip yang sangat tua â€” tetap akan real-time.”

Model ini mendukung sembilan bahasa â€” Inggris, Perancis, Jerman, Spanyol, Belanda, Portugis, Italia, Hindi, dan Arab â€” dan dapat beradaptasi dengan suara kustom hanya dengan lima detik audio referensi. Yang lebih menonjol, model ini menunjukkan adaptasi suara lintas bahasa tanpa pelatihan eksplisit untuk tugas tersebut.

Stock memberikan contoh pribadi: ketika dia memberi makan model dengan 10 detik suara beraksen Perancis miliknya, lalu mengetik prompt dalam bahasa Jerman, model itu akan menghasilkan suara bahasa Jerman yang terdengar seperti dirinya â€” lengkap dengan aksen dan karakter vokalnya yang alami. Bagi perusahaan yang beroperasi lintas batas, kemampuan ini membuka peluang untuk terjemahan suara-ke-suara yang mempertahankan identitas pembicara, fitur yang jelas bermanfaat untuk dukungan pelanggan, penjualan, dan komunikasi internal bagi organisasi multinasional.

Evaluasi manusia menunjukkan preferensi untuk Voxtral dibandingkan ElevenLabs hampir 70 persen

Mistral tidak ragu untuk menunjukkan pesaing mana yang mereka ingin kalahkan. Dalam evaluasi oleh manusia yang dilakukan oleh perusahaan, Voxtral TTS mencapai tingkat preferensi pendengar sebesar 62,8 persen dibandingkan dengan ElevenLabs Flash v2.5 untuk suara unggulan dan 69,9 persen dalam tugas kustomisasi suara. Mistral juga mengklaim bahwa model ini berkinerja setara dengan ElevenLabs v3 â€” tingkatan premium dengan latensi lebih tinggi â€” dalam ekspresivitas emosional, sambil mempertahankan latensi serupa dengan model Flash yang jauh lebih cepat.

Metodologi evaluasi melibatkan tes perbandingan secara berdampingan untuk semua sembilan bahasa yang didukung. Menggunakan dua suara yang dikenal dalam dialek asli masing-masing bahasa, tiga pengamat melakukan tes preferensi mengenai kealamian, kepatuhan aksen, dan kesamaan akustik dengan referensi asli. Mistral menyebutkan bahwa Voxtral TTS memperlebar kesenjangan kualitas dengan ElevenLabs v2.5 Flash, terutama dalam pengaturan suara kustom multibahasa, menyoroti apa yang disebut perusahaan sebagai “kustomisasi instan” dari model tersebut.

ElevenLabs tetap dianggap sebagai tolok ukur untuk kualitas suara mentah. Model Eleven v3 mereka telah digambarkan oleh beberapa peninjau independen sebagai standar emas untuk pidato AI yang nuansanya emosional. Namun, ElevenLabs beroperasi sebagai platform tertutup dengan harga langganan bertingkat yang dimulai dari sekitar $5 per bulan pada tingkat dasar hingga lebih dari $1.300 per bulan untuk paket bisnis, dan mereka tidak mengeluarkan bobot model.

Tawaran Mistral adalah bahwa perusahaan tidak perlu memilih antara kualitas dan kontrol â€” dan bahwa pada skala besar, ekonomi dari model bobot terbuka jauh lebih menguntungkan.

“Yang ingin kami tekankan adalah bahwa kami lebih cepat dan lebih murah juga â€” dan open source,” kata Stock. “Ketika sesuatu bersifat open source dan murah, orang akan mengadopsinya dan membangunnya.”

Dia merangkum argumen biaya dengan istilah yang pasti diresonansi oleh CTO yang mengelola anggaran AI: “AI adalah teknologi transformatif, tetapi ada biayanya. Ketika Anda ingin berskala dan berpengaruh pada bisnis besar, biaya itu penting. Dan apa yang kami tawarkan adalah memungkinkan untuk berkembang tanpa hambatan sambil meminimalkan biaya dan memaksimalkan akurasi.”

Mistral menegaskan bahwa AI audio end-to-end adalah arah pergerakan perusahaan selanjutnya

Ketika ditanya apa yang datang setelah Voxtral TTS, Stock menguraikan dua arah. Pertama adalah memperluas dukungan bahasa dan dialek, dengan perhatian khusus pada nuansa budaya. “Tidak sama berbicara Perancis di Paris dengan berbicara Perancis di Kanada, di Montreal,” ucapnya. “Kami ingin menghormati kedua budaya, dan kami ingin model kami berfungsi di kedua konteks dengan semua spesifikasi kultural.”

Arah kedua lebih ambisius: sebuah model audio end-to-end yang tidak hanya menghasilkan suara dari teks tetapi memahami seluruh spektrum komunikasi vokal manusia.

“Kami menyampaikan beberapa makna dengan kata-kata yang kami ucapkan,” jelas Stock. “Kami sebenarnya menyampaikan jauh lebih banyak dengan intonasi, ritme, dan bagaimana kami mengatakannya. Ketika orang berbicara tentang audio end-to-end, itulah yang mereka maksud â€” model ini mampu merasakan Anda sedang terburu-buru, misalnya, dan akan memberikan jawaban tercepat. Model tersebut juga akan tahu bahwa Anda bahagia hari ini dan akan melontarkan lelucon. Ini sangat adaptif kepada Anda, dan itulah yang ingin kami capai.”

Visi itu â€” sebuah AI yang berbicara secara alami, mendengarkan dengan nuansa, merespons dengan kecerdasan emosional, dan berjalan di atas model yang cukup kecil untuk disimpan di saku â€” adalah frontier yang dikejar oleh setiap laboratorium AI utama. Untuk saat ini, Voxtral TTS memberikan Mistral fondasi yang kuat dan perusahaan pertanyaan yang belum pernah mereka jawab sebelumnya: jika Anda bisa memiliki tumpukan AI suara Anda sepenuhnya, dengan biaya yang lebih rendah dan kualitas yang bersaing, mengapa harus terus menyewa suara orang lain?

Artikel Populer

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Mistral AI Luncurkan Model Text-to-Speech yang Dikatakan Lebih Unggul dari ElevenLabs â€” Siap-Siap Dapatkan Bobotnya Secara Gratis!

Model 3 miliar parameter yang bisa dijalankan di laptop dan beroperasi enam kali lebih cepat daripada suara real-time

Evaluasi manusia menunjukkan preferensi untuk Voxtral dibandingkan ElevenLabs hampir 70 persen

Mistral menegaskan bahwa AI audio end-to-end adalah arah pergerakan perusahaan selanjutnya

Don't Miss

NYT Ungkap Bocoran, Jawaban, dan Panduan untuk Rabu, 8 Juli

Samsung Messages Resmi Dihentikan, Pengguna Dari Setia Beralih ke Google Messages dengan Beragam Reaksi â€“ Ini yang Perlu Anda Ketahui!

Intuit Ganti Arsitektur AI-nya Dua Kali dalam Empat Bulan, VP AI Sebut Ini Jalan Cepat Menuju Inovasi

Baca Juga

Tinggalkan Typosquatting; Waspadali Slopsquatting, Ancaman Baru Rantai Pasokan Perangkat Lunak dari Alat Kode AI

Agen AI Memasuki Era Pembaruan Saat Perusahaan Hadapi Tantangan Keandalan

Apple Uji Coba Empat Desain untuk Kacamata Pintar Terbarunya

â€œRekrutmen Terbaik yang Hampir Hilang: Ketika CV ‘Salah’ Justru Jadi Kunci Keberhasilanâ€

SoftBank Luncurkan Perusahaan Robotika untuk Membangun Pusat Data, Siap Meluncurkan IPO Senilai $100 Miliar!

5 Strategi Tidak Biasa yang Justru Mempercepat Pertumbuhan Jangka Panjang

â€˜Obsessionâ€™ Tembus Rekor di Pekan Perdana, Penuhi Bioskop dengan Kesuksesan Langka!

Intuit Mempercepat Penerapan Kode Pajak Jadi Beberapa Jam – Solusi Workflow untuk Tim di Sektor Terkendali!

Personal

Tentang Kami