Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > Mistral AI Luncurkan Model Text-to-Speech yang Dikatakan Lebih Unggul dari ElevenLabs — Siap-Siap Dapatkan Bobotnya Secara Gratis!
Bisnis

Mistral AI Luncurkan Model Text-to-Speech yang Dikatakan Lebih Unggul dari ElevenLabs — Siap-Siap Dapatkan Bobotnya Secara Gratis!

Keenan
Terakhir diperbarui: 27 Maret 2026 12:40 PM
Oleh
Keenan
10 Menit Baca
Bagikan
Mistral AI Luncurkan Model Text-to-Speech yang Dikatakan Lebih Unggul dari ElevenLabs — Siap-Siap Dapatkan Bobotnya Secara Gratis!
Bagikan

Pasar AI suara untuk perusahaan saat ini sedang dalam perebutan yang sengit. Baru-baru ini, ElevenLabs dan IBM mengumumkan kerja sama untuk menghadirkan kemampuan suara premium ke dalam platform watsonx Orchestrate milik IBM. Google Cloud pun telah memperluas suara Chirp 3 HD-nya. Sementara itu, OpenAI terus melakukan iterasi pada sintesis suaranya. Dan angka di balik semua aktivitas ini sangat besar — menurut perkiraan industri, AI suara diprediksi melampaui $22 miliar secara global pada tahun 2026, dengan segmen agen AI suara saja diproyeksikan mencapai $47,5 miliar pada tahun 2034.

Table of Content
  • Model 3 miliar parameter yang bisa dijalankan di laptop dan beroperasi enam kali lebih cepat daripada suara real-time
  • Evaluasi manusia menunjukkan preferensi untuk Voxtral dibandingkan ElevenLabs hampir 70 persen
  • Mistral menegaskan bahwa AI audio end-to-end adalah arah pergerakan perusahaan selanjutnya

Di pagi hari Kamis, Mistral AI masuk ke dalam pertempuran dengan tawaran yang sangat berbeda. Startup AI yang berbasis di Paris ini merilis Voxtral TTS, yang mereka sebut sebagai model teks-ke-suara berkualitas frontier pertama dengan bobot terbuka yang dirancang khusus untuk digunakan di perusahaan. Sementara setiap pesaing besar di ruang ini menjalankan bisnis berbasis API yang bersifat tertutup — di mana perusahaan menyewa suara dan tidak memilikinya — Mistral merilis bobot model secara penuh, mengundang perusahaan untuk mengunduh Voxtral TTS, menjalankannya di server mereka sendiri atau bahkan di smartphone, tanpa perlu mengirimkan frame audio apapun ke pihak ketiga.

Ini adalah taruhan bahwa masa depan AI suara untuk perusahaan tidak akan ditentukan oleh siapa yang membangun model dengan suara terbaik, tetapi oleh siapa yang memberikan kontrol terbesar kepada perusahaan. Dan ini datang pada saat Mistral, yang dihargai $13,8 miliar setelah putaran Seri C senilai $2 miliar yang dipimpin oleh pembuat chip asal Belanda ASML pada bulan September lalu, sedang agresif merakit blok-blok bangunan untuk membentuk tumpukan AI yang sepenuhnya dimiliki perusahaan — mulai dari platform kustomisasi Forge yang diumumkan di Nvidia GTC awal bulan ini, hingga infrastruktur produksi AI Studio, serta model Voxtral Transcribe untuk pengenalan suara yang dirilis beberapa minggu lalu.

Read more  David Sacks Mundur dari Posisi Kepala AI, Apa Langkah Selanjutnya?

Voxtral TTS menjadi lapisan output yang melengkapi gambaran tersebut, memberikan perusahaan saluran suara-ke-suara yang dapat mereka jalankan dari awal hingga akhir tanpa bergantung pada penyedia eksternal.

“Kami melihat audio sebagai taruhan besar dan sebagai antarmuka yang krusial mungkin satu-satunya untuk semua model AI,” kata Pierre Stock, wakil presiden sains di Mistral dan karyawan pertama yang direkrut oleh perusahaan, dalam wawancara eksklusif dengan VentureBeat. “Ini adalah sesuatu yang diminta oleh para pelanggan.”

Model 3 miliar parameter yang bisa dijalankan di laptop dan beroperasi enam kali lebih cepat daripada suara real-time

Spesifikasi teknis Voxtral TTS seperti membalikkan norma industri secara sengaja. Di mana sebagian besar model TTS frontier besar dan memerlukan sumber daya yang tinggi, Mistral merancang modelnya agar tiga kali lebih kecil dari standar industri untuk kualitas yang sebanding.

Arsitekturnya terdiri dari tiga komponen: backbone transformer dekoder dengan 3,4 miliar parameter, transformer akustik flow-matching dengan 390 juta parameter, dan codec audio neural dengan 300 juta parameter yang dikembangkan sendiri oleh Mistral. Sistem ini dibangun di atas Ministral 3B, backbone yang sama yang memberi daya pada model Voxtral Transcribe — pilihan desain yang Stock sebut sebagai manifestasi dari budaya efisiensi dan reuse artefak Mistral.

Dalam praktiknya, model ini mencapai waktu audio pertama sebesar 90 milidetik untuk input yang tipikal dan menghasilkan suara sekitar enam kali lebih cepat dari kecepatan real-time. Saat dioptimalkan untuk inferensi, dibutuhkan sekitar tiga gigabyte RAM. Stock memastikan bahwa model ini dapat dijalankan di laptop atau smartphone apa saja, dan bahkan pada perangkat keras yang lebih tua, model ini tetap beroperasi dalam real-time.

“Ini adalah model 3B, jadi bisa dijalankan di laptop atau smartphone mana saja,” kata Stock. “Jika dioptimalkan untuk inferensi, ini membutuhkan tiga gigabyte RAM. Dan Anda bisa menjalankannya di chip yang sangat tua — tetap akan real-time.”

Model ini mendukung sembilan bahasa — Inggris, Perancis, Jerman, Spanyol, Belanda, Portugis, Italia, Hindi, dan Arab — dan dapat beradaptasi dengan suara kustom hanya dengan lima detik audio referensi. Yang lebih menonjol, model ini menunjukkan adaptasi suara lintas bahasa tanpa pelatihan eksplisit untuk tugas tersebut.

Read more  Dokter Ini Ciptakan Platform Rekrutmen Perawat Berbasis AI Senilai $1,65 Miliar

Stock memberikan contoh pribadi: ketika dia memberi makan model dengan 10 detik suara beraksen Perancis miliknya, lalu mengetik prompt dalam bahasa Jerman, model itu akan menghasilkan suara bahasa Jerman yang terdengar seperti dirinya — lengkap dengan aksen dan karakter vokalnya yang alami. Bagi perusahaan yang beroperasi lintas batas, kemampuan ini membuka peluang untuk terjemahan suara-ke-suara yang mempertahankan identitas pembicara, fitur yang jelas bermanfaat untuk dukungan pelanggan, penjualan, dan komunikasi internal bagi organisasi multinasional.

Evaluasi manusia menunjukkan preferensi untuk Voxtral dibandingkan ElevenLabs hampir 70 persen

Mistral tidak ragu untuk menunjukkan pesaing mana yang mereka ingin kalahkan. Dalam evaluasi oleh manusia yang dilakukan oleh perusahaan, Voxtral TTS mencapai tingkat preferensi pendengar sebesar 62,8 persen dibandingkan dengan ElevenLabs Flash v2.5 untuk suara unggulan dan 69,9 persen dalam tugas kustomisasi suara. Mistral juga mengklaim bahwa model ini berkinerja setara dengan ElevenLabs v3 — tingkatan premium dengan latensi lebih tinggi — dalam ekspresivitas emosional, sambil mempertahankan latensi serupa dengan model Flash yang jauh lebih cepat.

Metodologi evaluasi melibatkan tes perbandingan secara berdampingan untuk semua sembilan bahasa yang didukung. Menggunakan dua suara yang dikenal dalam dialek asli masing-masing bahasa, tiga pengamat melakukan tes preferensi mengenai kealamian, kepatuhan aksen, dan kesamaan akustik dengan referensi asli. Mistral menyebutkan bahwa Voxtral TTS memperlebar kesenjangan kualitas dengan ElevenLabs v2.5 Flash, terutama dalam pengaturan suara kustom multibahasa, menyoroti apa yang disebut perusahaan sebagai “kustomisasi instan” dari model tersebut.

ElevenLabs tetap dianggap sebagai tolok ukur untuk kualitas suara mentah. Model Eleven v3 mereka telah digambarkan oleh beberapa peninjau independen sebagai standar emas untuk pidato AI yang nuansanya emosional. Namun, ElevenLabs beroperasi sebagai platform tertutup dengan harga langganan bertingkat yang dimulai dari sekitar $5 per bulan pada tingkat dasar hingga lebih dari $1.300 per bulan untuk paket bisnis, dan mereka tidak mengeluarkan bobot model.

Tawaran Mistral adalah bahwa perusahaan tidak perlu memilih antara kualitas dan kontrol — dan bahwa pada skala besar, ekonomi dari model bobot terbuka jauh lebih menguntungkan.

Read more  Kini Saya Fokus Membangun Tim Solutif dengan Aturan Tiga Pertanyaan

“Yang ingin kami tekankan adalah bahwa kami lebih cepat dan lebih murah juga — dan open source,” kata Stock. “Ketika sesuatu bersifat open source dan murah, orang akan mengadopsinya dan membangunnya.”

Dia merangkum argumen biaya dengan istilah yang pasti diresonansi oleh CTO yang mengelola anggaran AI: “AI adalah teknologi transformatif, tetapi ada biayanya. Ketika Anda ingin berskala dan berpengaruh pada bisnis besar, biaya itu penting. Dan apa yang kami tawarkan adalah memungkinkan untuk berkembang tanpa hambatan sambil meminimalkan biaya dan memaksimalkan akurasi.”

Mistral menegaskan bahwa AI audio end-to-end adalah arah pergerakan perusahaan selanjutnya

Ketika ditanya apa yang datang setelah Voxtral TTS, Stock menguraikan dua arah. Pertama adalah memperluas dukungan bahasa dan dialek, dengan perhatian khusus pada nuansa budaya. “Tidak sama berbicara Perancis di Paris dengan berbicara Perancis di Kanada, di Montreal,” ucapnya. “Kami ingin menghormati kedua budaya, dan kami ingin model kami berfungsi di kedua konteks dengan semua spesifikasi kultural.”

Arah kedua lebih ambisius: sebuah model audio end-to-end yang tidak hanya menghasilkan suara dari teks tetapi memahami seluruh spektrum komunikasi vokal manusia.

“Kami menyampaikan beberapa makna dengan kata-kata yang kami ucapkan,” jelas Stock. “Kami sebenarnya menyampaikan jauh lebih banyak dengan intonasi, ritme, dan bagaimana kami mengatakannya. Ketika orang berbicara tentang audio end-to-end, itulah yang mereka maksud — model ini mampu merasakan Anda sedang terburu-buru, misalnya, dan akan memberikan jawaban tercepat. Model tersebut juga akan tahu bahwa Anda bahagia hari ini dan akan melontarkan lelucon. Ini sangat adaptif kepada Anda, dan itulah yang ingin kami capai.”

Visi itu — sebuah AI yang berbicara secara alami, mendengarkan dengan nuansa, merespons dengan kecerdasan emosional, dan berjalan di atas model yang cukup kecil untuk disimpan di saku — adalah frontier yang dikejar oleh setiap laboratorium AI utama. Untuk saat ini, Voxtral TTS memberikan Mistral fondasi yang kuat dan perusahaan pertanyaan yang belum pernah mereka jawab sebelumnya: jika Anda bisa memiliki tumpukan AI suara Anda sepenuhnya, dengan biaya yang lebih rendah dan kualitas yang bersaing, mengapa harus terus menyewa suara orang lain?

Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya Dari Bir hingga Kosmetik, Asia Terdampak Keras Krisis Energi Akibat Perang Dari Bir hingga Kosmetik, Asia Terdampak Keras Krisis Energi Akibat Perang
Artikel Berikutnya Retaknya Kredit Swasta Picu Perang Dingin Baru Antara Pemain Pasar dan Bank Wall Street Retaknya Kredit Swasta Picu Perang Dingin Baru Antara Pemain Pasar dan Bank Wall Street
- Advertisement -
Ad image

Don't Miss

Perang Iran Picu Kembali Ancaman Stagflasi bagi Ekonomi Global
Perang Iran Picu Kembali Ancaman Stagflasi bagi Ekonomi Global
Market
Claude Managed Agents dari Anthropic: Solusi Terintegrasi untuk Perusahaan, Namun Waspadai Risiko Terikat dengan Vendor
Claude Managed Agents dari Anthropic: Solusi Terintegrasi untuk Perusahaan, Namun Waspadai Risiko Terikat dengan Vendor
Bisnis
Mengapa CEO Nvidia, Jensen Huang, Melewatkan Pertemuan Tatap Muka?
Mengapa CEO Nvidia, Jensen Huang, Melewatkan Pertemuan Tatap Muka?
Bisnis
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Pabrik Raih Valuasi $1,5 Miliar untuk Kembangkan AI Kode Bisnis
Bisnis

Pabrik Raih Valuasi $1,5 Miliar untuk Kembangkan AI Kode Bisnis

Keenan
17 April 2026
Apple Klaim Pengguna Lockdown Mode Aman dari Peretasan Spyware
Bisnis

Apple Klaim Pengguna Lockdown Mode Aman dari Peretasan Spyware

Keenan
27 Maret 2026
Strategi Membangun Ketahanan Finansial untuk Solopreneur
Bisnis

Strategi Membangun Ketahanan Finansial untuk Solopreneur

Keenan
6 April 2026
6 Buku Baru yang Mengangkat Kesehatan sebagai Strategi Bisnis Utama
Bisnis

6 Buku Baru yang Mengangkat Kesehatan sebagai Strategi Bisnis Utama

Keenan
22 April 2026
Setelah Kebocoran Kode Claude Code, Ini 5 Langkah yang Harus Diambil oleh Pemimpin Keamanan Perusahaan!
Bisnis

Setelah Kebocoran Kode Claude Code, Ini 5 Langkah yang Harus Diambil oleh Pemimpin Keamanan Perusahaan!

Keenan
2 April 2026
Kiat Eva Longoria untuk Entrepreneur yang Terjebak dalam Kebuntuan
Bisnis

Kiat Eva Longoria untuk Entrepreneur yang Terjebak dalam Kebuntuan

Keenan
8 April 2026
Kesalahan Umum Pendiri Mengenai Strategi Runway yang Harus Diketahui!
Bisnis

Kesalahan Umum Pendiri Mengenai Strategi Runway yang Harus Diketahui!

Keenan
20 April 2026
SoftBank Luncurkan Pinjaman $40 Miliar, Sinyal IPO OpenAI 2026 Semakin Dekat!
Bisnis

SoftBank Luncurkan Pinjaman $40 Miliar, Sinyal IPO OpenAI 2026 Semakin Dekat!

Keenan
28 Maret 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Kripto
  • News

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?