DeepL, perusahaan terkemuka dalam bidang penerjemahan yang terkenal dengan alat teksnya, baru saja meluncurkan rangkaian penerjemahan suara-ke-suara. Ini mencakup banyak penggunaan, seperti dalam rapat, percakapan mobile dan web, serta obrolan kelompok untuk pekerja garis depan melalui aplikasi kustom. Selain itu, mereka juga merilis API yang memungkinkan pengembang dan bisnis luar untuk membangun aplikasi yang memanfaatkan teknologi DeepL untuk kebutuhan yang disesuaikan, seperti di call center.
CEO DeepL, Jarek Kutylowski, dalam sebuah wawancara menjelaskan, “Setelah bertahun-tahun berkecimpung dalam penerjemahan teks, langkah ke suara adalah langkah alami untuk kami. Kami sudah menempuh banyak jalan dalam hal penerjemahan teks dan dokumen. Namun, kami merasa produk nyata untuk penerjemahan suara secara langsung belum ada.”
Kutylowski menjelaskan bahwa tantangan dalam menciptakan produk penerjemahan waktu nyata adalah menemukan keseimbangan antara mengurangi latensi, yaitu jeda antara seseorang berbicara dan audio terjemahan yang diputar, dan mempertahankan akurasi hasil.
DeepL juga merilis add-on untuk platform seperti Zoom dan Microsoft Teams, di mana pendengar bisa mendengar terjemahan secara langsung saat orang lain berbicara dalam bahasa asli. Selain itu, mereka bisa mengikuti teks terjemahan yang ditampilkan di layar secara real-time. Program ini saat ini dalam akses awal, dan perusahaan mengundang organisasi untuk bergabung dalam daftar tunggu. Produk ini juga bisa digunakan untuk percakapan mobile dan berbasis web, baik secara langsung maupun jarak jauh.
DeepL juga memungkinkan pengguna berpartisipasi dalam percakapan kelompok yang berlangsung dalam sesi pelatihan atau lokakarya, dimana peserta bisa bergabung melalui QR code.
Kemampuan teknologi suara-ke-suara dari DeepL juga dapat belajar dan beradaptasi dengan kosakata khusus, termasuk istilah spesifik industri serta nama-nama perusahaan dan pribadi.
Kutylowski mengungkapkan bahwa AI tengah mengubah wajah layanan pelanggan di tahun-tahun mendatang. Ia menekankan bahwa lapisan penerjemahan membantu perusahaan memberikan dukungan dalam bahasa-bahasa yang sulit dan mahal untuk mendapatkan staf yang memenuhi syarat.
Perusahaan mengklaim mengendalikan seluruh proses suara-ke-suara. Namun, sistem yang ada saat ini mengonversi percakapan menjadi teks, menerapkan terjemahan, lalu mengonversinya kembali ke suara. DeepL yakin bahwa dengan pengalaman bertahun-tahun dalam penerjemahan teks, mereka memiliki keunggulan dalam kualitas terjemahan. Ke depannya, mereka ingin mengembangkan model penerjemahan suara yang tidak lagi perlu melewati langkah teks.
Di sisi lain, DeepL juga menghadapi kompetisi dari beberapa startup yang didanai dengan baik dan bekerja dalam bidang yang sama. Contohnya, Sanas, yang tahun lalu mengumpulkan dana sebesar 65 juta dolar dari Quadrille Capital dan Teleperformance, menggunakan AI untuk memodifikasi aksen pembicara secara langsung, yang ditujukan terutama untuk agen di call center.
Perusahaan Camb.AI yang berbasis di Dubai fokus pada sintesis suara dan penerjemahan untuk perusahaan media dan hiburan seperti Amazon Web Services, membantu mereka mengalihkan dan melokalisasi konten video secara skala besar.
Sementara itu, Palabra, yang didukung oleh perusahaan Alexis Ohanian, Seven Seven Six, sedang membangun mesin penerjemahan suara waktu nyata yang dirancang untuk mempertahankan baik makna maupun suara asli pembicara, sehingga langsung bersaing dengan apa yang sedang dibangun oleh DeepL.

