
Open-AI open-source Whisper, sistem pengenalan ucapan multibahasa

Pengenalan ucapan tetap menjadi masalah yang menantang dalam AI dan pembelajaran mesin. Sebagai langkah untuk menyelesaikannya, OpenAI hari ini membuka-sumber Whisper, sistem pengenalan ucapan otomatis yang diklaim perusahaan memungkinkan transkripsi “kuat” dalam berbagai bahasa serta terjemahan dari bahasa-bahasa tersebut ke dalam bahasa Inggris.
Banyak organisasi telah mengembangkan sistem pengenalan ucapan berkemampuan tinggi, yang merupakan inti dari perangkat lunak dan layanan dari raksasa teknologi seperti Google, Amazon, dan Meta. Tapi apa yang membuat Whisper berbeda, menurut OpenAI, adalah bahwa ia dilatih dengan 680.000 jam data multibahasa dan “multitask” yang dikumpulkan dari web, yang mengarah pada peningkatan pengenalan aksen unik, kebisingan latar belakang, dan jargon teknis.
“Pengguna utama yang dituju dari [the Whisper] model adalah peneliti AI yang mempelajari ketahanan, generalisasi, kapabilitas, bias, dan batasan model saat ini. Namun, Whisper juga berpotensi sangat berguna sebagai solusi pengenalan ucapan otomatis untuk pengembang, terutama untuk pengenalan ucapan bahasa Inggris, ”tulis OpenAI dalam repo GitHub untuk Whisper, dari mana beberapa versi sistem dapat diunduh. “[The models] menunjukkan hasil ASR yang kuat dalam ~10 bahasa. Mereka mungkin menunjukkan kemampuan tambahan … jika disetel dengan baik pada tugas-tugas tertentu seperti deteksi aktivitas suara, klasifikasi speaker, atau diarisasi speaker, tetapi belum dievaluasi secara kuat di area ini.”
Whisper memiliki keterbatasan, khususnya di bidang prediksi teks. Karena sistem dilatih pada data “berisik” dalam jumlah besar, OpenAI memperingatkan Whisper mungkin memasukkan kata-kata dalam transkripsinya yang sebenarnya tidak diucapkan – mungkin karena keduanya mencoba memprediksi kata berikutnya dalam audio dan mencoba menyalin audio itu sendiri . Selain itu, Whisper tidak bekerja dengan baik di seluruh bahasa, mengalami tingkat kesalahan yang lebih tinggi ketika berbicara tentang penutur bahasa yang tidak terwakili dengan baik dalam data pelatihan.
Bagian terakhir itu bukanlah hal baru bagi dunia pengenalan suara, sayangnya. Bias telah lama menjangkiti sistem terbaik sekalipun, dengan studi Stanford tahun 2020 menemukan sistem dari Amazon, Apple, Google, IBM, dan Microsoft membuat kesalahan jauh lebih sedikit — sekitar 19% — dengan pengguna berkulit putih dibandingkan dengan pengguna berkulit hitam.
Meskipun demikian, OpenAI melihat kemampuan transkripsi Whisper digunakan untuk meningkatkan alat aksesibilitas yang ada.
“Sementara model Whisper tidak dapat digunakan untuk transkripsi real-time di luar kotak, kecepatan dan ukurannya menunjukkan bahwa orang lain mungkin dapat membangun aplikasi di atasnya yang memungkinkan pengenalan dan terjemahan ucapan hampir real-time,” perusahaan berlanjut di GitHub. “Nilai sebenarnya dari aplikasi bermanfaat yang dibangun di atas model Whisper menunjukkan bahwa perbedaan kinerja model ini mungkin memiliki implikasi ekonomi yang nyata… [W]Saya berharap teknologi ini akan digunakan terutama untuk tujuan yang bermanfaat, membuat teknologi pengenalan ucapan otomatis lebih mudah diakses sehingga memungkinkan lebih banyak pelaku untuk membangun teknologi pengawasan yang mumpuni atau meningkatkan upaya pengawasan yang ada, karena kecepatan dan akurasi memungkinkan transkripsi otomatis dan terjemahan volume besar yang terjangkau komunikasi audio.”
Pelepasan Whisper belum tentu menunjukkan rencana masa depan OpenAI. Sementara semakin fokus pada upaya komersial seperti DALL-E 2 dan GPT-3, perusahaan mengejar beberapa rangkaian penelitian teoretis murni, termasuk sistem AI yang belajar dengan mengamati video.