Studi Pengaruh Tingkat Interferensi Terhadap Performa Transkripsi Model Wav2Vec2-Large-XLSR-Indonesian
Abstract
Kegiatan rapat secara umum memerlukan Minutes of Meeting (MoM) untuk mencatat pokok bahasan rapat. Pembuatan secara manual akan memakan waktu dan tenaga, tetapi dapat dibantu dengan teknologi transkripsi Automatic Speech Recognition (ASR) untuk mengubah percakapan yang terekam menjadi teks atau speech-to-text (STT). Namun, penggunaan teknologi ini umumnya memiliki confidentiality issue karena penggunaan teknologi pihak ketiga. Masalah lain juga timbul dari adanya interferensi suara percakapan lain yang tidak bisa dihindarkan tercampur dengan percakapan utama. Oleh karena itu, penelitian ini mempelajari seberapa jauh pengaruh interferensi terhadap performa ASR dan pembuatan MoM yang dilakukan secara lokal tanpa menggunakan layanan pihak ketiga. Model yang dipakai untuk ASR di penelitian ini adalah Wav2Vec2 XLSR Indonesian, yang kemudian dilakukan fine-tuning menggunakan dataset Few-shot Learning Evaluation of Universal Representations of Speech (FLEURS). Suara interferensi dibangkitkan dalam beberapa skenario, yaitu ideal, whisper, equal rms, dan overpower, untuk ditambahkan ke sistem. Performa model kemudian diukur menggunakan metrik Word Error Rate (WER). Hasil simulasi menunjukkan bahwa semakin tinggi level audio dari interferensi maka performa model transkripsi semakin rendah. Namun hasil summarization untuk pembuatan MoM oleh LLM menunjukkan bahwa interferensi skenario whisper hingga level audio -40 dBFS memberikan performa yang sama baiknya seperti pada kondisi ideal (tidak ada interferensi), yang ditandai dengan nilai BERTScore yang didapatkan. Hal ini menunjukkan bahwa LLM mampu memperbaiki hasil transkripsi STT yang kurang memuaskan.