Estimación de incertidumbre para un sistema de reconocimiento de voz

Contenido principal del artículo

Walter Morales-Muñoz
Saúl Calderón-Ramírez

Resumen

Whisper es un sistema de reconocimiento de voz diseñado por la compañía OpenAI, dicho
sistema ha sido entrenado con 680,000 horas de datos supervisados multilingües y multitarea
recopilados de la web. La siguiente investigación tiene como objetivo adaptar y emplear la
técnica de Monte Carlo Dropout utilizando datos audios etiquetados en español y contaminados
con una cantidad de ruido y la distancia de Levensthein para estimar la incertidumbre de dicho
sistema. Resultados preliminares muestran que existe una relación lineal entre la estimación
de la incertiumbre utilizando la distancia Levensthein y el medoide respecto al Word Error Rate
(WER) de las transcripciones, además se observa que la cantidad de inserciones u omisiones
en las transcripciones tiende a ser bajo.

Detalles del artículo

Cómo citar
Morales-Muñoz, W., & Calderón-Ramírez, S. (2024). Estimación de incertidumbre para un sistema de reconocimiento de voz. Revista Tecnología En Marcha, 37(7), Pág 97–103. https://doi.org/10.18845/tm.v37i7.7305
Sección
Artículo científico

Citas

Díaz, C., Calderon-Ramirez, S., y Aguilar, L. D. M. (2022). Data quality metrics for unlabelled datasets. En 2022

ieee 4th international conference on bioinspired.

Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., y Sutskever, I. (2022). Robust speech recognition

via large-scale weak supervision. arXiv preprint arXiv:2212.04356 .

Mena, J., Pujol, O., y Vitria, J. (2021). A survey on uncertainty estimation in deep learning classification systems

from a bayesian perspective. ACM Computing Surveys.

Loquercio, A., Segu, M., y Scaramuzza, D. (2020). A general framework for uncertainty estimation in deep

learning. IEEE Robotics and Automation Letters, 5 (2), 3153–3160.

Gal, Y., y Ghahramani, Z. (2016). Dropout as a bayesian approximation: Representing model uncertainty in

deep learning. En international conference on machine learning (pp. 1050–1059)

Jayashankar, T., Roux, J. L., y Moulin, P. (2020). Detecting audio attacks on asr systems with dropout uncertainty. arXiv preprint arXiv:2006.019