Evaluación del reconocimiento de voz de los niños costarricenses por humanos y máquinas

Contenido principal del artículo

Maribel Morales-Rodríguez
Marvin Coto-Jiménez

Resumen

En los últimos años, se está llevando a cabo un número creciente de estudios sobre la interacción persona-computadora, debido a las interfaces de habla generalizadas implementadas en sistemas como teléfonos celulares, asistentes personales y de automatización del hogar. Estos estudios incluyen el reconocimiento automático del habla (ASR) y la síntesis del habla, y están considerando una variedad más amplia de condiciones de las señales, como el ruido y la reverberación, y también los acentos y los efectos relacionados con la edad. Por ejemplo, uno de los desafíos clave es el desarrollo de ASR para el habla de los niños. Dado que los sistemas actuales tienen una dependencia del lenguaje y los acentos, por lo tanto, para mejorarlo, se necesitan las investigaciones de tecnologías de reconocimiento de voz adecuadas para los niños. En este trabajo evaluamos sistemas ASR comerciales para el reconocimiento del habla infantil costarricense, para usuarios con edades comprendidas entre los tres y los catorce años. Para establecer una comparación y validación numérica de los sistemas ASR para reconocer las palabras aisladas de los niños, realizamos una gran prueba de comprensión auditiva subjetiva que calcula las diferencias y desafíos que quedan para los sistemas ASR de última generación. Los resultados proporcionan diferencias numéricas evidentes entre los sistemas ASR y las percepciones humanas, especialmente para los niños más pequeños. Además, ofrecemos sugerencias para futuras direcciones de investigación en el campo.

Detalles del artículo

Cómo citar
Morales-Rodríguez, M. ., & Coto-Jiménez, M. (2022). Evaluación del reconocimiento de voz de los niños costarricenses por humanos y máquinas. Revista Tecnología En Marcha, 35(8), Pág. 74–82. https://doi.org/10.18845/tm.v35i8.6453
Sección
Artículo científico

Citas

Gerosa, Matteo, et al. “A review of ASR technologies for children’s speech”. Proceedings of the 2nd Workshop on Child, Computer and Interaction. 2009.

Russell, Martin, Shona D’Arcy, and Lit Ping Wong. “Recognition of read and spontaneous children’s speech using two new corpora”. Eighth International Conference on Spoken Language Processing. 2004.

Li, Qun, and Martin J. Russell. “An analysis of the causes of increased error rates in children’s speech recognition”. Seventh International Conference on Spoken Language Processing. 2002.

Cosi, Piero, et al. “Comparing open source ASR toolkits on Italian children speech”. WOCCI. 2014.

Hämalainen, Annika, et al. “Correlating ASR errors with developmental changes in speech production: A study of 3-10-year-old European Portuguese children’s speech”. 2014.

Adi, Derry Pramono, Agustinus Bimo Gumelar, and Ralin Pramasuri Arta Meisa. “Interlanguage of Automatic Speech Recognition. “2019 International Seminar on Application for Technology of Information and Communication (iSemantic). IEEE, 2019.

Moussalli, Souheila, and Walcir Cardoso. “Intelligent personal assistants: can they understand and be understood by accented L2 learners?”. Computer Assisted Language Learning (2019): 1-26.

Lee, Sungbok, Alexandros Potamianos, and Shrikanth Narayanan. “Acoustics of children’s speech: Developmental changes of temporal and spectral parameters”. The Journal of the Acoustical Society of America 105.3 (1999): 1455-1468.

Kennedy, James, et al. “Child speech recognition in human-robot interaction: evaluations and recommendations”. Proceedings of the 2017 ACM/IEEE International Conference on Human-Robot Interaction. 2017.

D’Arcy, Shona, and Martin Russell. “A comparison of human and computer recognition accuracy for children’s speech”. Ninth European Conference on Speech Communication and Technology. 2005.

Kruijff-Korbayov´a, Ivana, et al. “Spoken language processing in a conversational system for child-robot interaction”. Third Workshop on Child, Computer and Interaction. 2012.

Vogt, Paul, et al. “Child-robot interactions for second language tutoring to preschool children”. Frontiers in human neuroscience 11 (2017): 73.

Hämalainen, Annika, et al. “A multimodal educational game for 3-10-year-old children: collecting and automatically recognising european portuguese children’s speech”. Speech and Language Technology in Education. 2013.

Elenius, Daniel, and Mats Blomberg. “Comparing speech recognition for adults and children”. Proceedings of FONETIK 2004 (2004): 156-159.

Giuliani, Diego, and Matteo Gerosa. “Investigating recognition of children’s speech”. 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings.(ICASSP’03). Vol. 2. IEEE, 2003.

González, M. J. Trastornos fonológicos. Teoría y Práctica. Universidad de Málaga: Secretariado de publicaciones. España, 1989.

Ortiz Rubia, V. Procesos fonológicos de simplificaci´on. Mendoza, Universidad del Aconcagua. Facultad de Ciencias Médicas, 2007. http://bibliotecadigital.uda.edu. ar/229.

Artículos más leídos del mismo autor/a