Evaluación de la efectividad de los algoritmos de registro en el habla de niños y adultos costarricenses según grupo de edad y género

Contenido principal del artículo

Alejandro Chacón-Vargas
Daniel Pérez-Conejo
Marvin Coto-Jiménez

Resumen

El registro de los oradores es la tarea de identificar automáticamente las identidades de los oradores y detectar sus tiempos de conversación en una grabación de audio. Varios algoritmos han mostrado mejoras en el desempeño de esta tarea durante los últimos años. Sin embargo, todavía presenta desafíos de desempeño en escenarios de interacción, como entre un niño y un adulto, donde las interrupciones, los rellenos, las risas y otros elementos pueden afectar la detección y agrupamiento de los segmentos.


En este trabajo, realizamos un estudio exploratorio con dos algoritmos de registro en interacciones niños-adultos dentro de un estudio de grabación y evaluamos la efectividad de los algoritmos en diferentes grupos de edad y géneros. Todos los participantes son hispanohablantes nativos de Costa Rica. Los niños tienen edades comprendidas entre los 3 y los 14 años, y la interacción combina la repetición guiada de palabras o frases cortas, así como el habla natural.


Los resultados demuestran cómo la edad afecta el rendimiento del registro, tanto en la pureza del grupo como en la pureza del hablante, de forma directa pero no lineal.

Detalles del artículo

Cómo citar
Chacón-Vargas, A. ., Pérez-Conejo, D., & Coto-Jiménez, M. . (2022). Evaluación de la efectividad de los algoritmos de registro en el habla de niños y adultos costarricenses según grupo de edad y género. Revista Tecnología En Marcha, 35(8), Pág. 24–32. https://doi.org/10.18845/tm.v35i8.6443
Sección
Artículo científico

Citas

Karanasou, Penny, et al. ”Speaker diarization and longitudinal linking in multi- genre broadcast data.” 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, 2015.

Meignier, Sylvain, et al. ”Step-by-step and integrated approaches in broadcast news speaker diarization.” Computer Speech & Language 20.2-3 (2006): 303-330.

Kumar, Manoj, et al. ”Improving speaker diarization for naturalistic child-adult conversational interactions using contextual information.” The Journal of the Acoustical Society of America 147.2 (2020): EL196-EL200.

Xie, Jiamin, et al. ”Multi-PLDA Diarization on Children’s Speech.” Interspeech. 2019.

Sell, Gregory, et al. ”Diarization is Hard: Some Experiences and Lessons Learned for the JHU Team in the Inaugural DIHARD Challenge.” Interspeech. 2018.

Fujita, YusukeRao, et al. ”Meta-Learning for Robust Child-Adult Classification from Speech.” ICASSP 20202020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.

Koluguri, Nithin Rao, et al. ”Meta-Learning for Robust Child-Adult Classification from Speech.” ICASSP 20202020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.

Najafian, Maryam, and John HL Hansen. ”Speaker independent diarization for child language environment analysis using deep neural networks.” 2016 IEEE Spo- ken Language Technology Workshop (SLT). IEEE, 2016.

Zhou, Tianyan, et al. ”Speaker diarization system for autism children’s real-life audio data.” 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP). IEEE, 2016.

Karadayi, Julien, Camila Scaff, and Alejandrina Cristià. ”Diarization in Maximally Ecological Recordings: Data from Tsimane Children.” SLTU. 2018.

Gorodetski, Alex, Ilan Dinstein, and Yaniv Zigel. ”Speaker diarization during noisy clinical diagnoses of autism.” 2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). IEEE, 2019.

Sarafianos, Nikolaos, Theodoros Giannakopoulos, and Sergios Petridis. ”Audio- visual speaker diarization using fisher linear semi-discriminant analysis.” Multimedia Tools and Applications 75.1 (2016): 115-130.

Giannakopoulos, Theodoros, and Sergios Petridis. ”Fisher linear semi-discriminant analysis for speaker diarization.” IEEE transactions on audio, speech, and language processing 20.7 (2012): 1913-1922.

Chen, Liping, et al. ”On Early-stop Clustering for Speaker Diarization.” Proc. Odyssey 2020 The Speaker and Language Recognition Workshop. 2020.

Artículos más leídos del mismo autor/a