Evaluación de la eficacia de las estrategias de aprendizaje por transferencia en las redes BLSTM para la reducción del ruido

Contenido principal del artículo

Marvin Coto-Jiménez
Astryd González-Salazar
Michelle Gutiérrez-Muñoz

Resumen

La eliminación de ruido de las señales de voz representa una tarea desafiante debido al creciente número de aplicaciones y tecnologías implementadas actualmente en los dispositivos portátiles y de comunicación. En esas aplicaciones, las condiciones ambientales desafiantes como el ruido de fondo, la reverberación y otros artefactos de sonido pueden afectar la calidad de las señales. Como resultado, también afecta a los sistemas de reconocimiento de voz, identificación de hablantes y localización de fuentes de sonido, entre muchos otros. Para eliminar el ruido de las señales de voz degradadas con los muchos tipos y posiblemente diferentes niveles de ruido, se han propuesto varios algoritmos durante las últimas décadas, con propuestas recientes basadas en el aprendizaje profundo presentadas como vanguardistas, en particular las basadas en redes de memoria a corto plazo (LSTM y LSMT bidireccional). En este trabajo se presenta un estudio comparativo de diferentes estrategias de transferencia de aprendizaje para reducir el tiempo de formación y aumentar la efectividad de este tipo de redes. La reducción del tiempo de entrenamiento es uno de los desafíos más críticos debido al alto costo computacional de entrenar LSTM y BLSTM. Esas estrategias surgieron de las diferentes opciones para inicializar las redes, utilizando información limpia o ruidosa de varios tipos. Los resultados muestran la conveniencia de transferir información de un solo caso de eliminación de ruido de la red al resto, con una reducción significativa en el tiempo de entrenamiento y las capacidades de eliminación de ruido de las redes BLSTM.

Detalles del artículo

Cómo citar
Coto-Jiménez, M., González-Salazar, A. ., & Gutiérrez-Muñoz, M. . (2022). Evaluación de la eficacia de las estrategias de aprendizaje por transferencia en las redes BLSTM para la reducción del ruido. Revista Tecnología En Marcha, 35(8), Pág. 42–49. https://doi.org/10.18845/tm.v35i8.6448
Sección
Artículo científico

Citas

Weninger, F., Watanabe, S., Tachioka, Y., and Schuller, B. “Deep recurrent de- noising auto-encoder and blind de-reverberation for reverberated speech recogni- tion.” IEEE ICASSP, 2014.

Donahue, Chris, Bo Li, and Rohit Prabhavalkar. “Exploring speech enhancement with generative adversarial networks for robust speech recognition.” IEEE ICASSP, 2018.

Coto-Jiménez, Marvin, John Goddard-Close, and Fabiola Martínez-Licona. “Im- proving automatic speech recognition containing additive noise using deep denoising autoencoders of LSTM networks.” International Conference on Speech and Computer. Springer, Cham, 2016.

Abouzid, Houda, et al. “Signal speech reconstruction and noise removal using convolutional denoising audioencoders with neural deep learning.” Analog Integrated Circuits and Signal Processing 100.3 (2019): 501-512.

Ling, Zhang. ”An Acoustic Model for English Speech Recognition Based on Deep Learning.” 2019 11th International Conference on Measuring Technology and Mechatronics Automation (ICMTMA). IEEE, 2019.

Coto-Jiménez, M.; Goddard-Close, J.; Di Persia, L.; Rufiner, H.L. “Hybrid Speech Enhancement with Wiener filters and Deep LSTM Denoising Autoencoders.” In Proceedings of the 2018 IEEE International Work Conference on Bioinspired Intelligence (IWOBI), San Carlos, CA, USA, 18–20 July 2018; pp. 1–8.

González-Salazar, Astryd, Michelle Gutiérrez-Muñoz, and Marvin Coto-Jiménez. ”Enhancing Speech Recorded from a Wearable Sensor Using a Collection of Autoencoders.” Latin American High Performance Computing Conference. Springer, Cham, 2019.

Gutiérrez-Muñoz, Michelle, Astryd González-Salazar, and Marvin Coto-Jiménez. “Evaluation of Mixed Deep Neural Networks for Reverberant Speech Enhancement.” Biomimetics 5.1 (2020): 1

Tkachenko, Maxim, et al. “Speech Enhancement for Speaker Recognition Using Deep Recurrent Neural Networks.” International Conference on Speech and Com- puter. Springer, Cham, 2017.

Liu, Ming, et al. “Speech Enhancement Method Based On LSTM Neural Net- work for Speech Recognition.” 2018 14th IEEE International Conference on Signal Processing (ICSP). IEEE, 2018.

Weiss, Karl, Taghi M. Khoshgoftaar, and DingDing Wang. “A survey of transfer learning.” Journal of Big Data 3.1 (2016): 9.

Song, Guangxiao, et al. “Transfer Learning for Music Genre Classification.” Inter- national Conference on Intelligence Science. Springer, Cham, 2017.

Yeom-Song, Víctor, Marisol Zeledón-Córdoba, and Marvin Coto-Jiménez. ”A Per- formance Evaluation of Several Artificial Neural Networks for Mapping Speech Spectrum Parameters