Evaluación de la eficacia de las estrategias de aprendizaje por transferencia en las redes BLSTM para la reducción del ruido
Contenido principal del artículo
Resumen
La eliminación de ruido de las señales de voz representa una tarea desafiante debido al creciente número de aplicaciones y tecnologías implementadas actualmente en los dispositivos portátiles y de comunicación. En esas aplicaciones, las condiciones ambientales desafiantes como el ruido de fondo, la reverberación y otros artefactos de sonido pueden afectar la calidad de las señales. Como resultado, también afecta a los sistemas de reconocimiento de voz, identificación de hablantes y localización de fuentes de sonido, entre muchos otros. Para eliminar el ruido de las señales de voz degradadas con los muchos tipos y posiblemente diferentes niveles de ruido, se han propuesto varios algoritmos durante las últimas décadas, con propuestas recientes basadas en el aprendizaje profundo presentadas como vanguardistas, en particular las basadas en redes de memoria a corto plazo (LSTM y LSMT bidireccional). En este trabajo se presenta un estudio comparativo de diferentes estrategias de transferencia de aprendizaje para reducir el tiempo de formación y aumentar la efectividad de este tipo de redes. La reducción del tiempo de entrenamiento es uno de los desafíos más críticos debido al alto costo computacional de entrenar LSTM y BLSTM. Esas estrategias surgieron de las diferentes opciones para inicializar las redes, utilizando información limpia o ruidosa de varios tipos. Los resultados muestran la conveniencia de transferir información de un solo caso de eliminación de ruido de la red al resto, con una reducción significativa en el tiempo de entrenamiento y las capacidades de eliminación de ruido de las redes BLSTM.
Detalles del artículo
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Los autores conservan los derechos de autor y ceden a la revista el derecho de la primera publicación y pueda editarlo, reproducirlo, distribuirlo, exhibirlo y comunicarlo en el país y en el extranjero mediante medios impresos y electrónicos. Asimismo, asumen el compromiso sobre cualquier litigio o reclamación relacionada con derechos de propiedad intelectual, exonerando de responsabilidad a la Editorial Tecnológica de Costa Rica. Además, se establece que los autores pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
Citas
Weninger, F., Watanabe, S., Tachioka, Y., and Schuller, B. “Deep recurrent de- noising auto-encoder and blind de-reverberation for reverberated speech recogni- tion.” IEEE ICASSP, 2014.
Donahue, Chris, Bo Li, and Rohit Prabhavalkar. “Exploring speech enhancement with generative adversarial networks for robust speech recognition.” IEEE ICASSP, 2018.
Coto-Jiménez, Marvin, John Goddard-Close, and Fabiola Martínez-Licona. “Im- proving automatic speech recognition containing additive noise using deep denoising autoencoders of LSTM networks.” International Conference on Speech and Computer. Springer, Cham, 2016.
Abouzid, Houda, et al. “Signal speech reconstruction and noise removal using convolutional denoising audioencoders with neural deep learning.” Analog Integrated Circuits and Signal Processing 100.3 (2019): 501-512.
Ling, Zhang. ”An Acoustic Model for English Speech Recognition Based on Deep Learning.” 2019 11th International Conference on Measuring Technology and Mechatronics Automation (ICMTMA). IEEE, 2019.
Coto-Jiménez, M.; Goddard-Close, J.; Di Persia, L.; Rufiner, H.L. “Hybrid Speech Enhancement with Wiener filters and Deep LSTM Denoising Autoencoders.” In Proceedings of the 2018 IEEE International Work Conference on Bioinspired Intelligence (IWOBI), San Carlos, CA, USA, 18–20 July 2018; pp. 1–8.
González-Salazar, Astryd, Michelle Gutiérrez-Muñoz, and Marvin Coto-Jiménez. ”Enhancing Speech Recorded from a Wearable Sensor Using a Collection of Autoencoders.” Latin American High Performance Computing Conference. Springer, Cham, 2019.
Gutiérrez-Muñoz, Michelle, Astryd González-Salazar, and Marvin Coto-Jiménez. “Evaluation of Mixed Deep Neural Networks for Reverberant Speech Enhancement.” Biomimetics 5.1 (2020): 1
Tkachenko, Maxim, et al. “Speech Enhancement for Speaker Recognition Using Deep Recurrent Neural Networks.” International Conference on Speech and Com- puter. Springer, Cham, 2017.
Liu, Ming, et al. “Speech Enhancement Method Based On LSTM Neural Net- work for Speech Recognition.” 2018 14th IEEE International Conference on Signal Processing (ICSP). IEEE, 2018.
Weiss, Karl, Taghi M. Khoshgoftaar, and DingDing Wang. “A survey of transfer learning.” Journal of Big Data 3.1 (2016): 9.
Song, Guangxiao, et al. “Transfer Learning for Music Genre Classification.” Inter- national Conference on Intelligence Science. Springer, Cham, 2017.
Yeom-Song, Víctor, Marisol Zeledón-Córdoba, and Marvin Coto-Jiménez. ”A Per- formance Evaluation of Several Artificial Neural Networks for Mapping Speech Spectrum Parameters