Comparación de cuatro clasificadores para la discriminación de voz y música: un primer estudio de caso para la radiodifusión costarricense

Contenido principal del artículo

Joseline Sánchez-Solís
Marvin Coto-Jiménez

Resumen

Durante las últimas décadas, una gran cantidad de datos de audio ha estado disponible en la mayoría de los idiomas y regiones del mundo. La organización y manipulación eficiente de estos datos son importantes para tareas como clasificación de datos, búsqueda de información, diarización entre muchas otras, pero también pueden ser relevantes para construir corpus para modelos de entrenamiento para reconocimiento automático de voz o construir sistemas de síntesis de voz. Varias de esas tareas requieren pruebas y datos exhaustivos para idiomas y acentos específicos, especialmente cuando el objetivo es el desarrollo de sistemas de comunicación con máquinas. En este trabajo, exploramos la aplicación de varios clasificadores para la tarea de discriminar el habla y la música en la radiodifusión costarricense. Esta discriminación es una primera tarea en la exploración de un gran corpus, para determinar si la información disponible es útil o no para áreas de investigación particulares. El principal aporte de este trabajo exploratorio es el procedimiento general y la selección de algoritmos para el corpus de radio costarricense, lo que puede llevar al uso extensivo de esta fuente de datos en muchas aplicaciones y sistemas propios.

Detalles del artículo

Cómo citar
Sánchez-Solís, J. ., & Coto-Jiménez, M. (2022). Comparación de cuatro clasificadores para la discriminación de voz y música: un primer estudio de caso para la radiodifusión costarricense . Revista Tecnología En Marcha, 35(8), Pág. 119–127. https://doi.org/10.18845/tm.v35i8.6463
Sección
Artículo científico

Citas

Lavner, Yizhar, and Dima Ruinskiy. ”A decision-tree-based algorithm for speech/music classification and segmentation.” EURASIP Journal on Audio, Speech, and Music Processing 2009 (2009): 1-14.

Ghosal, Arijit, and Suchibrota Dutta. ”Speech/music discrimination using per- ceptual feature.” Computational Science and Engineering: Proceedings of the In- ternational Conference on Computational Science and Engineering (Beliaghata, Kolkata, India, 4-6 October 2016). CRC Press, 2016.

Birajdar, Gajanan K., and Mukesh D. Patil. ”Speech/music classification using visual and spectral chromagram features.” Journal of Ambient Intelligence and Humanized Computing 11.1 (2020): 329-347.

Hirvonen, Toni. ”Speech/music classification of short audio segments.” 2014 IEEE International Symposium on Multimedia. IEEE, 2014.

Wu, Qiong, et al. ”A combination of data mining method with decision trees build- ing for Speech/Music discrimination.” Computer Speech & Language 24.2 (2010): 257-272.

Kang, Sang-Ick, and Sangmin Lee. ”Improvement of Speech/Music Classification for 3GPP EVS Based on LSTM.” Symmetry 10.11 (2018): 605.

Ruiz-Reyes, Nicolas, et al. ”New speech/music discrimination approach based on fundamental frequency estimation.” Multimedia Tools and Applications 41.2 (2009): 253-286.

Kim, S. B., and S. M. Lee. ”A Comparative Evaluation of Speech-Music Classi- fication Algorithms in the Noise Environment.” International Journal of Design, Analysis and Tools for Integrated Circuits and Systems 8.1 (2019): 36-37.

Saunders, John. ”Real-time discrimination of broadcast speech/music.” 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. Vol. 2. IEEE, 1996.

Zhang, Hao, et al. ”Application of i-vector in speech and music classification.” 2016 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT). IEEE, 2016.

Khonglah, Banriskhem K., and SR Mahadeva Prasanna. ”Speech/music classifica- tion using speech-specific features.” Digital Signal Processing 48 (2016): 71-83.

Kacprzak, Stanis-law, B-laz˙ej Chwie´cko, and Bartosz Zi´o-lko. ”Speech/music discrim- ination for analysis of radio stations.” 2017 International Conference on Systems, Signals and Image Processing (IWSSIP). IEEE, 2017.

Tsipas, Nikolaos, et al. ”Efficient audio-driven multimedia indexing through similarity-based speech/music discrimination.” Multimedia Tools and Applications 76.24 (2017): 25603-25621.

Li, Zhitong, et al. ”Optimization of EVS speech/music classifier based on deep learning.” 2018 14th IEEE International Conference on Signal Processing (ICSP). IEEE, 2018.

Giannakopoulos, Theodoros. ”pyaudioanalysis: An open-source python library for audio signal analysis.” PloS one 10.12 (2015).

Hossan, Md Afzal, Sheeraz Memon, and Mark A. Gregory. ”A novel approach for MFCC feature extraction.” 2010 4th International Conference on Signal Processing and Communication Systems. IEEE, 2010.

Ellis, Daniel PW. ”Classifying music audio with timbral and chroma features.” (2007): 339-340.

Artículos más leídos del mismo autor/a