Aplicación del análisis semi discriminante de Fischer para la diarización de locutores en transmisiones de radio costarricenses
Contenido principal del artículo
Resumen
La segmentación y clasificación automática de transmisiones de audio es un problema desafiante, con muchas aplicaciones, como la indexación de bibliotecas digitales multimedia, la recuperación de información y la construcción de corpus de voz (o corpus hablado) para idiomas y acentos particulares. Ese corpus es una base de datos de archivos de audio de voz y las transcripciones de texto correspondientes. Entre los varios pasos y tareas requeridos para cualquiera de esas aplicaciones, la diarización del hablante es una de las más relevantes, porque pretende encontrar límites en las grabaciones de audio según quién habla en cada fragmento. La diarización del hablante se puede realizar de forma supervisada o no supervisada y se aplica comúnmente en audios que consisten en habla pura. En este trabajo, se realiza un primer conjunto de datos anotados y análisis de la diarización de locutores para la radiodifusión de Costa Rica, utilizando dos enfoques: uno clásico basado en la agrupación de k-medias y el más reciente Fischer Semi Discriminant. Elegimos la transmisión de radio disponible públicamente y decidimos comparar la aplicabilidad de esos sistemas en los archivos de audio completos, que también contienen algunos segmentos de música y condiciones acústicas desafiantes. Los resultados muestran una dependencia de los resultados de acuerdo con el número de hablantes en cada transmisión, especialmente en la pureza promedio del clúster. Los resultados también muestran la necesidad de una mayor exploración y combinación con otros algoritmos de clasificación y segmentación para extraer mejor información útil del conjunto de datos y permitir un mayor desarrollo del corpus del habla.
Detalles del artículo
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Los autores conservan los derechos de autor y ceden a la revista el derecho de la primera publicación y pueda editarlo, reproducirlo, distribuirlo, exhibirlo y comunicarlo en el país y en el extranjero mediante medios impresos y electrónicos. Asimismo, asumen el compromiso sobre cualquier litigio o reclamación relacionada con derechos de propiedad intelectual, exonerando de responsabilidad a la Editorial Tecnológica de Costa Rica. Además, se establece que los autores pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
Citas
Barras, Claude, et al. “Multistage speaker diarization of broadcast news.” IEEE Transactions on Audio, Speech, and Language Processing 14.5 (2006): 1505-1512.
Vavrek, Jozef, et al. “Classification of broadcast news audio data employing binary decision architecture.” Computing and Informatics 36.4 (2017): 857-886.
García-Romero, Daniel, et al. “Speaker diarization using deep neural network em – beddings.” 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017.
Theodorou, Theodoros, Iosif Mporas, and Nikos Fakotakis. “An overview of auto – matic audio segmentation.” International Journal of Information Technology and Computer Science (IJITCS) 6.11 (2014): 1.
Pleva, Matu´s, and Jozef Juh´ar. “TUKE-BNews-SK: Slovak Broadcast News Corpus Construction and Evaluation.” LREC. 2014.
Yilmaz, Emre, et al. “A longitudinal bilingual Frisian-Dutch radio broadcast database designed for code-switching research.” (2016).
Zgank, Andrej, Ana Zwitter Vitez, and Darinka Verdonik. “The Slovene BNSI Broadcast News database and reference speech corpus GOS: Towards the uniform guidelines for future work.” LREC. 2014.
Nouza, Jan, Jindrich Zdansky, and Petr Cerva. “System for automatic collection, annotation and indexing of Czech broadcast speech with full-text search.” MELE – CON 2010-2010 15th IEEE Mediterranean Electrotechnical Conference, 2010.
Federico, Marcello, Giordani, Dimitri and Coletti Paolo. “Development And Eval – uation Of An Italian Broadcast News Corpus.” European Language Resources Association (ELRA). 2000.
Giannakopoulos, Theodoros, and Sergios Petridis. “Fisher linear semi-discriminant analysis for speaker diarization.” IEEE transactions on audio, speech, and language processing 20.7 (2012): 1913-1922.
Montazzolli, Sergio, Andre Adami, and Dante Barone. “An extension to Fisher Linear Semi-Discriminant analysis for Speaker Diarization.” 2014 International Telecommunications Symposium (ITS). IEEE, 2014.
Sarafianos, Nikolaos, Theodoros Giannakopoulos, and Sergios Petridis. “Audio – visual speaker diarization using fisher linear semi-discriminant analysis.” Multime – dia Tools and Applications 75.1 (2016): 115-130.
Welling, Max. “Fisher linear discriminant analysis”. Department of computer sci – ence, University of Toronto. Technical Report, 2005.
Giannakopoulos, Theodoros. “pyaudioanalysis: An open-source python library for audio signal analysis.” PloS one 10.12 (2015): e0144610.