Understanding Variable Performance on Deep MIL Framework for the Acoustic Detection of Tropical Birds
Main Article Content
Abstract
Many audio detection algorithms have been proposed to monitor birds using their vocalizations. Among these algorithms deep learning based techniques have taken the lead in terms of performance at large scale. However, usually a lot of manual work has to be done to correctly label bird vocalizations in large datasets. One way to tackle this limitation is using the Multiple Instance Learning (MIL) framework, which models each recording as a bag of instances, i.e., a collection of audio segments that is associated with a positive label if a bird is present in the recording. In this work, we modified a previously proposed Deep MIL network to predict the presence or absence of birds in audio field recordings of one minute. We explore the behavior and performance of the network when using different number of Mel-Frequency Cepstral Coefficients (MFCC) to represent the recordings. The best configuration found achieved a 0.77 F-score over the validation dataset.
Article Details
Los autores conservan los derechos de autor y ceden a la revista el derecho de la primera publicación y pueda editarlo, reproducirlo, distribuirlo, exhibirlo y comunicarlo en el país y en el extranjero mediante medios impresos y electrónicos. Asimismo, asumen el compromiso sobre cualquier litigio o reclamación relacionada con derechos de propiedad intelectual, exonerando de responsabilidad a la Editorial Tecnológica de Costa Rica. Además, se establece que los autores pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.