Mejorando la exactitud balanceada para especies de plantas minoritarias con datos desbalanceados
Contenido principal del artículo
Resumen
A pesar del ampliamente conocido éxito del aprendizaje profundo en tareas de clasificación,
estos modelos se miden comúnmente con métricas que no tienen en cuenta el desbalance de
datos, especialmente en términos de predicciones por clase, ignorando las clases minoritarias.
Esto puede ser un problema, ya que las clases minoritarias suelen ser las más difíciles de
predecir y en términos de recolección de datos. En el dominio de las plantas, por ejemplo, las
especies con un menor número de muestras son a menudo las más difíciles de recolectar y
predecir en el campo. A medida que se siguen identificando más y más especies de plantas,
más de ellas se vuelven minoritarias, lo que dificulta cada vez más la clasificación precisa
utilizando métodos tradicionales de aprendizaje automático. Para abordar este problema, se
explora la combinación de enfoques de los datos y tradicionales de aprendizaje automático con
técnicas de aprendizaje profundo, como la auto-supervisión en una etapa de preprocesamiento.
Al utilizar el entrenamiento auto supervisado junto con diferentes algoritmos de muestreo y pesos
de clase, logramos mejorar la métrica de exactitud balanceada para las especies de plantas
minoritarias entre el 7.9% y el 13% sin afectar la datos general. Esto demuestra que el uso de
técnicas de aprendizaje profundo en combinación con métodos tradicionales de aprendizaje
automático puede ayudar a mejorar la precisión de las predicciones para clases minoritarias,
incluso en dominios donde los datos son limitados.
Detalles del artículo
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Los autores conservan los derechos de autor y ceden a la revista el derecho de la primera publicación y pueda editarlo, reproducirlo, distribuirlo, exhibirlo y comunicarlo en el país y en el extranjero mediante medios impresos y electrónicos. Asimismo, asumen el compromiso sobre cualquier litigio o reclamación relacionada con derechos de propiedad intelectual, exonerando de responsabilidad a la Editorial Tecnológica de Costa Rica. Además, se establece que los autores pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
Citas
M. Galar, A. Fernandez, E. Barrenechea, H. Bustince, and F. Herrera, “A review on ensembles for the class
imbalance problem: Bagging-, boosting-, and hybrid-based approaches,” IEEE Transactions on Systems,
Man, and Cybernetics, Part C (Applications and Reviews), vol. 42, no. 4, pp. 463–484, 2012.
N. Bressler, “How to check the accuracy of your machine learning model,” Feb 2022. [Online]. Available:
https://deepchecks.com/how-to- check-the-accuracy-of-your-machine-learning-model/
Y. Pristyanto, I. Pratama, and A. F. Nugraha, “Data level approach for imbalanced class handling on educational data mining multiclass classification,” in 2018 International Conference on Information and Communications
Technology (ICOIACT), 2018, pp. 310–314.
S. Lu, F. Gao, C. Piao, and Y. Ma, “Dynamic weighted cross entropy for semantic segmentation with extremely
imbalanced data,” in 2019 Interna- tional Conference on Artificial Intelligence and Advanced Manufacturing
(AIAM), 2019, pp. 230–233.
J. Carranza-Rojas and E. Mata-Montero, “Combining leaf shape and texture for costa rican plant species identification,” CLEI Electronic journal, vol. 19, no. 1, pp. 7–7, 2016.
K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE
conference on computer vision and pattern recognition, 2016, pp. 770–778.
K. H. Brodersen, C. S. Ong, K. E. Stephan, and J. M. Buhmann, “The balanced accuracy and its posterior
distribution,” in 2010 20th International Conference on Pattern Recognition, 2010, pp. 3121–3124.
T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A simple frame- work for contrastive learning of visual representations,” in International conference on machine learning. PMLR, 2020, pp. 1597–1607.
G. King and L. Zeng, “Logistic regression in rare events data,” Political analysis, vol. 9, no. 2, pp. 137–163,