Análisis de importancia de los parámetros en el aprendizaje automático como mejora en la interpretabilidad del modelado espectrofotométrico para monitoreo de calidad del agua
Contenido principal del artículo
Resumen
La espectrofotometría ultravioleta-visible (UV-Vis) para la cuantificación de NO3- en tiempo real en el agua es comúnmente afectada por interferencias espectrales por parte de la materia orgánica disuelta (DOM). Este estudio evalúa la interpretabilidad de los modelos de aprendizaje automático (ML) para esta tarea, enfocándose en el análisis de importancia de características como método para mejorar la interpretabilidad química y detectar interferencias espectrales. Se compararon cuatro algoritmos utilizando un conjunto de datos de 29 muestras de agua superficial: PCA-Random Forest (PCA-RF), PCA-XGBoost, RF de espectro completo (All-RF) y XGBoost de espectro completo (All-XGB). La validación cruzada (LOOCV) no mostró diferencias significativas en el rendimiento entre los modelos (p = 0.182), con valores medios de RMSE entre 0.6 y 0.8 mg / L. El análisis de importancia de características reveló que los modelos basados en PCA dependen de la varianza en lugar de la relevancia química, lo que limita su fiabilidad. El modelo XGBoost con el espectro completo mostró una interpretabilidad espectral superior, identificando con éxito tanto el pico de absorción de NO3- (≈ 220 nm) como el pico de corrección de interferencia de DOM (≈ 260 nm). Esto sugiere que el uso de XGBoost podría ser adecuado para sistemas de monitoreo continuo del agua debido a su capacidad para identificar las interferencias espectrales.
Detalles del artículo

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Los autores conservan los derechos de autor y ceden a la revista el derecho de la primera publicación y pueda editarlo, reproducirlo, distribuirlo, exhibirlo y comunicarlo en el país y en el extranjero mediante medios impresos y electrónicos. Asimismo, asumen el compromiso sobre cualquier litigio o reclamación relacionada con derechos de propiedad intelectual, exonerando de responsabilidad a la Editorial Tecnológica de Costa Rica. Además, se establece que los autores pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
Citas
[1] J. Villalobos-Villegas, A. Carrasquilla-Batista and L. Hernández-Alpízar, “Water quality monitoring station through nitrate measuring with IoT,” in 2023 IEEE 5th International Conference on BioInspired Processing (BIP), Alajuela, Costa Rica, 2023, doi: 10.1109/BIP60195.2023.10379419.
[2] Y. Guo et al, “Advances on Water Quality Detection by UV-Vis Spectroscopy,” Appl. Sci., vol. 10, (19), pp. 6874, 2020, doi: 10.3390/app10196874.
[3] M. F. Silva et al, “Usability of simplified UV–Vis spectrophotometric methods for the determination of nitrate in the presence of organic matter and chloride as interfering factors,” Wat. Pract. Tech., vol. 19, (3), pp. 1061–1070, 2024, doi: 10.2166/wpt.2024.043.
[4] T. R. Holm, “NO3- nitrogen (nitrate),” in Standard Methods for the Examination of Water and Wastewater, R. B. Bair, A. D. Eaton and E. W. Rice, Eds. Washington DC: American Public Health Association, 2017, pp. 1–2.
[5] Q. Huang et al, “Exploring the Impact of Dissolved Organic Matter on Nitrate Detection: Developing a Lab Experiment Using Standard Ultraviolet Spectrophotometry,” J. Chem. Educ., vol. 101, (5), pp. 2030–2038, 2024, doi: 10.1021/acs.jchemed.3c00958.
[6] T. J. Maguire et al, “Ultraviolet-visual spectroscopy estimation of nitrate concentrations in surface waters via machine learning,” Limnol Oceanogr Methods, vol. 20, (1), pp. 26–33, 2022, doi: 10.1002/lom3.10468.
[7] Y. Lyu et al, “Development of statistical regression and artificial neural network models for estimating nitrogen, phosphorus, COD, and suspended solid concentrations in eutrophic rivers using UV–Vis spectroscopy,” Environ. Monit. Assess., vol. 195, (9), pp. 1114, 2023, doi: 10.1007/s10661-023-11738-0.
[8] J. Park et al, “Interpretation of ensemble learning to predict water quality using explainable artificial intelligence,” Sci. Total Environ., vol. 832, pp. 155070, 2022, doi: 10.1016/j.scitotenv.2022.155070.
[9] M. Cardia et al, “Machine Learning for the Estimation of COD from UV-Vis Spectrometer in Leather Industries Wastewater,” IJEPR, vol. 11, pp. 10–19, 2023, doi: 10.11159/ijepr.2023.002.
[10] C. Chen et al, “Characteristic Wavelength Selection and Surrogate Monitoring for UV–Vis Absorption Spectroscopy-Based Water Quality Sensing,” Water, vol. 17, (3), pp. 343, 2025, doi: 10.3390/w17030343.
[11] C. Fei et al, “Machine learning techniques for real-time UV-vis spectral analysis to monitor dissolved nutrients in surface water,” in AI and Optical Data Sciences II, 2021, doi: 10.1117/12.2577050.
[12] J. Jiang and S. Tang. , 2022, “Spectral Water Quality Data,” Mendeley Data, doi: 10.17632/d4vzbcxxcy.1.
[13] Y. Chen and Y. Yang, “The One Standard Error Rule for Model Selection: Does It Work?” Stats, vol. 4, (4), pp. 868–892, 2021, doi: 10.3390/stats4040051.
[14] S. M. Teague, “UV absorbing organic constituents,” in Standard Methods for the Examination of Water and Wastewater, R. B. Bair, A. D. Eaton and E. W. Rice, Eds. Washington DC: American Public Health Association, 2017, pp. 1–2.
[15] F. L. Gewers et al, “Principal Component Analysis: A Natural Approach to Data Exploration,” ACM Comput.Surv., vol. 54, (4), 2021, doi: 10.1145/3447755.
[16] T. Chen and C. Guestrin, “XGBoost: A scalable tree boosting system,” in Proc. 22nd ACM SIGKDD Int. Conf. Knowl. Discovery Data Mining, San Francisco, California, 2016, doi: 10.1145/2939672.2939785.
[17] S. Hossain et al, “Development of an Optical Method to Monitor Nitrification in Drinking Water,” Sensors, vol. 21, (22), 2021, doi: 10.3390/s21227525.