Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos

Contenido principal del artículo

Resumen

Actualmente, los datos textuales constituyen una parte fundamental de las bases de datos de todo el mundo y uno de los mayores desafíos ha sido la extracción de información útil a partir de conjuntos grandes de documentos de texto. La literatura existente sobre métodos para resolver este problema es muy extensa, sin embargo, los métodos estadísticos (que utilizan métricas de similitud sobre vectores de palabras) han mostrado resultados muy favorables en el campo de la minería de texto durante los últimos 25 años. Adicionalmente, otros modelos han surgido como una prometedora alternativa para lograr reducción dimensional e incorporación de la semántica en la clasificación de documentos, tal como el modelado de temas. Este proyecto se enfoca en la evaluación de técnicas de representación y medidas de similitud de texto (Coseno, Jaccard y Kullback-Leibler) usando el algoritmo de Vecinos más Cercanos (KNN por sus siglas en inglés), con el fin de medir la efectividad del modelado de temas para reducción dimensional al clasificar texto. Los resultados muestran que la versión más tradicional del vector de palabras y la similitud Jaccard superaron al resto de las combinaciones en la mayoría de los casos de uso. Sin embargo, el análisis estadístico mostró que no hubo una diferencia significativa entre la exactitud obtenida al usar representaciones generadas por la Asignación de Dirichlet Latente (técnica de modelado de temas más conocida como LDA por sus siglas en inglés), y la obtenida usando técnicas tradicionales de clasificación de texto. LDA logró abstraer miles de palabras en menos de 60 temas para el primer conjunto de pruebas. Experimentos adicionales sugieren que el modelado de temas puede llegar a lograr un mejor rendimiento al ser usado para clasificar textos cortos y al incrementar el número de temas permitidos al momento de generar el modelo.

Detalles del artículo

Cómo citar
Evaluación de distintas técnicas de representación de texto y medidas de distancia de texto usando KNN para clasificación de documentos. (2020). Revista Tecnología En Marcha, 33(1), Pág. 64–79. https://doi.org/10.18845/tm.v33i1.5022
Sección
Artículo científico

Citas

[1] A. N. Srivastava, M. Sahami, Text mining: Classification, clustering, and applications, CRC Press, 2009.
[2] C. T. Tran, M. Zhang, P. Andreae, Multiple imputation for missing data using genetic programming, in: Proceedings of the 2015 Annual Conference on Genetic and Evolutionary Computation, ACM, 2015, pp. 583–590.
[3] M. Kocher, J. Savoy, Distance measures in author profiling, Information Processing & Management 53 (5) (2017) 1103–1119.
[4] V. K. Vijayan, K. R. Bindu, L. Parameswaran, A comprehensive study of text classification algorithms, in: 2017 International Conference on Advances in Computing, Communications and Informatics (ICACCI), 2017, pp. 1109–1113. doi:10.1109/ICACCI.2017.8125990.
[5] Y. Zhao, Y. Qian, C. Li, Improved knn text classification algorithm with mapreduce implementation, in: Conference: Conference: 2017 4th International Conference on Systems and Informatics (ICSAI), 2017, pp. 1417–1422.
[6] A. J. Soto, A. Mohammad, A. Albert, A. Islam, E. Milios, M. Doyle, R. Minghim, M. C. Ferreira de Oliveira, Similarity-based support for text reuse in technical writing, in: Proceedings of the 2015 ACM Symposium on Document Engineering, ACM, 2015, pp. 97–106.
[7] D.-H. Bae, S.-H. Yoon, T.-H. Eom, J. Ha, Y.-S. Hwang, S.-W. Kim, Computing paper similarity based on latent dirichlet allocation, in: Proceedings of the 8th International Conference on Ubiquitous Information Management and Communication, ACM, 2014, p. 77.
[8] K. Bougiatiotis, T. Giannakopoulos, Content representation and similarity of movies based on topic extraction from subtitles, in: Proceedings of the 9th Hellenic Conference on Artificial Intelligence, ACM, 2016, p. 17.
[9] M. Pavlinek, V. Podgorelec, Text classification method based on self-training and lda topic models, Expert Systems with Applications 80 (2017) 83–93.
[10] J. D. Mcauliffe, D. M. Blei, Supervised topic models, in: Advances in neural information processing systems, 2008, pp. 121–128.
[11] S. Seifzadeh, A. K. Farahat, M. S. Kamel, F. Karray, Short-text clustering using statistical semantics, in: Proceedings of the 24th International Conference on World Wide Web, ACM, 2015, pp. 805–810.
[12] N. Devraj, M. Chary, How do twitter, wikipedia, and harrison’s principles of medicine describe heart attacks?, in: Proceedings of the 6th ACM Conference on Bioinformatics, Computational Biology and Health Informatics, ACM, 2015, pp. 610–614.
[13] C. C. Aggarwal, Data mining: the textbook, Springer, 2015.
[14] A. K. Uysal, S. Gunal, The impact of preprocessing on text classification, Information Processing & Management 50 (1) (2014) 104–112.
[15] H. K. Kim, H. Kim, S. Cho, Bag-of-concepts: Comprehending document representation through clustering words in distributed representation, Neurocomputing 266 (2017) 336–352.
[16] A. Onan, S. Koruko˘glu, H. Bulut, Ensemble of keyword extraction methods and classifiers in text classification, Expert Systems with Applications 57 (2016) 232–247.
[17] N. Liebman, D. Gergle, Capturing turn-by-turn lexical similarity in text-based communication, in: Proceedings of the 19th ACM Conference on Computer-Supported Cooperative Work & Social Computing, ACM, 2016, pp. 553–559.
[18] A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of tricks for efficient text classification, arXiv preprint arXiv:1607.01759.
[19] J. Pennington, R. Socher, C. Manning, Glove: Global vectors for word representation, in: Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014, pp. 1532– 1543.
[20] D. M. Blei, A. Y. Ng, M. I. Jordan, Latent dirichlet allocation, Journal of machine Learning research 3 (Jan) (2003) 993–1022.