Evaluación de métricas en modelos predictivos de clasificación en machine learning

Campo Yepes, John Jairo

Publicación:
Evaluación de métricas en modelos predictivos de clasificación en machine learning

dc.contributor.advisor	García García, Diego Armando
dc.contributor.author	Campo Yepes, John Jairo
dc.creator.id	80094999
dc.date.accessioned	2026-03-09T01:56:57Z
dc.date.issued	2026-02-23
dc.description.abstract	El propósito de este estudio fue analizar el comportamiento y la estabilidad de diversas métricas de evaluación utilizadas en modelos de clasificación, considerando su sensibilidad frente a diferentes niveles de desbalance en los datos. Para ello, se definieron tres escenarios de diseño experimental computacional: uno balanceado, uno moderadamente desbalanceado y otro con un desbalance extremo. En cada caso se entrenaron modelos de aprendizaje automático y se calcularon métricas tradicionales como Accuracy, Precision, Recall, F1-score y AUC, con el fin de identificar variaciones en su desempeño. Adicionalmente, se aplicaron pruebas estadísticas no paramétricas, específicamente el test de rangos con signo de Wilcoxon, para comparar las métricas sin asumir supuestos de normalidad. Los resultados evidencian que, en escenarios balanceados, la mayoría de las métricas presentan comportamientos estables y diferencias reducidas. No obstante, a medida que aumenta el desbalance, algunas métricas pierden confiabilidad, en particular Accuracy y Precision, que tienden a sobreestimar el rendimiento del modelo. En contraste, AUC mostró mayor consistencia a lo largo de los escenarios analizados, mientras que Recall y F1-score reflejaron una mayor sensibilidad a la baja prevalencia de la clase minoritaria. El análisis estadístico permitió identificar diferencias significativas entre métricas en escenarios desbalanceados, lo que respalda las hipótesis planteadas y es desarrollado en detalle a lo largo del documento. En conclusión, el estudio resalta la importancia de seleccionar métricas de evaluación acordes con las características del conjunto de datos y destaca la utilidad de las pruebas no paramétricas como herramienta robusta para la comparación de métricas en problemas de clasificación.	spa
dc.description.abstract	The purpose of this study was to analyze the behavior and stability of several evaluation metrics used in classification models, considering their sensitivity to different levels of class imbalance. To this end, three computational experimental scenarios were defined: a balanced scenario, a moderately imbalanced scenario, and a highly imbalanced scenario. In each case, machine learning classification models were trained, and traditional performance metrics such as Accuracy, Precision, Recall, F1-score, and AUC were computed in order to examine variations in their behavior. Additionally, non-parametric statistical tests, specifically the Wilcoxon signed-rank test, were applied to compare metrics without assuming normality. The results indicate that, under balanced conditions, most metrics exhibit stable behavior with minor differences among them. However, as class imbalance increases, certain metrics particularly Accuracy and Precision become less reliable and tend to overestimate model performance. In contrast, AUC showed greater consistency across the analyzed scenarios, while Recall and F1-score demonstrated higher sensitivity to the low prevalence of the minority class. The statistical analysis revealed significant differences among metrics in imbalanced scenarios, supporting the hypotheses proposed and discussed in detail throughout the study. In conclusion, this research highlights the importance of selecting evaluation metrics according to the characteristics of the dataset and underscores the usefulness of non-parametric statistical tests as a robust approach for comparing classification metrics.	eng
dc.description.degreelevel	Maestría	spa
dc.description.degreename	Magíster en Ciencias de Datos	spa
dc.format	pdf
dc.format.extent	70 páginas
dc.format.medium	Recurso electrónico	spa
dc.format.mimetype	application/pdf
dc.identifier.instname	instname:Universidad Ean	spa
dc.identifier.local	BDM-MGP
dc.identifier.reponame	reponame:Repositorio Institucional Biblioteca Digital Minerva	spa
dc.identifier.repourl	repourl:https://repository.ean.edu.co/
dc.identifier.uri	https://hdl.handle.net/10882/19105
dc.language.iso	spa
dc.publisher.faculty	Facultad de Ingeniería	spa
dc.publisher.place	Bogotá, Colombia
dc.publisher.program	Maestría en Ciencias de Datos	spa
dc.relation.references	Chai, T., & Draxler, R. R. (2014). Root mean square error (RMSE) or mean absolute error (MAE)? – Arguments against avoiding RMSE in the literature. Geoscientific Model Development, 7(3), 1247–1250. https://doi.org/10.5194/gmd-7-1247-2014 Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics, 21(1), 6. https://doi.org/10.1186/s12864-019-6413-7 Jordan, M. I., & Mitchell, T. M. (2015). Machine learning: Trends, perspectives, and prospects. Science, 349(6245), 255–260. https://doi.org/10.1126/science.aaa8415 Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys, 54(6), 1–35. https://doi.org/10.1145/3457607 Molnar, C. (2022). Interpretable machine learning: A guide for making black-box models explainable (2nd ed.). https://christophm.github.io/interpretable-ml-book/ Saito, T., & Rehmsmeier, M. (2015). The precision–recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLOS ONE, 10(3), e0118432. https://doi.org/10.1371/journal.pone.0118432 Verma, S., & Rubin, J. (2018). Fairness definitions explained. In 2018 IEEE/ACM International Workshop on Software Fairness (FairWare) (pp. 1–7). IEEE. https://doi.org/10.1145/3194770.3194776 He, H., & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263–1284. https://doi.org/10.1109/TKDE.2008.239 Powers, D. M. W. (2011). Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation. Journal of Machine Learning Technologies, 2(1), 37–63. Kohavi, R. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. In Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI) (pp. 1137–1143). Conover, W. J. (1999). Practical nonparametric statistics (3rd ed.). Wiley. Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7, 1–30. Japkowicz, N., & Shah, M. (2011). Evaluating learning algorithms: A classification perspective. Cambridge University Press.
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_abf2
dc.rights.license	Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.local	Abierto (Texto Completo)
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.armarc	Innovaciones tecnológicas	spa
dc.subject.armarc	Aprendizaje automático (Inteligencia artificial)	spa
dc.subject.armarc	Inteligencia artificial	spa
dc.subject.lemb	Procesamiento de datos	spa
dc.subject.proposal	Métricas de evaluación	spa
dc.subject.proposal	Desequilibrio de clases	spa
dc.subject.proposal	Aprendizaje automático	spa
dc.subject.proposal	Pruebas no paramétricas	spa
dc.subject.proposal	Rendimiento del modelo	spa
dc.subject.proposal	Clasificación supervisada	spa
dc.subject.proposal	Validación estadística	spa
dc.title	Evaluación de métricas en modelos predictivos de clasificación en machine learning	spa
dc.title	Evaluation of metrics in predictive classification models in machine learning	eng
dc.type	Trabajo de grado - Maestría	spa
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.coarversion	http://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.content	Text
dc.type.driver	info:eu-repo/semantics/masterThesis
dc.type.other	Trabajo de grado - Maestría
dc.type.redcol	http://purl.org/redcol/resource_type/TM
dc.type.version	info:eu-repo/semantics/acceptedVersion
dspace.entity.type	Publication
person.affiliation.name	Maestría en Ciencias de Datos