Publicación:
Evaluación de métricas en modelos predictivos de clasificación en machine learning

dc.contributor.advisorGarcía García, Diego Armando
dc.contributor.authorCampo Yepes, John Jairo
dc.creator.id80094999
dc.date.accessioned2026-03-09T01:56:57Z
dc.date.issued2026-02-23
dc.description.abstractEl propósito de este estudio fue analizar el comportamiento y la estabilidad de diversas métricas de evaluación utilizadas en modelos de clasificación, considerando su sensibilidad frente a diferentes niveles de desbalance en los datos. Para ello, se definieron tres escenarios de diseño experimental computacional: uno balanceado, uno moderadamente desbalanceado y otro con un desbalance extremo. En cada caso se entrenaron modelos de aprendizaje automático y se calcularon métricas tradicionales como Accuracy, Precision, Recall, F1-score y AUC, con el fin de identificar variaciones en su desempeño. Adicionalmente, se aplicaron pruebas estadísticas no paramétricas, específicamente el test de rangos con signo de Wilcoxon, para comparar las métricas sin asumir supuestos de normalidad. Los resultados evidencian que, en escenarios balanceados, la mayoría de las métricas presentan comportamientos estables y diferencias reducidas. No obstante, a medida que aumenta el desbalance, algunas métricas pierden confiabilidad, en particular Accuracy y Precision, que tienden a sobreestimar el rendimiento del modelo. En contraste, AUC mostró mayor consistencia a lo largo de los escenarios analizados, mientras que Recall y F1-score reflejaron una mayor sensibilidad a la baja prevalencia de la clase minoritaria. El análisis estadístico permitió identificar diferencias significativas entre métricas en escenarios desbalanceados, lo que respalda las hipótesis planteadas y es desarrollado en detalle a lo largo del documento. En conclusión, el estudio resalta la importancia de seleccionar métricas de evaluación acordes con las características del conjunto de datos y destaca la utilidad de las pruebas no paramétricas como herramienta robusta para la comparación de métricas en problemas de clasificación.spa
dc.description.abstractThe purpose of this study was to analyze the behavior and stability of several evaluation metrics used in classification models, considering their sensitivity to different levels of class imbalance. To this end, three computational experimental scenarios were defined: a balanced scenario, a moderately imbalanced scenario, and a highly imbalanced scenario. In each case, machine learning classification models were trained, and traditional performance metrics such as Accuracy, Precision, Recall, F1-score, and AUC were computed in order to examine variations in their behavior. Additionally, non-parametric statistical tests, specifically the Wilcoxon signed-rank test, were applied to compare metrics without assuming normality. The results indicate that, under balanced conditions, most metrics exhibit stable behavior with minor differences among them. However, as class imbalance increases, certain metrics particularly Accuracy and Precision become less reliable and tend to overestimate model performance. In contrast, AUC showed greater consistency across the analyzed scenarios, while Recall and F1-score demonstrated higher sensitivity to the low prevalence of the minority class. The statistical analysis revealed significant differences among metrics in imbalanced scenarios, supporting the hypotheses proposed and discussed in detail throughout the study. In conclusion, this research highlights the importance of selecting evaluation metrics according to the characteristics of the dataset and underscores the usefulness of non-parametric statistical tests as a robust approach for comparing classification metrics.eng
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagíster en Ciencias de Datosspa
dc.formatpdf
dc.format.extent70 páginas
dc.format.mediumRecurso electrónicospa
dc.format.mimetypeapplication/pdf
dc.identifier.instnameinstname:Universidad Eanspa
dc.identifier.localBDM-MGP
dc.identifier.reponamereponame:Repositorio Institucional Biblioteca Digital Minervaspa
dc.identifier.repourlrepourl:https://repository.ean.edu.co/
dc.identifier.urihttps://hdl.handle.net/10882/19105
dc.language.isospa
dc.publisher.facultyFacultad de Ingenieríaspa
dc.publisher.placeBogotá, Colombia
dc.publisher.programMaestría en Ciencias de Datosspa
dc.relation.referencesChai, T., & Draxler, R. R. (2014). Root mean square error (RMSE) or mean absolute error (MAE)? – Arguments against avoiding RMSE in the literature. Geoscientific Model Development, 7(3), 1247–1250. https://doi.org/10.5194/gmd-7-1247-2014 Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics, 21(1), 6. https://doi.org/10.1186/s12864-019-6413-7 Jordan, M. I., & Mitchell, T. M. (2015). Machine learning: Trends, perspectives, and prospects. Science, 349(6245), 255–260. https://doi.org/10.1126/science.aaa8415 Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys, 54(6), 1–35. https://doi.org/10.1145/3457607 Molnar, C. (2022). Interpretable machine learning: A guide for making black-box models explainable (2nd ed.). https://christophm.github.io/interpretable-ml-book/ Saito, T., & Rehmsmeier, M. (2015). The precision–recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLOS ONE, 10(3), e0118432. https://doi.org/10.1371/journal.pone.0118432 Verma, S., & Rubin, J. (2018). Fairness definitions explained. In 2018 IEEE/ACM International Workshop on Software Fairness (FairWare) (pp. 1–7). IEEE. https://doi.org/10.1145/3194770.3194776 He, H., & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263–1284. https://doi.org/10.1109/TKDE.2008.239 Powers, D. M. W. (2011). Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation. Journal of Machine Learning Technologies, 2(1), 37–63. Kohavi, R. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. In Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI) (pp. 1137–1143). Conover, W. J. (1999). Practical nonparametric statistics (3rd ed.). Wiley. Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7, 1–30. Japkowicz, N., & Shah, M. (2011). Evaluating learning algorithms: A classification perspective. Cambridge University Press.
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.localAbierto (Texto Completo)
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.armarcInnovaciones tecnológicasspa
dc.subject.armarcAprendizaje automático (Inteligencia artificial)spa
dc.subject.armarcInteligencia artificialspa
dc.subject.lembProcesamiento de datosspa
dc.subject.proposalMétricas de evaluaciónspa
dc.subject.proposalDesequilibrio de clasesspa
dc.subject.proposalAprendizaje automáticospa
dc.subject.proposalPruebas no paramétricasspa
dc.subject.proposalRendimiento del modelospa
dc.subject.proposalClasificación supervisadaspa
dc.subject.proposalValidación estadísticaspa
dc.titleEvaluación de métricas en modelos predictivos de clasificación en machine learningspa
dc.titleEvaluation of metrics in predictive classification models in machine learningeng
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.contentText
dc.type.driverinfo:eu-repo/semantics/masterThesis
dc.type.otherTrabajo de grado - Maestría
dc.type.redcolhttp://purl.org/redcol/resource_type/TM
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dspace.entity.typePublication
person.affiliation.nameMaestría en Ciencias de Datos

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
CampoJohn2026.pdf
Tamaño:
719.19 KB
Formato:
Adobe Portable Document Format
Descripción:
Tesis de Maestría
Cargando...
Miniatura
Nombre:
CampoJohn2026_Anexo.pdf
Tamaño:
198.63 KB
Formato:
Adobe Portable Document Format
Descripción:
Autorización Publicación

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.92 KB
Formato:
Item-specific license agreed upon to submission
Descripción: