Evaluación de métricas en modelos predictivos de clasificación en machine learning

Campo Yepes, John Jairo

Publicación:
Evaluación de métricas en modelos predictivos de clasificación en machine learning

Portada

719.19 KB

Tesis de Maestría

PDF

FLIP

198.63 KB

Autorización Publicación

PDF

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

URI

https://hdl.handle.net/10882/19105

Autores

Campo Yepes, John Jairo

Director

García García, Diego Armando

Fecha

2026-02-23

Resumen en español

El propósito de este estudio fue analizar el comportamiento y la estabilidad de diversas métricas de evaluación utilizadas en modelos de clasificación, considerando su sensibilidad frente a diferentes niveles de desbalance en los datos. Para ello, se definieron tres escenarios de diseño experimental computacional: uno balanceado, uno moderadamente desbalanceado y otro con un desbalance extremo. En cada caso se entrenaron modelos de aprendizaje automático y se calcularon métricas tradicionales como Accuracy, Precision, Recall, F1-score y AUC, con el fin de identificar variaciones en su desempeño. Adicionalmente, se aplicaron pruebas estadísticas no paramétricas, específicamente el test de rangos con signo de Wilcoxon, para comparar las métricas sin asumir supuestos de normalidad. Los resultados evidencian que, en escenarios balanceados, la mayoría de las métricas presentan comportamientos estables y diferencias reducidas. No obstante, a medida que aumenta el desbalance, algunas métricas pierden confiabilidad, en particular Accuracy y Precision, que tienden a sobreestimar el rendimiento del modelo. En contraste, AUC mostró mayor consistencia a lo largo de los escenarios analizados, mientras que Recall y F1-score reflejaron una mayor sensibilidad a la baja prevalencia de la clase minoritaria. El análisis estadístico permitió identificar diferencias significativas entre métricas en escenarios desbalanceados, lo que respalda las hipótesis planteadas y es desarrollado en detalle a lo largo del documento. En conclusión, el estudio resalta la importancia de seleccionar métricas de evaluación acordes con las características del conjunto de datos y destaca la utilidad de las pruebas no paramétricas como herramienta robusta para la comparación de métricas en problemas de clasificación.

Resumen en inglés

The purpose of this study was to analyze the behavior and stability of several evaluation metrics used in classification models, considering their sensitivity to different levels of class imbalance. To this end, three computational experimental scenarios were defined: a balanced scenario, a moderately imbalanced scenario, and a highly imbalanced scenario. In each case, machine learning classification models were trained, and traditional performance metrics such as Accuracy, Precision, Recall, F1-score, and AUC were computed in order to examine variations in their behavior. Additionally, non-parametric statistical tests, specifically the Wilcoxon signed-rank test, were applied to compare metrics without assuming normality. The results indicate that, under balanced conditions, most metrics exhibit stable behavior with minor differences among them. However, as class imbalance increases, certain metrics particularly Accuracy and Precision become less reliable and tend to overestimate model performance. In contrast, AUC showed greater consistency across the analyzed scenarios, while Recall and F1-score demonstrated higher sensitivity to the low prevalence of the minority class. The statistical analysis revealed significant differences among metrics in imbalanced scenarios, supporting the hypotheses proposed and discussed in detail throughout the study. In conclusion, this research highlights the importance of selecting evaluation metrics according to the characteristics of the dataset and underscores the usefulness of non-parametric statistical tests as a robust approach for comparing classification metrics.

Tipo de Material

Trabajo de grado - Maestría

Palabras clave

Innovaciones tecnológicas

Aprendizaje automático (Inteligencia artificial)

Inteligencia artificial

Procesamiento de datos

Colecciones

Maestría en Ciencia de Datos

Página completa del ítem Ver Estadísticas de uso

Publicación:
Evaluación de métricas en modelos predictivos de clasificación en machine learning

Portada

Tesis de Maestría

Autorización Publicación

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

URI

Autores

Director

Fecha

Resumen en español

Resumen en inglés

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor

Tipo de Material

Palabras clave

Citación

Título de serie/ reporte/ volumen/ colección

Es Parte de

Descripción

Notas

URL del Recurso

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación: Evaluación de métricas en modelos predictivos de clasificación en machine learning

Portada

Tesis de Maestría

Autorización Publicación

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

URI

Autores

Director

Fecha

Resumen en español

Resumen en inglés

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor

Tipo de Material

Palabras clave

Citación

Título de serie/ reporte/ volumen/ colección

Es Parte de

Descripción

Notas

URL del Recurso

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación:
Evaluación de métricas en modelos predictivos de clasificación en machine learning