Publicación: Evaluación de métricas en modelos predictivos de clasificación en machine learning
Portada
Citas bibliográficas
Código QR
Autores
Director
Fecha
Resumen en español
El propósito de este estudio fue analizar el comportamiento y la estabilidad de diversas métricas de evaluación utilizadas en modelos de clasificación, considerando su sensibilidad frente a diferentes niveles de desbalance en los datos. Para ello, se definieron tres escenarios de diseño experimental computacional: uno balanceado, uno moderadamente desbalanceado y otro con un desbalance extremo. En cada caso se entrenaron modelos de aprendizaje automático y se calcularon métricas tradicionales como Accuracy, Precision, Recall, F1-score y AUC, con el fin de identificar variaciones en su desempeño. Adicionalmente, se aplicaron pruebas estadísticas no paramétricas, específicamente el test de rangos con signo de Wilcoxon, para comparar las métricas sin asumir supuestos de normalidad. Los resultados evidencian que, en escenarios balanceados, la mayoría de las métricas presentan comportamientos estables y diferencias reducidas. No obstante, a medida que aumenta el desbalance, algunas métricas pierden confiabilidad, en particular Accuracy y Precision, que tienden a sobreestimar el rendimiento del modelo. En contraste, AUC mostró mayor consistencia a lo largo de los escenarios analizados, mientras que Recall y F1-score reflejaron una mayor sensibilidad a la baja prevalencia de la clase minoritaria. El análisis estadístico permitió identificar diferencias significativas entre métricas en escenarios desbalanceados, lo que respalda las hipótesis planteadas y es desarrollado en detalle a lo largo del documento. En conclusión, el estudio resalta la importancia de seleccionar métricas de evaluación acordes con las características del conjunto de datos y destaca la utilidad de las pruebas no paramétricas como herramienta robusta para la comparación de métricas en problemas de clasificación.
Resumen en inglés
The purpose of this study was to analyze the behavior and stability of several evaluation metrics used in classification models, considering their sensitivity to different levels of class imbalance. To this end, three computational experimental scenarios were defined: a balanced scenario, a moderately imbalanced scenario, and a highly imbalanced scenario. In each case, machine learning classification models were trained, and traditional performance metrics such as Accuracy, Precision, Recall, F1-score, and AUC were computed in order to examine variations in their behavior. Additionally, non-parametric statistical tests, specifically the Wilcoxon signed-rank test, were applied to compare metrics without assuming normality. The results indicate that, under balanced conditions, most metrics exhibit stable behavior with minor differences among them. However, as class imbalance increases, certain metrics particularly Accuracy and Precision become less reliable and tend to overestimate model performance. In contrast, AUC showed greater consistency across the analyzed scenarios, while Recall and F1-score demonstrated higher sensitivity to the low prevalence of the minority class. The statistical analysis revealed significant differences among metrics in imbalanced scenarios, supporting the hypotheses proposed and discussed in detail throughout the study. In conclusion, this research highlights the importance of selecting evaluation metrics according to the characteristics of the dataset and underscores the usefulness of non-parametric statistical tests as a robust approach for comparing classification metrics.

PDF
FLIP 
