Publicación: Detección de anomalías en la facturación electrónica de la DIAN usando Machine Learning
Autores
Director
Fecha
Resumen en español
Este estudio propone un modelo basado en Machine Learning para detectar anomalías y fraudes en la facturación electrónica recibida por la DIAN, optimizando la eficacia en la fiscalización tributaria. El enfoque de investigación es cuantitativo, con diseño no experimental y transversal, aplicando técnicas avanzadas de aprendizaje automático como Autoencoders y Isolation Forest. Se emplea un muestreo aleatorio estratificado, considerando un ingreso diario promedio de 25 millones de facturas, tomando una muestra significativa y manejable correspondiente a una semana específica (aproximadamente 175 millones de registros). Los resultados serán validados mediante validación cruzada y métricas estándar como precisión, recall y F1-Score.
Resumen en inglés
This study proposes a machine learning-based model to detect anomalies and fraud in electronic invoicing received by the DIAN, optimizing the effectiveness of tax audits. The research approach is quantitative, with a non-experimental and cross-sectional design, applying advanced machine learning techniques such as Autoencoders and Isolation Forest. Stratified random sampling is used, considering an average daily inflow of 25 million invoices, taking a meaningful and manageable sample corresponding to a specific week (approximately 175 million records). The results will be validated using cross-validation and standard metrics such as precision, recall, and F1-score.


