Publicación:
Modelo de aprendizaje automático y análisis de factores de abandono de clientes para mejorar su retención en el sector de comercio electrónico

dc.contributor.advisorChacón Rivera, Lina María
dc.contributor.authorPeña Sánchez, Diana Mireya
dc.contributor.authorCamacho Arango, Andrés David
dc.contributor.authorPabón Peña, Olga Lucia
dc.creator.id1020719075
dc.creator.id1024539580
dc.creator.id52931775
dc.date.accessioned2026-03-05T01:18:00Z
dc.date.issued2026-02-13
dc.description.abstractEste proyecto de investigación busca desarrollar un modelo de aprendizaje automático que permita predecir el abandono de clientes (churn) en el sector de comercio electrónico minorista de moda. Debido a que el abandono no se evidencia de forma explícita ni de manera inmediata en este tipo de comercio, el estudio busca analizar cuáles son las variables que tienen un mayor impacto en el abandono, con el fin de diseñar estrategias que optimicen los recursos de las campañas de retención. La metodología propuesta empleará datos fidedignos provenientes de mencionado sector y luego de anonimizarlos se procederá a emplear tres algoritmos de aprendizaje automático: Regresión Logística, Random Forest y XGBoost, ampliamente utilizados en diversos estudios. Realizada la validación experimental de mencionados algoritmos, el modelo que obtuvo los mejores valores en las métricas de desempeño fue el XGBoost, con una exactitud (Accuracy) del 96 %, un F1-Score de 97 % y un ROC-AUC de 99,33 % demostrando una alta capacidad para pronosticar el abandono; respecto al Random Forest que obtuvo una exactitud del 95 % y finalmente la Regresión Logística con una exactitud del 90 %. La precisión y sensibilidad sobresaliente del XGBoost evidencian su gran robustez brindando un soporte sólido y confiable para la formulación o diseño de estrategias de retención traduciéndolo en optimización de costos y aumento en la rentabilidad.spa
dc.description.abstractThis research project aims to develop a machine learning model capable of predicting customer churn in the retail fashion e-commerce sector. Since churn does not manifest explicitly or immediately in this type of business, the study seeks to analyze which variables have the greatest impact on customer attrition, with the purpose of designing strategies that optimize retention campaign resources. The proposed methodology will employ reliable data from the mentioned sector, which will be anonymized before applying three machine learning algorithms: Logistic Regression, Random Forest, and XGBoost, all widely used in previous studies. After conducting experimental validation of these algorithms, the model that achieved the best performance metrics was XGBoost, with an accuracy of 96%, an F1-score of 97%, and a ROC-AUC of 99.33%, demonstrating a high capacity to forecast churn. In comparison, Random Forest achieved 95% accuracy, and Logistic Regression reached 90%. The outstanding precision and recall of XGBoost highlight its robustness, providing solid and reliable support for the formulation of retention strategies, ultimately leading to cost optimization and increased profitability.eng
dc.description.degreelevelEspecializaciónspa
dc.description.degreenameEspecialista en Machine Learningspa
dc.description.tableofcontentsTabla de Contenido Resumen 5 Palabras Clave 5 Planteamiento del Problema 5 Antecedentes del Problema 6 Descripción del Problema 7 Pregunta de Investigación 9 Objetivos 9 Objetivo General 9 Objetivos Específicos 9 Marco Teórico 10 Estado del Arte 10 Análisis Comparativo de Modelos de Agrupación para Predicción de Pérdida de Clientes 10 Evaluación Integral de los Modelos de Aprendizaje Automático y Aprendizaje Profundo para la Predicción de la Rotación de Clientes 11 Comparación de Métodos para Manejar Datos Desbalanceados en la Predicción de CHURN con Selección de Características Utilizando los Frameworks SHAP y mRMR 12 Calidad e Innovación en la analítica predictiva 13 Marco Conceptual 13 Fundamentos del Fenómeno de Estudio 13 Conceptualización y Tipología del Abandono (churn) en Ecommerce. 13 Impacto Económico: Relación CLV (Customer Lifetime Value) vs Costos de Adquisición (CAC). 14 Contexto Específico del Comercio Electrónico de Retail de Moda: Dinámicas del Sector. 15 Bases de la Ciencia de Datos y Analítica Predictiva 15 Evolución de la Analítica. 18 Aprendizaje Automático Supervisado para Clasificación Binaria: Fundamentos y Aplicación al Problema de Churn. 18 Algoritmos y Técnicas de Modelado Predictivo 20 Modelos Clásicos y de Ensamble: Regresión Logística, Árboles de Decisión, Random Forest, XGBoost. 20 Deep Learning: Redes Neuronales 21 Optimización de Hiperparámetros. 22 Preparación y Transformación de Datos (Feature Engineering) 23 Calidad, Tratamiento y Normalización de Datos. 23 Transformación de Datos (Feature Engineering). 24 Manejo de Big Data en Entornos Distribuidos 24 Evaluación y Validación de Modelos 25 Métricas para Problemas Desbalanceados. 25 Técnicas de Validación: Hold-out, Cross-Validation. 25 Desbalance de Clases y Rentabilidad. 26 Interpretabilidad Y Acción Estratégica (XAI) 26 Inteligencia Artificial Explicable (XAI). 26 Técnicas de Interpretación: SHAP – LIME. 27 Vinculación con Segmentación Proactiva de Clientes en Riesgo. 27 Marco Conceptual y Operativo 28 Contexto del Ecommerce en Latinoamérica. 28 Definiciones Operativas Clave. 29 De la Predicción a la Retención: Estrategias Basadas en Datos 31 Marco Normativo y Consideraciones Éticas 32 Protección de Datos Personales y Habeas Data. 32 Tratamiento de Datos y Anonimización. 32 Gestión de Variables Geoespaciales. 32 Propiedad Industrial y Secretos Empresariales. 33 Confidencialidad de la Fuente. 33 Ética en Inteligencia Artificial (Explicabilidad). 33 Metodología 33 Enfoque 33 Diseño 34 Alcance 34 Descripción y Selección de Variables 35 Selección de Métodos o Instrumentos para Recolección de Información 39 Técnicas para Análisis de Datos 40 Entrenamiento de Modelos 44 Modelo de Regresión Logística 44 Modelo de Random Forest 45 Modelo de XGBoost 46 Análisis de Resultados 48 Recomendaciones Estratégicas 55 Conclusiones 57 Referencias 58
dc.formatpdf
dc.format.extent60 páginas, 1 anexo
dc.format.mediumRecurso electrónicospa
dc.format.mimetypeapplication/pdf
dc.identifier.instnameinstname:Universidad Eanspa
dc.identifier.localBDM-PML
dc.identifier.reponamereponame:Repositorio Institucional Biblioteca Digital Minervaspa
dc.identifier.repourlrepourl:https://repository.ean.edu.co/
dc.identifier.urihttps://hdl.handle.net/10882/19075
dc.language.isospa
dc.publisher.facultyFacultad de Ingenieríaspa
dc.publisher.placeBogotá, Colombia
dc.publisher.programEspecialización en Machine Learningspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.localAbierto (Texto Completo)spa
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.armarcAprendizaje automático (Inteligencia artificial)spa
dc.subject.armarcMercadeospa
dc.subject.armarcComercio electrónicospa
dc.subject.lembSatisfacción del consumidorspa
dc.subject.lembLealtad del consumidorspa
dc.subject.lembPreferencias de los consumidoresspa
dc.subject.proposalPredicción de churnspa
dc.subject.proposalChurn predictioneng
dc.subject.proposalMachine learningeng
dc.subject.proposalIngeniería de característicasspa
dc.subject.proposalFeature engineeringeng
dc.subject.proposalIA explicablespa
dc.subject.proposalExplainable AI (XAI)eng
dc.subject.proposalEstrategias de retenciónspa
dc.subject.proposalRetention strategieseng
dc.titleModelo de aprendizaje automático y análisis de factores de abandono de clientes para mejorar su retención en el sector de comercio electrónicospa
dc.titleMachine learning model and customer churn factor analysis to improve retention in the e-commerce sectoreng
dc.typeTrabajo de grado - Especialización
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.contentText
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.otherTrabajo de grado - Especialización
dc.type.redcolhttp://purl.org/redcol/resource_type/TP
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dspace.entity.typePublication
person.affiliation.nameEspecialización en Machine Learning
person.affiliation.nameEspecialización en Machine Learning
person.affiliation.nameEspecialización en Gerencia de Procesos de Calidad e Innovación - Virtual

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
PeñaDiana2026.pdf
Tamaño:
1.72 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis de Especialización
Cargando...
Miniatura
Nombre:
PeñaDiana2026_Anexo.pdf
Tamaño:
280.27 KB
Formato:
Adobe Portable Document Format
Descripción:
Autorización Publicación

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.92 KB
Formato:
Item-specific license agreed upon to submission
Descripción: