Publicación: Modelo de aprendizaje automático y análisis de factores de abandono de clientes para mejorar su retención en el sector de comercio electrónico
| dc.contributor.advisor | Chacón Rivera, Lina María | |
| dc.contributor.author | Peña Sánchez, Diana Mireya | |
| dc.contributor.author | Camacho Arango, Andrés David | |
| dc.contributor.author | Pabón Peña, Olga Lucia | |
| dc.creator.id | 1020719075 | |
| dc.creator.id | 1024539580 | |
| dc.creator.id | 52931775 | |
| dc.date.accessioned | 2026-03-05T01:18:00Z | |
| dc.date.issued | 2026-02-13 | |
| dc.description.abstract | Este proyecto de investigación busca desarrollar un modelo de aprendizaje automático que permita predecir el abandono de clientes (churn) en el sector de comercio electrónico minorista de moda. Debido a que el abandono no se evidencia de forma explícita ni de manera inmediata en este tipo de comercio, el estudio busca analizar cuáles son las variables que tienen un mayor impacto en el abandono, con el fin de diseñar estrategias que optimicen los recursos de las campañas de retención. La metodología propuesta empleará datos fidedignos provenientes de mencionado sector y luego de anonimizarlos se procederá a emplear tres algoritmos de aprendizaje automático: Regresión Logística, Random Forest y XGBoost, ampliamente utilizados en diversos estudios. Realizada la validación experimental de mencionados algoritmos, el modelo que obtuvo los mejores valores en las métricas de desempeño fue el XGBoost, con una exactitud (Accuracy) del 96 %, un F1-Score de 97 % y un ROC-AUC de 99,33 % demostrando una alta capacidad para pronosticar el abandono; respecto al Random Forest que obtuvo una exactitud del 95 % y finalmente la Regresión Logística con una exactitud del 90 %. La precisión y sensibilidad sobresaliente del XGBoost evidencian su gran robustez brindando un soporte sólido y confiable para la formulación o diseño de estrategias de retención traduciéndolo en optimización de costos y aumento en la rentabilidad. | spa |
| dc.description.abstract | This research project aims to develop a machine learning model capable of predicting customer churn in the retail fashion e-commerce sector. Since churn does not manifest explicitly or immediately in this type of business, the study seeks to analyze which variables have the greatest impact on customer attrition, with the purpose of designing strategies that optimize retention campaign resources. The proposed methodology will employ reliable data from the mentioned sector, which will be anonymized before applying three machine learning algorithms: Logistic Regression, Random Forest, and XGBoost, all widely used in previous studies. After conducting experimental validation of these algorithms, the model that achieved the best performance metrics was XGBoost, with an accuracy of 96%, an F1-score of 97%, and a ROC-AUC of 99.33%, demonstrating a high capacity to forecast churn. In comparison, Random Forest achieved 95% accuracy, and Logistic Regression reached 90%. The outstanding precision and recall of XGBoost highlight its robustness, providing solid and reliable support for the formulation of retention strategies, ultimately leading to cost optimization and increased profitability. | eng |
| dc.description.degreelevel | Especialización | spa |
| dc.description.degreename | Especialista en Machine Learning | spa |
| dc.description.tableofcontents | Tabla de Contenido Resumen 5 Palabras Clave 5 Planteamiento del Problema 5 Antecedentes del Problema 6 Descripción del Problema 7 Pregunta de Investigación 9 Objetivos 9 Objetivo General 9 Objetivos Específicos 9 Marco Teórico 10 Estado del Arte 10 Análisis Comparativo de Modelos de Agrupación para Predicción de Pérdida de Clientes 10 Evaluación Integral de los Modelos de Aprendizaje Automático y Aprendizaje Profundo para la Predicción de la Rotación de Clientes 11 Comparación de Métodos para Manejar Datos Desbalanceados en la Predicción de CHURN con Selección de Características Utilizando los Frameworks SHAP y mRMR 12 Calidad e Innovación en la analítica predictiva 13 Marco Conceptual 13 Fundamentos del Fenómeno de Estudio 13 Conceptualización y Tipología del Abandono (churn) en Ecommerce. 13 Impacto Económico: Relación CLV (Customer Lifetime Value) vs Costos de Adquisición (CAC). 14 Contexto Específico del Comercio Electrónico de Retail de Moda: Dinámicas del Sector. 15 Bases de la Ciencia de Datos y Analítica Predictiva 15 Evolución de la Analítica. 18 Aprendizaje Automático Supervisado para Clasificación Binaria: Fundamentos y Aplicación al Problema de Churn. 18 Algoritmos y Técnicas de Modelado Predictivo 20 Modelos Clásicos y de Ensamble: Regresión Logística, Árboles de Decisión, Random Forest, XGBoost. 20 Deep Learning: Redes Neuronales 21 Optimización de Hiperparámetros. 22 Preparación y Transformación de Datos (Feature Engineering) 23 Calidad, Tratamiento y Normalización de Datos. 23 Transformación de Datos (Feature Engineering). 24 Manejo de Big Data en Entornos Distribuidos 24 Evaluación y Validación de Modelos 25 Métricas para Problemas Desbalanceados. 25 Técnicas de Validación: Hold-out, Cross-Validation. 25 Desbalance de Clases y Rentabilidad. 26 Interpretabilidad Y Acción Estratégica (XAI) 26 Inteligencia Artificial Explicable (XAI). 26 Técnicas de Interpretación: SHAP – LIME. 27 Vinculación con Segmentación Proactiva de Clientes en Riesgo. 27 Marco Conceptual y Operativo 28 Contexto del Ecommerce en Latinoamérica. 28 Definiciones Operativas Clave. 29 De la Predicción a la Retención: Estrategias Basadas en Datos 31 Marco Normativo y Consideraciones Éticas 32 Protección de Datos Personales y Habeas Data. 32 Tratamiento de Datos y Anonimización. 32 Gestión de Variables Geoespaciales. 32 Propiedad Industrial y Secretos Empresariales. 33 Confidencialidad de la Fuente. 33 Ética en Inteligencia Artificial (Explicabilidad). 33 Metodología 33 Enfoque 33 Diseño 34 Alcance 34 Descripción y Selección de Variables 35 Selección de Métodos o Instrumentos para Recolección de Información 39 Técnicas para Análisis de Datos 40 Entrenamiento de Modelos 44 Modelo de Regresión Logística 44 Modelo de Random Forest 45 Modelo de XGBoost 46 Análisis de Resultados 48 Recomendaciones Estratégicas 55 Conclusiones 57 Referencias 58 | |
| dc.format | ||
| dc.format.extent | 60 páginas, 1 anexo | |
| dc.format.medium | Recurso electrónico | spa |
| dc.format.mimetype | application/pdf | |
| dc.identifier.instname | instname:Universidad Ean | spa |
| dc.identifier.local | BDM-PML | |
| dc.identifier.reponame | reponame:Repositorio Institucional Biblioteca Digital Minerva | spa |
| dc.identifier.repourl | repourl:https://repository.ean.edu.co/ | |
| dc.identifier.uri | https://hdl.handle.net/10882/19075 | |
| dc.language.iso | spa | |
| dc.publisher.faculty | Facultad de Ingeniería | spa |
| dc.publisher.place | Bogotá, Colombia | |
| dc.publisher.program | Especialización en Machine Learning | spa |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
| dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
| dc.rights.license | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
| dc.rights.local | Abierto (Texto Completo) | spa |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject.armarc | Aprendizaje automático (Inteligencia artificial) | spa |
| dc.subject.armarc | Mercadeo | spa |
| dc.subject.armarc | Comercio electrónico | spa |
| dc.subject.lemb | Satisfacción del consumidor | spa |
| dc.subject.lemb | Lealtad del consumidor | spa |
| dc.subject.lemb | Preferencias de los consumidores | spa |
| dc.subject.proposal | Predicción de churn | spa |
| dc.subject.proposal | Churn prediction | eng |
| dc.subject.proposal | Machine learning | eng |
| dc.subject.proposal | Ingeniería de características | spa |
| dc.subject.proposal | Feature engineering | eng |
| dc.subject.proposal | IA explicable | spa |
| dc.subject.proposal | Explainable AI (XAI) | eng |
| dc.subject.proposal | Estrategias de retención | spa |
| dc.subject.proposal | Retention strategies | eng |
| dc.title | Modelo de aprendizaje automático y análisis de factores de abandono de clientes para mejorar su retención en el sector de comercio electrónico | spa |
| dc.title | Machine learning model and customer churn factor analysis to improve retention in the e-commerce sector | eng |
| dc.type | Trabajo de grado - Especialización | |
| dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
| dc.type.coarversion | http://purl.org/coar/version/c_ab4af688f83e57aa | |
| dc.type.content | Text | |
| dc.type.driver | info:eu-repo/semantics/bachelorThesis | |
| dc.type.other | Trabajo de grado - Especialización | |
| dc.type.redcol | http://purl.org/redcol/resource_type/TP | |
| dc.type.version | info:eu-repo/semantics/acceptedVersion | |
| dspace.entity.type | Publication | |
| person.affiliation.name | Especialización en Machine Learning | |
| person.affiliation.name | Especialización en Machine Learning | |
| person.affiliation.name | Especialización en Gerencia de Procesos de Calidad e Innovación - Virtual |
Archivos
Bloque original
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 1.92 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción:
