Publicación: Aplicación de machine learning en el análisis de supervivencia de empresas de la cadena alimentaria en el Huila: factores de éxito y predicciones de longevidad empresarial
Director
Fecha
Resumen en español
Esta investigación desarrolla un modelo predictivo fundamentado en técnicas avanzadas de machine learning para identificar los factores determinantes del éxito y la longevidad de las empresas en la cadena alimentaria del departamento del Huila, sector estratégico para la economía regional que contribuye significativamente al producto interno bruto y la generación de empleo. La metodología implementada sigue un enfoque mixto con diseño exploratorio-descriptivo y transversal. Este enfoque se estructuró en seis fases metodológicas interrelacionadas: vigilancia científico-tecnológica en bases de datos especializadas para fundamentar el marco teórico-conceptual; identificación y validación de variables críticas mediante análisis multidimensional contemplando indicadores económicos, operativos y estratégicos; diseño y validación de instrumentos de medición fundamentados en modelos predictivos y arquitecturas de machine learning; recolección sistemática de datos a través del análisis de información proporcionada por la Cámara de Comercio del Huila, integrando 12 variables empresariales estratégicas (actividad CIIU, métricas financieras, indicadores operacionales y variables contextuales); implementación de técnicas de machine learning, incluyendo selección de variables mediante información mutua, normalización de variables financieras, y algoritmos de clasificación como Random Forest y XGBoost optimizados mediante Grid Search, enfocadas en la predicción binaria de supervivencia empresarial, para la construcción del modelo predictivo y validación mediante métricas de precisión, optimización de hiperparámetros con validaciones internas. Esta investigación contribuye significativamente al campo de la gestión empresarial al desarrollar un modelo predictivo replicable basado en machine learning para el análisis de la longevidad empresarial en contextos regionales específicos, estableciendo las bases para la toma de decisiones estratégicas. Los resultados demuestran una mejora significativa en la precisión de los pronósticos de supervivencia empresarial, identificando factores clave que impactan directamente en la sostenibilidad de las pymes del sector. Considerando el comportamiento diferencial de clases en el conjunto de datos, el modelo optimizado de Random Forest alcanzó un 76,5 % de precisión, con un recall del 55 % en la detección de empresas en riesgo mientras que XGBoost logró una precisión del 76,9 %, con un recall del 60 % en la misma categoría. El análisis de la curva Receiver Operating Characteristic evidenció un desempeño óptimo en la discriminación de clases, con un área bajo la curva de 0.82 en Random Forest y 0.85 en XGBoost, consolidando la capacidad predictiva del modelo. El modelo fue desarrollado y validado a nivel académico utilizando información proporcionada por la Cámara de Comercio del Huila, sentando bases para futuras aplicaciones prácticas en el sector empresarial regional. Se evidencia que la integración de tecnologías emergentes en la planificación estratégica empresarial, particularmente el uso de machine learning, fortalece significativamente la capacidad de las empresas para anticipar riesgos y oportunidades, contribuyendo así a un crecimiento más sostenible y resiliente en la región. Entre las variables con mayor influencia en la supervivencia empresarial se destacan el tamaño de la empresa, la actividad económica y la ubicación geográfica, hallazgos que permiten orientar estrategias de fortalecimiento empresarial y alertas tempranas para la toma de decisiones por parte de empresarios e instituciones.
Resumen en inglés
This research develops a predictive model based on advanced machine learning techniques to identify the determining factors of success and longevity of companies in the food chain in the department of Huila, a strategic sector for the regional economy that significantly contributes to the gross domestic product and job creation. The implemented methodology follows a mixed approach with an exploratory-descriptive and cross-sectional design. This approach was structured in six interrelated methodological phases: scientific and technological surveillance in specialized databases to support the theoretical and conceptual framework; identification and validation of critical variables through multidimensional analysis considering economic, operational, and strategic indicators; design and validation of measurement instruments based on predictive models and machine learning architectures; systematic data collection through the analysis of information provided by the Huila Chamber of Commerce, integrating 12 strategic business variables (CIIU activity, financial metrics, operational indicators, and contextual variables); implementation of machine learning techniques, including variable selection through mutual information, normalization of financial variables, and classification algorithms such as Random Forest and XGBoost optimized through Grid Search, focused on the binary prediction of business survival, for the construction of the predictive model and validation through accuracy metrics, hyperparameter optimization with internal validations. This research contributes significantly to the field of business management by developing a replicable predictive model based on machine learning for the analysis of business longevity in specific regional contexts, laying the groundwork for strategic decision-making. The results demonstrate a significant improvement in the accuracy of business survival forecasts, identifying key factors that directly impact the sustainability of SMEs in the sector. Considering the differential behavior of classes in the dataset, the optimized Random Forest model achieved 76.5% accuracy, with a 55% recall in the detection of companies at risk, while XGBoost achieved 76.9% accuracy, with a 60% recall in the same category. The Receiver Operating Characteristic curve analysis showed optimal performance in class discrimination, with an area under the curve of 0.82 in Random Forest and 0.85 in XGBoost, consolidating the model's predictive capacity. The model was developed and validated at an academic level using information provided by the Huila Chamber of Commerce, laying the groundwork for future practical applications in the regional business sector. It is evident that the integration of emerging technologies in business strategic planning, particularly the use of machine learning, significantly strengthens companies' ability to anticipate risks and opportunities, thus contributing to more sustainable and resilient growth in the region. Among the variables with the greatest influence on business survival are company size, economic activity, and geographic location, findings that allow guiding business strengthening strategies and early warnings for decision-making by entrepreneurs and institutions.