Publicación: Análisis de discurso en medios de comunicación digitales sobre corrupción en salud en Colombia (2022-2023), mediante técnicas de procesamiento de lenguaje natural (PLN)
Portada
Citas bibliográficas
Código QR
Autores
Director
Fecha
Resumen en español
La presente investigación analiza el discurso mediático digital sobre la corrupción en el sector salud en Colombia durante el periodo 2022–2023 mediante técnicas de Procesamiento de Lenguaje Natural (PLN). Para ello, se construyó un corpus de 518 noticias provenientes de seis medios digitales, seleccionados bajo criterios de relevancia investigativa y viabilidad técnica. El estudio se desarrolló bajo el marco CRISP-DM, integrando modelado temático, análisis de sentimiento, reconocimiento de entidades y operacionalización de marcos narrativos. El modelado temático se implementó mediante Latent Dirichlet Allocation (LDA), complementado con enfoques alternativos para evaluar la estabilidad y consistencia de la estructura temática. Asimismo, el análisis de sentimiento se realizó mediante un modelo contextual basado en transformers, validado a través de recursos léxicos de referencia. Los resultados evidencian la existencia de estructuras temáticas estables, patrones diferenciados de negatividad discursiva entre medios y configuraciones narrativas consistentes en la representación de la corrupción en salud. En conjunto, los hallazgos muestran que el discurso mediático presenta regularidades sistemáticas en la construcción de actores, responsabilidades y marcos interpretativos. La investigación demuestra la viabilidad de un enfoque computacional triangulado para el análisis del discurso público a gran escala y aporta evidencia empírica sobre la construcción mediática de la corrupción en el sector salud de Colombia.
Resumen en inglés
This study analyzes digital media discourse on corruption in Colombia’s healthcare sector during 2022–2023 using Natural Language Processing (NLP) techniques. To this end, a corpus of 518 news articles was compiled from six digital media outlets, selected based on criteria of research relevance and technical feasibility. The study was conducted within the CRISP-DM framework, integrating topic modeling, sentiment analysis, named entity recognition, and the operationalization of narrative frames. Topic modeling was implemented using Latent Dirichlet Allocation (LDA), supplemented with alternative approaches to assess the stability and consistency of the thematic structure. Likewise, sentiment analysis was performed using a contextual transformer-based model, validated through reference lexical resources. The results demonstrate the existence of stable thematic structures, distinct patterns of discursive negativity across media outlets, and consistent narrative configurations in the representation of corruption in the healthcare sector. Taken together, the findings show that media discourse exhibits systematic regularities in the construction of actors, responsibilities, and interpretive frames. This research demonstrates the feasibility of a triangulated computational approach for large-scale public discourse analysis and provides empirical evidence on the media construction of corruption in Colombia’s healthcare sector.

PDF
FLIP 
