Análisis de discurso en medios de comunicación digitales sobre corrupción en salud en Colombia (2022-2023), mediante técnicas de procesamiento de lenguaje natural (PLN)

Larrota Villalba, Michel Stivens

Publicación:
Análisis de discurso en medios de comunicación digitales sobre corrupción en salud en Colombia (2022-2023), mediante técnicas de procesamiento de lenguaje natural (PLN)

Portada

4.1 MB

Tesis de Maestría

PDF

FLIP

257.67 KB

Autotización Publicación

PDF

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

URI

https://hdl.handle.net/10882/19289

Autores

Larrota Villalba, Michel Stivens

Director

Mendoza Rodríguez, Estefanía

Fecha

2026-05-27

Resumen en español

La presente investigación analiza el discurso mediático digital sobre la corrupción en el sector salud en Colombia durante el periodo 2022–2023 mediante técnicas de Procesamiento de Lenguaje Natural (PLN). Para ello, se construyó un corpus de 518 noticias provenientes de seis medios digitales, seleccionados bajo criterios de relevancia investigativa y viabilidad técnica. El estudio se desarrolló bajo el marco CRISP-DM, integrando modelado temático, análisis de sentimiento, reconocimiento de entidades y operacionalización de marcos narrativos. El modelado temático se implementó mediante Latent Dirichlet Allocation (LDA), complementado con enfoques alternativos para evaluar la estabilidad y consistencia de la estructura temática. Asimismo, el análisis de sentimiento se realizó mediante un modelo contextual basado en transformers, validado a través de recursos léxicos de referencia. Los resultados evidencian la existencia de estructuras temáticas estables, patrones diferenciados de negatividad discursiva entre medios y configuraciones narrativas consistentes en la representación de la corrupción en salud. En conjunto, los hallazgos muestran que el discurso mediático presenta regularidades sistemáticas en la construcción de actores, responsabilidades y marcos interpretativos. La investigación demuestra la viabilidad de un enfoque computacional triangulado para el análisis del discurso público a gran escala y aporta evidencia empírica sobre la construcción mediática de la corrupción en el sector salud de Colombia.

Resumen en inglés

This study analyzes digital media discourse on corruption in Colombia’s healthcare sector during 2022–2023 using Natural Language Processing (NLP) techniques. To this end, a corpus of 518 news articles was compiled from six digital media outlets, selected based on criteria of research relevance and technical feasibility. The study was conducted within the CRISP-DM framework, integrating topic modeling, sentiment analysis, named entity recognition, and the operationalization of narrative frames. Topic modeling was implemented using Latent Dirichlet Allocation (LDA), supplemented with alternative approaches to assess the stability and consistency of the thematic structure. Likewise, sentiment analysis was performed using a contextual transformer-based model, validated through reference lexical resources. The results demonstrate the existence of stable thematic structures, distinct patterns of discursive negativity across media outlets, and consistent narrative configurations in the representation of corruption in the healthcare sector. Taken together, the findings show that media discourse exhibits systematic regularities in the construction of actors, responsibilities, and interpretive frames. This research demonstrates the feasibility of a triangulated computational approach for large-scale public discourse analysis and provides empirical evidence on the media construction of corruption in Colombia’s healthcare sector.

Colecciones

Maestría en Ciencia de Datos

Página completa del ítem Ver Estadísticas de uso

Publicación:
Análisis de discurso en medios de comunicación digitales sobre corrupción en salud en Colombia (2022-2023), mediante técnicas de procesamiento de lenguaje natural (PLN)

Portada

Tesis de Maestría

Autotización Publicación

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

URI

Autores

Director

Fecha

Resumen en español

Resumen en inglés

Jurado

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor

Tipo de Material

Palabras clave

Citación

Título de serie/ reporte/ volumen/ colección

Es Parte de

Descripción

Notas

URL del Recurso

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación: Análisis de discurso en medios de comunicación digitales sobre corrupción en salud en Colombia (2022-2023), mediante técnicas de procesamiento de lenguaje natural (PLN)

Portada

Tesis de Maestría

Autotización Publicación

Citas bibliográficas

Gestores Bibliográficos

Indexadores

Código QR

URI

Autores

Director

Fecha

Resumen en español

Resumen en inglés

Jurado

Autor corporativo

Recolector de datos

Otros/Desconocido

Director audiovisual

Editor

Tipo de Material

Palabras clave

Citación

Título de serie/ reporte/ volumen/ colección

Es Parte de

Descripción

Notas

URL del Recurso

Identificador ISBN

Identificador ISSN

Página de inicio

Es Parte del Libro

Colecciones

Publicación:
Análisis de discurso en medios de comunicación digitales sobre corrupción en salud en Colombia (2022-2023), mediante técnicas de procesamiento de lenguaje natural (PLN)