Análisis de discurso en medios de comunicación digitales sobre corrupción en salud en Colombia (2022-2023), mediante técnicas de procesamiento de lenguaje natural (PLN)

Larrota Villalba, Michel Stivens

Publicación:
Análisis de discurso en medios de comunicación digitales sobre corrupción en salud en Colombia (2022-2023), mediante técnicas de procesamiento de lenguaje natural (PLN)

dc.contributor.advisor	Mendoza Rodríguez, Estefanía
dc.contributor.author	Larrota Villalba, Michel Stivens
dc.contributor.jury	Luque Zabala, Carolina Maria
dc.contributor.jury	Fuentes Montoya Jose Alexander
dc.creator.id	80811287
dc.date.accessioned	2026-06-05T02:24:18Z
dc.date.issued	2026-05-27
dc.description.abstract	La presente investigación analiza el discurso mediático digital sobre la corrupción en el sector salud en Colombia durante el periodo 2022–2023 mediante técnicas de Procesamiento de Lenguaje Natural (PLN). Para ello, se construyó un corpus de 518 noticias provenientes de seis medios digitales, seleccionados bajo criterios de relevancia investigativa y viabilidad técnica. El estudio se desarrolló bajo el marco CRISP-DM, integrando modelado temático, análisis de sentimiento, reconocimiento de entidades y operacionalización de marcos narrativos. El modelado temático se implementó mediante Latent Dirichlet Allocation (LDA), complementado con enfoques alternativos para evaluar la estabilidad y consistencia de la estructura temática. Asimismo, el análisis de sentimiento se realizó mediante un modelo contextual basado en transformers, validado a través de recursos léxicos de referencia. Los resultados evidencian la existencia de estructuras temáticas estables, patrones diferenciados de negatividad discursiva entre medios y configuraciones narrativas consistentes en la representación de la corrupción en salud. En conjunto, los hallazgos muestran que el discurso mediático presenta regularidades sistemáticas en la construcción de actores, responsabilidades y marcos interpretativos. La investigación demuestra la viabilidad de un enfoque computacional triangulado para el análisis del discurso público a gran escala y aporta evidencia empírica sobre la construcción mediática de la corrupción en el sector salud de Colombia.	spa
dc.description.abstract	This study analyzes digital media discourse on corruption in Colombia’s healthcare sector during 2022–2023 using Natural Language Processing (NLP) techniques. To this end, a corpus of 518 news articles was compiled from six digital media outlets, selected based on criteria of research relevance and technical feasibility. The study was conducted within the CRISP-DM framework, integrating topic modeling, sentiment analysis, named entity recognition, and the operationalization of narrative frames. Topic modeling was implemented using Latent Dirichlet Allocation (LDA), supplemented with alternative approaches to assess the stability and consistency of the thematic structure. Likewise, sentiment analysis was performed using a contextual transformer-based model, validated through reference lexical resources. The results demonstrate the existence of stable thematic structures, distinct patterns of discursive negativity across media outlets, and consistent narrative configurations in the representation of corruption in the healthcare sector. Taken together, the findings show that media discourse exhibits systematic regularities in the construction of actors, responsibilities, and interpretive frames. This research demonstrates the feasibility of a triangulated computational approach for large-scale public discourse analysis and provides empirical evidence on the media construction of corruption in Colombia’s healthcare sector.	eng
dc.description.degreelevel	Maestría	spa
dc.description.degreename	Magíster en Ciencias de Datos	spa
dc.description.tableofcontents	1. Introducción 19 2. Objetivos 21 2.1. Objetivo general 21 2.2. Objetivos específicos 21 3. Justificación 22 4. Marco Teórico 24 4.1. Propósito del marco teórico 24 4.2. Corrupción en salud en Colombia 26 4.2.1. Definiciones y tipologías 26 4.2.2. Relevancia pública 2022–2023 27 4.2.3. Corrupción, salud y confianza institucional 27 4.3. Medios digitales y opinión pública 28 4.4. Teoría del discurso y framing 29 4.4.1. Tipología de marcos narrativos 31 4.5. Procesamiento de Lenguaje Natural (PLN) para análisis de discurso 32 4.6. Preparación del corpus y criterios de depuración 34 4.7. Modelado temático y comparación 35 4.8. Sentimiento, polaridad y tono 39 4.9. Métricas y validación 40 4.10. Operacionalización y trazabilidad 42 4.11. Vacíos, riesgos y sesgos 46 4.12. Síntesis integradora 47 5. Hipótesis 51 5.1. Hipótesis Nula (H₀) 51 5.2. Hipótesis Alternativa (H₁) 51 6. Variables 53 6.1. Discurso sobre corrupción en salud 53 6.2. Tipo de medio digital de noticias 54 6.3. Tono del discurso 54 6.4. Tópicos discursivos sobre corrupción en salud 55 6.5. Frecuencia de términos clave 56 6.6. Temporalidad de publicación 56 6.7. Entidad mencionada en la noticia 57 7. Metodología 59 7.1. Enfoque de investigación 60 7.2. Diseño de investigación 61 7.3. Alcance de la investigación 62 7.4. Tipo de investigación 63 7.5. Fases del estudio 64 7.6. Muestra 67 7.6.1. Criterios de exclusión de medios digitales 68 7.6.2. Reglas de selección de medios digitales 70 7.6.3. Definición del universo potencial de medios digitales 73 7.6.4. Fuente de información y variables de selección 74 7.6.5. Alcance general de la muestra 75 7.6.6. Variables y pesos 76 7.6.7. Tamaño final de la muestra 81 7.7. Instrumento de medición y procesamiento 84 7.7.1. Subsistema de Recolección de Datos 84 7.7.2. Pipeline de filtrado temático estricto 85 7.7.3. Subsistema de Análisis y Procesamiento (PLN) 86 7.7.4. Validación del componente de modelado temático del sistema computacional de análisis discursivo 89 7.7.5. Ética y legalidad en la recolección y análisis 92 7.7.6. Métricas de recolección, control y calidad del corpus bruto 94 8. Trabajo de Campo 98 8.1. Fases metodológicas 98 8.2. Selección y depuración de fuentes de información 99 8.2.1. Conformación del Corpus Operativo 101 8.2.2. Exclusiones técnicas y limitaciones de acceso 103 8.2.3. Estrategia de mitigación y representatividad 104 8.3. Análisis descriptivo del corpus 105 8.3.1. Distribución temporal y evolución del volumen informativo 106 8.3.2. Distribución editorial y dinámicas de publicación 108 8.3.3. Caracterización del contenido: Longitud y Profundidad 110 8.3.4. Distribución geográfica del enfoque informativo 113 8.3.5. Consideraciones finales sobre la muestra 114 8.4. Configuración y validación de los modelos temáticos 114 8.4.1. Diseño experimental y parámetros de modelado 115 8.4.2. Optimización del modelo LDA 116 8.4.3. Diagnóstico de ajuste: underfitting y overfitting 119 8.4.4. Validación de estabilidad y robustez del modelo LDA 120 8.5. Triangulación con modelos alternativos no supervisados 122 8.5.1. Resultados del modelo HDP 122 8.5.2. Resultados del modelo BERTopic 123 8.5.3. Comparación cuantitativa entre modelos 123 8.5.4. Consistencia intermodelo y alineación temática 124 8.5.5. Selección final del modelo temático de referencia 125 8.6. Estructura temática del discurso mediático (modelo seleccionado) 125 8.6.1. Distribución global de los ejes temáticos 126 8.6.2. Interpretación semántica de los tópicos 126 8.6.3. Composición léxica y separación inter-tópica 127 8.6.4. Variación temática por medio digital 128 8.6.5. Evolución temporal de la agenda temática 129 8.7. Análisis de sentimiento y polarización discursiva 130 8.7.1. Enfoque metodológico multifuente 130 8.7.2. Validación y confiabilidad del análisis de sentimiento 131 8.7.3. Consistencia entre métodos de medición emocional 132 8.7.4. Polarización negativa por tópico y medio 135 8.7.5. Evolución temporal del tono emocional 137 8.7.6. Resultados formales de la validación estadística no paramétrica 138 8.8. Marcos narrativos y atribución de responsabilidad 141 8.8.1. Identificación de frames dominantes 141 8.8.2. Distribución de marcos por medio 143 8.8.3. Evolución temporal de los marcos 144 8.8.4. Atribución discursiva de responsabilidad 145 8.9. Síntesis integradora de resultados 149 8.10. Propuesta de solución a la problemática 150 8.10.1. Situación actual 151 8.10.2. Oportunidades 151 8.10.3. Propuesta de solución al problema planteado 152 9. Discusión 157 10. Conclusiones y Trabajo Futuro 160 10.1. Conclusiones 160 10.2. Trabajo futuro 162 10.3. Declaración de uso de herramientas de inteligencia artificial 163 11. Referencias 164 12. A. Anexo. Análisis Bibliométrico 172 12.1. Producción científica en análisis del discurso (2016–2026) 172 12.2. Producción científica discurso en medios digitales y corrupción (2016–2026) 179 12.3. Ampliación exploratoria regional en SciELO 186 12.4. Alcance analítico y aporte del ejercicio bibliométrico 189 13. B. Anexo. Recursos tecnológicos empleados 191	spa
dc.format	pdf
dc.format.extent	191 páginas
dc.format.medium	Recurso electrónico	spa
dc.format.mimetype	application/pdf
dc.identifier.instname	instname:Universidad Ean	spa
dc.identifier.local	BDM-MGP
dc.identifier.reponame	reponame:Repositorio Institucional Biblioteca Digital Minerva	spa
dc.identifier.repourl	repourl:https://repository.ean.edu.co/
dc.identifier.uri	https://hdl.handle.net/10882/19289
dc.language.iso	spa
dc.publisher.faculty	Facultad de Ingeniería	spa
dc.publisher.program	Maestría en Ciencias de Datos	spa
dc.relation.references	Adam, I., & Fazekas, M. (2021). Are emerging technologies helping win the fight against corruption? A review of the state of evidence. Information Economics and Policy, 57, 100950. https://doi.org/10.1016/j.infoecopol.2021.100950 Adcock, R., & Collier, D. (2016). Measurement Validity: A Shared Standard for Qualitative and Quantitative Research. Oxford University Press. https://doi.org/10.1093/acprof:oso/9780199384426.003.0002 Arroyave, J., & Barrios, M. (2023). Narrativas mediáticas sobre la corrupción política en Colombia: análisis de prensa digital 2018–2022. Palabra Clave, 26(2), 1-24. https://doi.org/10.5294/pacla.2023.26.2.4 Asociación Colombiana de Medios de Información. (2023). Portal oficial. https://www.ami.org.co/ Association of Internet Researchers. (2019). Internet Research: Ethical Guidelines 3.0. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT), 610-623. https://doi.org/10.1145/3442188.3445922 Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84. https://doi.org/10.1145/2133806.2133826 Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993-1022. https://jmlr.org/papers/v3/blei03a.html Blodgett, S. L., Barocas, S., Daumé III, H., & Wallach, H. (2020). Language (Technology) is Power: A Critical Survey of “Bias” in NLP. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 5454-5476. https://doi.org/10.18653/v1/2020.acl-main.485 Bouma, G. (2009). Normalized (Pointwise) Mutual Information in Collocation Extraction. Proceedings of the Biennial GSCL Conference 2009: From Form to Meaning: Processing Texts Automatically, 31-40. Boumans, J. W., & Trilling, D. (2016). Taking Stock of the Toolkit: An Overview of Relevant Automated Content Analysis Approaches and Techniques for Digital Journalism Scholars. Digital Journalism, 4(1), 8-23. https://doi.org/10.1080/21670811.2015.1096598 Boydstun, A. E., & Shafer, H. F. (2017). The Real-World Consequences of Framing. En K. Kenski & K. H. Jamieson (Eds.), The Oxford Handbook of Political Communication. Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199793471.013.46 Camacho-Collados, J., & Pilehvar, M. T. (2018). From Word to Sense Embeddings: A Survey on Vector Representations of Meaning. Journal of Artificial Intelligence Research, 63(1), 743-788. https://doi.org/10.1613/jair.1.11259 Castells, M. (2009). Communication Power. Oxford University Press. Contraloría General de la República. (2023). Informe especial de control fiscal al sector salud 2020-2023. https://www.contraloria.gov.co/documents/20181/0/Informe+Especial+Sector+Salud+2020-2023.pdf Couldry, N., & Hepp, A. (2017). The Mediated Construction of Reality. Polity Press. https://www.politybooks.com/bookdetail/?isbn=9780745681306 Creswell, J. W. (2014). Research Design: Qualitative, Quantitative, and Mixed Methods Approaches (4.a ed.). SAGE Publications. de Vreese, C. H. (2019). News framing: Theory and typology. Information, Communication & Society, 22(6), 915-932. https://doi.org/10.1080/1369118X.2019.1576862 Departamento Administrativo Nacional de Estadística - DANE. (2023). Proyecciones de población 2018–2042 por área y municipio (Archivo PPED-AreaMun-2018-2042_VP.xlsx). https://microdatos.dane.gov.co/index.php/catalog/792 Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 4171-4186. https://doi.org/10.48550/arXiv.1810.04805 Dieng, A. B., Ruiz, F. J. R., & Blei, D. M. (2020). Topic Modeling in Embedding Spaces. Proceedings of the 37th International Conference on Machine Learning (ICML 2020), 2788-2797. http://proceedings.mlr.press/v119/dieng20a.html Eisenstein, J. (2019). Introduction to Natural Language Processing. MIT Press. El Espectador. (2023a). Corrupción en el sistema de salud: entre sobrecostos y opacidad institucional. https://www.elespectador.com/salud/corrupcion-en-el-sistema-de-salud-entre-sobrecostos-y-opacidad-institucional/ El Espectador. (2023b). Los escándalos de corrupción que marcaron el gobierno Duque y el inicio del gobierno Petro. https://www.elespectador.com/politica/los-avances-de-duque-y-el-reto-para-petro-en-la-lucha-contra-la-corrupcion/ Entman, R. M. (1993). Framing: Toward clarification of a fractured paradigm. Journal of Communication, 43(4), 51-58. https://doi.org/10.1111/j.1460-2466.1993.tb01304.x Fairclough, N. (2013). Critical Discourse Analysis: The Critical Study of Language (2.a ed.). Routledge. https://www.routledge.com/Critical-Discourse-Analysis-The-Critical-Study-of-Language/Fairclough/p/book/9781405858229 Fan, R., Tan, C., Lim, E.-P., & Ong, D. (2022). Modeling emotion dynamics in social media discourse: Sentiment and polarization in online news. Information Processing & Management, 59(4), 102972. https://doi.org/10.1016/j.ipm.2022.102972 Gaitán, L. F., Restrepo, J., & Guzmán, C. (2020). Corrupción, confianza y legitimidad institucional en América Latina: evidencias comparadas y reflexiones para Colombia. Revista de Economía Institucional, 22(43), 71-98. https://doi.org/10.18601/01245996.v22n43.05 Goffman, E. (1974). Frame Analysis: An Essay on the Organization of Experience. Harvard University Press. Greussing, E., & Boomgaarden, H. G. (2016). Framing the Crisis: The Role of Media Framing in the EU Crisis and Its Effects on Public Opinion. Journal of European Public Policy, 24(1), 105-126. https://doi.org/10.1080/13501763.2016.1164745 Grimmer, J., & Stewart, B. M. (2013). Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis, 21(3), 267-297. https://doi.org/10.1093/pan/mps028 Grootendorst, M. (2022). BERTopic: Neural Topic Modeling with a Class-based TF-IDF Procedure. https://arxiv.org/abs/2203.05794 Guerrero, R., Gallego, R., & Rodríguez, D. (2019). La corrupción en salud en Colombia: ¿Qué sabemos y qué falta por saber? Revista Gerencia y Políticas de Salud, 18(36), 1-14. https://doi.org/10.11144/Javeriana.rgyps18.cscs Hernández-Sampieri, R., Fernández-Collado, C., & Baptista-Lucio, P. (2018). Metodología de la investigación (6.a ed.). McGraw-Hill. Hubert, L., & Arabie, P. (1985). Comparing Partitions. Journal of Classification, 2(1), 193-218. https://doi.org/10.1007/BF01908075 Jacobs, T., & Tschötschel, R. (2019). Topic models meet discourse analysis: A quantitative tool for a qualitative approach. International Journal of Social Research Methodology, 22(5), 469-485. https://doi.org/10.1080/13645579.2018.1484990 Jain, S., Mishra, D., Gupta, R., & Alvi, M. (2022). Mining Textual Data for Public Health and Corruption Analysis: A Case Study of India. Information Systems Frontiers, 1-19. https://doi.org/10.1007/s10796-022-10289-4 La República. (2023). Denuncias y procesos por corrupción en la red hospitalaria colombiana. La República. https://www.larepublica.co/economia/denuncias-y-procesos-por-corrupcion-en-la-red-hospitalaria-colombiana-3660218 Lau, J. H., Newman, D., & Baldwin, T. (2014). Machine Reading Tea Leaves: Automatically Evaluating Topic Coherence and Topic Model Quality. Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2014), 530-539. https://doi.org/10.3115/v1/E14-1056 Li, Y., Adams, J., Niezen, G., Tang, J., & Johnson, H. (2020). Detection of self-reported experiences with corruption on Twitter using unsupervised machine learning. Social Sciences & Humanities Open, 2(1), 100060. https://doi.org/10.1016/j.ssaho.2020.100060 Lindgren, S. (2022). Data-driven discourse analysis: Using NLP for the study of media and political communication. Social Media + Society, 8(2), 1-13. https://doi.org/10.1177/20563051221089545 Liu, B. (2020). Sentiment Analysis: Mining Opinions, Sentiments, and Emotions (2.a ed.). Cambridge University Press. https://doi.org/10.1017/9781108639419 López-Londoño, C., & Molinares, J. (2021). Cobertura digital de la corrupción en Colombia: encuadres, actores y discursos. Revista de Comunicación y Ciudadanía Digital, 8(2), 55-79. https://doi.org/10.26441/RC8.2-2021 McCombs, M. E., & Shaw, D. L. (1972). The Agenda-Setting Function of Mass Media. Public Opinion Quarterly, 36(2), 176-187. https://doi.org/10.1086/267990 Medhat, W., Hassan, A., & Korashy, H. (2014). Sentiment Analysis Algorithms and Applications: A Survey. Ain Shams Engineering Journal, 5(4), 1093-1113. https://doi.org/10.1016/j.asej.2014.04.011 Ministerio de Salud y Protección Social. (2023). Proyecto de ley de reforma al sistema de salud (texto radicado). https://www.minsalud.gov.co/sites/rid/Lists/BibliotecaDigital/RIDE/DE/proyecto-ley-reforma-salud-msps.pdf Ministerio de Salud y Protección Social de Colombia. (1993). Resolución 8430 de 1993: Por la cual se establecen las normas científicas, técnicas y administrativas para la investigación en salud. https://www.minsalud.gov.co/sites/rid/Lists/BibliotecaDigital/RIDE/DE/DIJ/resolucion-8430-de-1993.pdf Moyano, A., & Salazar, D. (2022). Transformación digital y agenda mediática en Colombia: evolución del ecosistema informativo 2015–2022. Revista Anagramas, 21(40), 45-66. https://doi.org/10.22395/angr.v21n40a3 Neil Patel Digital. (2025). Ubersuggest – Website Traffic Checker. https://neilpatel.com/ubersuggest/ Peng, R. D. (2011). Reproducible Research in Computational Science. Science, 334(6060), 1226-1227. https://doi.org/10.1126/science.1213847 Pérez, C. (2023). Análisis crítico del discurso y framing para una propuesta metodológica. Cuaderno 198 \| Centro de Estudios en Diseño y Comunicación, 198, 53-63. https://doi.org/10.18682/cdc.vi198.9819 Revista P&M. (2023). Ranking de medios. https://www.revistapym.com.co/articulos/etiquetados/ranking-medios Röder, M., Both, A., & Hinneburg, A. (2015). Exploring the Space of Topic Coherence Measures. Proceedings of the Eighth ACM International Conference on Web Search and Data Mining (WSDM 2015), 399-408. https://doi.org/10.1145/2684822.2685324 Rodríguez, N., & García, F. (2021). Análisis crítico del discurso en medios digitales: estrategias discursivas en contextos de polarización política. Revista Comunicación y Medios, 43, 101-118. https://doi.org/10.5354/0719-1529.2021.65210 Rose-Ackerman, S., & Palifka, B. J. (2016). Corruption and Government: Causes, Consequences, and Reform (2.a ed.). Cambridge University Press. Scheufele, D. A. (1999). Framing as a theory of media effects. Journal of Communication, 49(1), 103-122. Shearer, C. (2000). The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data Warehousing, 5(1), 13-22. Stodden, V., Seiler, J., & Ma, Z. (2018). An empirical analysis of journal policy effectiveness for computational reproducibility. Proceedings of the National Academy of Sciences (PNAS), 115(11), 2584-2589. https://doi.org/10.1073/pnas.1708290115 Strehl, A., & Ghosh, J. (2003). Cluster Ensembles — A Knowledge Reuse Framework for Combining Multiple Partitions. Journal of Machine Learning Research, 3, 583-617. https://www.jmlr.org/papers/volume3/strehl03a/strehl03a.pdf Superintendencia Nacional de Salud. (2024). Informe de Rendición de Cuentas 2023–2024. https://docs.supersalud.gov.co/PortalWeb/planeacion/InformesGestion/RC%20-%20Informe%20Rendici%C3%B3n%20de%20cuentas%202023-2024.pdf Tandoc, E. C., Jenkins, J., & Craft, S. (2022). The dark side of news values: How news organizations and journalists prioritize controversy and conflict. Journalism, 23(9), 1910-1928. https://doi.org/10.1177/14648849211062132 Teh, Y. W., Jordan, M. I., Beal, M. J., & Blei, D. M. (2006). Hierarchical Dirichlet Processes. Journal of the American Statistical Association, 101(476), 1566-1581. https://doi.org/10.1198/016214506000000302 Transparencia por Colombia. (2022). Radiografía de la corrupción en salud en Colombia. https://transparenciacolombia.org.co/analisis-radiografia-corrupcion-2016-2022/ Transparency International. (2021). Corruption in the health sector. En Global Corruption Report. Transparency International. van Dijk, T. A. (2015). Critical Discourse Analysis. En D. Tannen, H. E. Hamilton, & D. Schiffrin (Eds.), The Handbook of Discourse Analysis (pp. 466-485). Wiley-Blackwell. https://discourses.org/wp-content/uploads/2022/07/Teun-A.-van-Dijk-2015-Critical-discourse-Analysis.pdf Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems (NeurIPS), 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf Vian, T. (2019). Corruption in the Health Sector. En M. J. Heymann, S. Rushton, & M. Kaldor (Eds.), The Oxford Handbook of Global Health Politics. Oxford University Press. https://doi.org/10.1093/oxfordhb/9780190456818.013.25 Vinh, N. X., Epps, J., & Bailey, J. (2010). Information Theoretic Measures for Clusterings Comparison: Variants, Properties, Normalization and Correction for Chance. Journal of Machine Learning Research, 11, 2837-2854. https://www.jmlr.org/papers/v11/vinh10a.html Wallach, H. M., Mimno, D., & McCallum, A. (2009). Rethinking LDA: Why priors matter. Advances in Neural Information Processing Systems (NeurIPS), 22, 1973-1981. https://proceedings.neurips.cc/paper_files/paper/2009/file/385f1ca0c8e8dd1a7b0a17a7b8fa6f7c-Paper.pdf Yin, H., Sun, Y., Wang, Z., Zhou, Y., & Zhang, C. (2021). Natural language processing for social media data: A review. Information Fusion, 64, 285-303. https://doi.org/10.1016/j.inffus.2020.07.001 Zhang, Y., Wang, H., & Chen, L. (2023). Automated analysis of political corruption discourse using transformer-based language models. Government Information Quarterly, 40(3), 101853. https://doi.org/10.1016/j.giq.2023.101853
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_abf2
dc.rights.license	Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
dc.rights.uri	https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subject.armarc	Análisis del discurso	spa
dc.subject.armarc	Corrupción administrativa -- Análisis	spa
dc.subject.armarc	Procesamiento de lenguaje natural (Computadores)	spa
dc.subject.armarc	Medios de comunicación de masas	spa
dc.subject.lemb	Servicios de salud -- Corrupción	spa
dc.subject.proposal	Corrupción	spa
dc.subject.proposal	Corruption	eng
dc.subject.proposal	Sector salud	spa
dc.subject.proposal	Healthcare sector	eng
dc.subject.proposal	Medios digitales	spa
dc.subject.proposal	Digital media	eng
dc.subject.proposal	Análisis del discurso	spa
dc.subject.proposal	Discourse analysis	eng
dc.subject.proposal	Modelado temático	spa
dc.subject.proposal	Topic modeling	eng
dc.subject.proposal	Procesamiento de lenguaje natural	spa
dc.subject.proposal	Natural language processing	eng
dc.title	Análisis de discurso en medios de comunicación digitales sobre corrupción en salud en Colombia (2022-2023), mediante técnicas de procesamiento de lenguaje natural (PLN)	spa
dc.title	Discourse Analysis of Digital Media Coverage of Corruption in the Healthcare Sector in Colombia (2022–2023), Using Natural Language Processing (NLP) Techniques	eng
dc.type	Trabajo de grado - Maestría
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.coarversion	http://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.content	Text
dc.type.driver	info:eu-repo/semantics/masterThesis
dc.type.other	Trabajo de grado - Maestría
dc.type.redcol	http://purl.org/redcol/resource_type/TM
dc.type.version	info:eu-repo/semantics/acceptedVersion
dspace.entity.type	Publication
person.affiliation.name	Maestría en Ciencias de Datos