Publicación:
Sistema inteligente para la automatización de procesos documentales usando IA, OCR y recuperación semántica de información

dc.contributor.advisorTorres Vanegas, Julián Daniel
dc.contributor.authorCascavita Rodríguez, Camilo Andrés
dc.contributor.authorUseche Niño, Yessica Katherine
dc.creator.id1233690754
dc.creator.id1000836537
dc.date.accessioned2025-08-13T15:19:07Z
dc.date.issued2025-07-03
dc.description.abstractEste proyecto tiene como objetivo desarrollar un sistema basado en inteligencia artificial (IA) para optimizar procesos documentales mediante la automatización de la extracción y análisis de información contenida en documentos. El sistema utilizará técnicas avanzadas de procesamiento de lenguaje natural y reconocimiento óptico de caracteres (OCR) para interpretar documentos en diversos formatos, como PDFs, archivos de Word e imágenes escaneadas, y responderá consultas específicas sobre su contenido de manera rápida y precisa. El proyecto aborda una necesidad crítica en la gestión de información como lo es la pérdida de productividad causada por el tiempo dedicado a la búsqueda y además un procesamiento manual de documentos. La solución propuesta optimizará la gestión documental en sectores como el legal, financiero, de recursos humanos y de salud, donde el manejo eficiente de grandes volúmenes de documentos es esencial para la toma de decisiones y el cumplimiento normativo.spa
dc.description.abstractThe objective of this project is to develop a system based on artificial intelligence (AI) to optimize document processes by automating the extraction and analysis of information contained in documents. The system will use advanced natural language processing and optical character recognition (OCR) techniques to interpret documents in various formats, such as PDFs, Word files and scanned images, and will answer specific queries about their content quickly and accurately. The project addresses a critical need in information management such as lost productivity caused by time-consuming search and manual document processing. The proposed solution will optimize document management in sectors such as legal, finance, human resources and healthcare, where the efficient handling of large volumes of documents is essential for decision making and regulatory compliance.eng
dc.description.degreelevelPregrado
dc.description.degreenameIngeniero de Sistemasspa
dc.formatpdf
dc.format.extent38 páginas
dc.format.mediumRecurso electrónicospa
dc.format.mimetypeapplication/pdf
dc.identifier.instnameinstname:Universidad Eanspa
dc.identifier.instnameBDM-FISVspa
dc.identifier.reponamereponame:Repositorio Institucional Biblioteca Digital Minervaspa
dc.identifier.repourlhttps://repository.ean.edu.co/
dc.identifier.urihttps://hdl.handle.net/10882/15004
dc.language.isospa
dc.publisher.facultyFacultad de Ingenieríaspa
dc.publisher.programIngeniería de Sistemas - Virtualspa
dc.relation.referencesAgencia Internacional de Energía [IEA]. (2023). Data centers and data transmission networks. https://www.iea.org/reports/data-centres-and-data-transmission-networks Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623. Bharadiya, J., Thomas, A., & Ahmed, S. (2023). Advances in OCR for document digitization. Springer. Bharadiya, J. P., Thomas, R. K., & Ahmed, F. (2023). Rise of artificial intelligence in business and industry. Journal of Engineering Research and Reports, 25(3), 85–103. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., ... & Liang, P. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems (NeurIPS), 33, 1877–1901. Cengel, Y. A., & Boles, M. A. (2019). Termodinámica (8.ª ed.). McGraw-Hill. Congreso de Colombia. (2000). Ley 594 de 2000 - Ley General de Archivos. https://www.funcionpublica.gov.co Congreso de Colombia. (2012). Ley 1581 de 2012 - Protección de datos personales. https://www.funcionpublica.gov.co DANE. (2022). Contexto macroeconómico nacional y tendencias económicas 2022. https://www.dane.gov.co Davenport, T. H., & Ronanki, R. (2018). Artificial intelligence for the real world. Harvard Business Review, 96(1), 108–116. Enholm, I. M., Papagiannidis, E., Mikalef, P., & Krogstie, J. (2022). Artificial intelligence and business value: A literature review. Information Systems Frontiers, 24(5), 1709–1734. European Union. (2016). General Data Protection Regulation (GDPR). https://gdpr.eu Gartner. (2022). Top 10 strategic technology trends for 2025. https://www.gartner.com González, L., Pérez, D., & Ramírez, J. (2020). Gestión de proyectos de ingeniería: una perspectiva integral. Ediciones Universidad Nacional. Guu, K., Lee, K., Tung, Z., Pasupat, P., & Chang, M. (2020). REALM: Retrieval- Augmented Language Model Pre-Training. In Proceedings of the 37th International Conference on Machine Learning (ICML). Hevner, A., March, S. T., Park, J., & Ram, S. (2004). Design science in information systems research. MIS Quarterly, 28(1), 75–105. Hernández, R., Fernández, C., & Baptista, P. (2020). Metodología de la investigación (6.ª ed.). McGraw-Hill. Huang, M. H., & Rust, R. T. (2018). Artificial intelligence in service. Journal of Service Research, 21(2), 155–172. IBM. (2018). The cost of inefficient document management. https://www.ibm.com INCIBE. (2022). Normas internacionales de seguridad de la información. https://www.incibe.es Long, S., He, X., & Yao, C. (2021). Scene text detection and recognition: The deep learning era. International Journal of Computer Vision, 129(1), 161–184. McKinsey & Company. (2016). The social economy: Unlocking value and productivity through social technologies. McKinsey Global Institute. Ministerio de Ambiente y Desarrollo Sostenible. (2021). Lineamientos para la evaluación ambiental estratégica en planes de ordenamiento territorial. https://www.minambiente.gov.co Ministerio TIC. (2023). Brecha digital y capacidades institucionales en Colombia. https://www.mintic.gov.co OECD. (2021). AI in the digital economy: Implications for productivity and growth. https://www.oecd.org OpenAI. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774. Patel, M., Sharma, R., & Gupta, P. (2021). Deep learning-based optical character recognition: Trends and applications. Journal of Artificial Intelligence Research, 70, 123–145. Pérez, J. A., & Vargas, M. L. (2021). Inteligencia artificial aplicada a la gestión documental: Casos y aprendizajes en América Latina. Universidad del Valle. Pressman, R. S., & Maxim, B. R. (2020). Software engineering: A practitioner's approach (9th ed.). McGraw-Hill. Pugh, S. (1991). Total design: Integrated methods for successful product engineering. Addison-Wesley. Pure Storage. (2025). ¿Qué es la administración de datos no estructurados? https://www.purestorage.com/la/knowledge/what-is-unstructured-data- management.html Smith, R. (2007). An overview of the Tesseract OCR engine. In Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR), 629–633. Su, B., Lu, S., & Tan, C. L. (2014). Character recognition in natural scenes: A survey. Pattern Recognition, 48(3), 1033–1045. Treveil, A., Woolf, J., James, S., Turner, J., & Kahn, S. (2020). The AI-powered enterprise: Harness the power of ontologies to make your business smarter, faster and more profitable. O’Reilly Media.
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.localAbierto (Texto Completo)spa
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.armarcIngeniería de sistemasspa
dc.subject.armarcInteligencia artificialspa
dc.subject.armarcDesarrollo de software de aplicaciónspa
dc.subject.armarcSistemas de recolección automática de datosspa
dc.subject.lembPrototipos de softwarespa
dc.subject.proposalArtificial Intelligence (AI)eng
dc.subject.proposalNatural Language Processing (NLP)eng
dc.subject.proposalLarge Language Models (LLM)eng
dc.subject.proposalOptical Character Recognition (OCR)eng
dc.subject.proposalInteligencia Artificial (IA)spa
dc.subject.proposalProcesamiento de Lenguaje Natural (PLN)spa
dc.subject.proposalModelos de Lenguaje de Gran Tamaño (LLM)spa
dc.subject.proposalReconocimiento Óptico de Caracteres (OCR)spa
dc.titleSistema inteligente para la automatización de procesos documentales usando IA, OCR y recuperación semántica de informaciónspa
dc.titleIntelligent system for automating document processes using AI, OCR, and semantic information retrievaleng
dc.typeTrabajo de grado - Pregradospa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.contentText
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.otherTrabajo de grado - Pregrado
dc.type.redcolhttp://purl.org/redcol/resource_type/TP
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dspace.entity.typePublication
person.affiliation.nameIngeniería de Sistemas - Virtual
person.affiliation.nameIngeniería Industrial - Virtual

Archivos

Bloque original

Mostrando 1 - 2 de 2
Cargando...
Miniatura
Nombre:
CascavitaCamilo2025.pdf
Tamaño:
529.4 KB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de Grado
Cargando...
Miniatura
Nombre:
CascavitaCamilo2025_Anexo.pdf
Tamaño:
325.36 KB
Formato:
Adobe Portable Document Format
Descripción:
Autorización Publicación

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.92 KB
Formato:
Item-specific license agreed upon to submission
Descripción: