Publicación: Sistema inteligente para la automatización de procesos documentales usando IA, OCR y recuperación semántica de información
dc.contributor.advisor | Torres Vanegas, Julián Daniel | |
dc.contributor.author | Cascavita Rodríguez, Camilo Andrés | |
dc.contributor.author | Useche Niño, Yessica Katherine | |
dc.creator.id | 1233690754 | |
dc.creator.id | 1000836537 | |
dc.date.accessioned | 2025-08-13T15:19:07Z | |
dc.date.issued | 2025-07-03 | |
dc.description.abstract | Este proyecto tiene como objetivo desarrollar un sistema basado en inteligencia artificial (IA) para optimizar procesos documentales mediante la automatización de la extracción y análisis de información contenida en documentos. El sistema utilizará técnicas avanzadas de procesamiento de lenguaje natural y reconocimiento óptico de caracteres (OCR) para interpretar documentos en diversos formatos, como PDFs, archivos de Word e imágenes escaneadas, y responderá consultas específicas sobre su contenido de manera rápida y precisa. El proyecto aborda una necesidad crítica en la gestión de información como lo es la pérdida de productividad causada por el tiempo dedicado a la búsqueda y además un procesamiento manual de documentos. La solución propuesta optimizará la gestión documental en sectores como el legal, financiero, de recursos humanos y de salud, donde el manejo eficiente de grandes volúmenes de documentos es esencial para la toma de decisiones y el cumplimiento normativo. | spa |
dc.description.abstract | The objective of this project is to develop a system based on artificial intelligence (AI) to optimize document processes by automating the extraction and analysis of information contained in documents. The system will use advanced natural language processing and optical character recognition (OCR) techniques to interpret documents in various formats, such as PDFs, Word files and scanned images, and will answer specific queries about their content quickly and accurately. The project addresses a critical need in information management such as lost productivity caused by time-consuming search and manual document processing. The proposed solution will optimize document management in sectors such as legal, finance, human resources and healthcare, where the efficient handling of large volumes of documents is essential for decision making and regulatory compliance. | eng |
dc.description.degreelevel | Pregrado | |
dc.description.degreename | Ingeniero de Sistemas | spa |
dc.format | ||
dc.format.extent | 38 páginas | |
dc.format.medium | Recurso electrónico | spa |
dc.format.mimetype | application/pdf | |
dc.identifier.instname | instname:Universidad Ean | spa |
dc.identifier.instname | BDM-FISV | spa |
dc.identifier.reponame | reponame:Repositorio Institucional Biblioteca Digital Minerva | spa |
dc.identifier.repourl | https://repository.ean.edu.co/ | |
dc.identifier.uri | https://hdl.handle.net/10882/15004 | |
dc.language.iso | spa | |
dc.publisher.faculty | Facultad de Ingeniería | spa |
dc.publisher.program | Ingeniería de Sistemas - Virtual | spa |
dc.relation.references | Agencia Internacional de Energía [IEA]. (2023). Data centers and data transmission networks. https://www.iea.org/reports/data-centres-and-data-transmission-networks Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623. Bharadiya, J., Thomas, A., & Ahmed, S. (2023). Advances in OCR for document digitization. Springer. Bharadiya, J. P., Thomas, R. K., & Ahmed, F. (2023). Rise of artificial intelligence in business and industry. Journal of Engineering Research and Reports, 25(3), 85–103. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., ... & Liang, P. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems (NeurIPS), 33, 1877–1901. Cengel, Y. A., & Boles, M. A. (2019). Termodinámica (8.ª ed.). McGraw-Hill. Congreso de Colombia. (2000). Ley 594 de 2000 - Ley General de Archivos. https://www.funcionpublica.gov.co Congreso de Colombia. (2012). Ley 1581 de 2012 - Protección de datos personales. https://www.funcionpublica.gov.co DANE. (2022). Contexto macroeconómico nacional y tendencias económicas 2022. https://www.dane.gov.co Davenport, T. H., & Ronanki, R. (2018). Artificial intelligence for the real world. Harvard Business Review, 96(1), 108–116. Enholm, I. M., Papagiannidis, E., Mikalef, P., & Krogstie, J. (2022). Artificial intelligence and business value: A literature review. Information Systems Frontiers, 24(5), 1709–1734. European Union. (2016). General Data Protection Regulation (GDPR). https://gdpr.eu Gartner. (2022). Top 10 strategic technology trends for 2025. https://www.gartner.com González, L., Pérez, D., & Ramírez, J. (2020). Gestión de proyectos de ingeniería: una perspectiva integral. Ediciones Universidad Nacional. Guu, K., Lee, K., Tung, Z., Pasupat, P., & Chang, M. (2020). REALM: Retrieval- Augmented Language Model Pre-Training. In Proceedings of the 37th International Conference on Machine Learning (ICML). Hevner, A., March, S. T., Park, J., & Ram, S. (2004). Design science in information systems research. MIS Quarterly, 28(1), 75–105. Hernández, R., Fernández, C., & Baptista, P. (2020). Metodología de la investigación (6.ª ed.). McGraw-Hill. Huang, M. H., & Rust, R. T. (2018). Artificial intelligence in service. Journal of Service Research, 21(2), 155–172. IBM. (2018). The cost of inefficient document management. https://www.ibm.com INCIBE. (2022). Normas internacionales de seguridad de la información. https://www.incibe.es Long, S., He, X., & Yao, C. (2021). Scene text detection and recognition: The deep learning era. International Journal of Computer Vision, 129(1), 161–184. McKinsey & Company. (2016). The social economy: Unlocking value and productivity through social technologies. McKinsey Global Institute. Ministerio de Ambiente y Desarrollo Sostenible. (2021). Lineamientos para la evaluación ambiental estratégica en planes de ordenamiento territorial. https://www.minambiente.gov.co Ministerio TIC. (2023). Brecha digital y capacidades institucionales en Colombia. https://www.mintic.gov.co OECD. (2021). AI in the digital economy: Implications for productivity and growth. https://www.oecd.org OpenAI. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774. Patel, M., Sharma, R., & Gupta, P. (2021). Deep learning-based optical character recognition: Trends and applications. Journal of Artificial Intelligence Research, 70, 123–145. Pérez, J. A., & Vargas, M. L. (2021). Inteligencia artificial aplicada a la gestión documental: Casos y aprendizajes en América Latina. Universidad del Valle. Pressman, R. S., & Maxim, B. R. (2020). Software engineering: A practitioner's approach (9th ed.). McGraw-Hill. Pugh, S. (1991). Total design: Integrated methods for successful product engineering. Addison-Wesley. Pure Storage. (2025). ¿Qué es la administración de datos no estructurados? https://www.purestorage.com/la/knowledge/what-is-unstructured-data- management.html Smith, R. (2007). An overview of the Tesseract OCR engine. In Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR), 629–633. Su, B., Lu, S., & Tan, C. L. (2014). Character recognition in natural scenes: A survey. Pattern Recognition, 48(3), 1033–1045. Treveil, A., Woolf, J., James, S., Turner, J., & Kahn, S. (2020). The AI-powered enterprise: Harness the power of ontologies to make your business smarter, faster and more profitable. O’Reilly Media. | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
dc.rights.license | Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0) | |
dc.rights.local | Abierto (Texto Completo) | spa |
dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject.armarc | Ingeniería de sistemas | spa |
dc.subject.armarc | Inteligencia artificial | spa |
dc.subject.armarc | Desarrollo de software de aplicación | spa |
dc.subject.armarc | Sistemas de recolección automática de datos | spa |
dc.subject.lemb | Prototipos de software | spa |
dc.subject.proposal | Artificial Intelligence (AI) | eng |
dc.subject.proposal | Natural Language Processing (NLP) | eng |
dc.subject.proposal | Large Language Models (LLM) | eng |
dc.subject.proposal | Optical Character Recognition (OCR) | eng |
dc.subject.proposal | Inteligencia Artificial (IA) | spa |
dc.subject.proposal | Procesamiento de Lenguaje Natural (PLN) | spa |
dc.subject.proposal | Modelos de Lenguaje de Gran Tamaño (LLM) | spa |
dc.subject.proposal | Reconocimiento Óptico de Caracteres (OCR) | spa |
dc.title | Sistema inteligente para la automatización de procesos documentales usando IA, OCR y recuperación semántica de información | spa |
dc.title | Intelligent system for automating document processes using AI, OCR, and semantic information retrieval | eng |
dc.type | Trabajo de grado - Pregrado | spa |
dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
dc.type.coarversion | http://purl.org/coar/version/c_ab4af688f83e57aa | |
dc.type.content | Text | |
dc.type.driver | info:eu-repo/semantics/bachelorThesis | |
dc.type.other | Trabajo de grado - Pregrado | |
dc.type.redcol | http://purl.org/redcol/resource_type/TP | |
dc.type.version | info:eu-repo/semantics/acceptedVersion | |
dspace.entity.type | Publication | |
person.affiliation.name | Ingeniería de Sistemas - Virtual | |
person.affiliation.name | Ingeniería Industrial - Virtual |
Archivos
Bloque original
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 1.92 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: