Desarrollo de una aplicación para facilitar el acceso a la estructura de documentos en formato PDF mediante inteligencia artificial

En la actualidad, mucha información se comparte en documentos con formato PDF, y para interactuar con ellos se debe identificar su estructura y la información que ayuda a conocer esta estructura es el orden de lectura. La detección del orden de lectura es un proceso fundamental en el análisis de doc...

Full description

Saved in:
Bibliographic Details
Main Author: Pichucho Fernández, Kevin Joel (author)
Format: bachelorThesis
Published: 2025
Subjects:
Online Access:https://repositorio.espe.edu.ec/handle/21000/52292
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:En la actualidad, mucha información se comparte en documentos con formato PDF, y para interactuar con ellos se debe identificar su estructura y la información que ayuda a conocer esta estructura es el orden de lectura. La detección del orden de lectura es un proceso fundamental en el análisis de documentos digitales en el cual se enfoca este proyecto de investigación. El orden de lectura se refiere a determinar la secuencia lógica de interpretación de la información contenida en un documento. Para identificar el orden de lectura, se analizó la distribución del documento en columnas o secciones distribuidas en diferentes partes clave como títulos, resúmenes, secciones, imágenes, tablas, párrafos, entre otras, con el fin de asociarla y dar una interpretación lógica y coherente de la información existente en un documento. Con investigaciones basadas en IA y OCR se seleccionará el mejor método tecnológico. En este trabajo, se desarrolló un algoritmo para la detección del orden de lectura para diferentes documentos en formato PDF que sea capaz de extraer el orden correcto de documentos que posean diferentes estructuras en su composición. Esta información será útil para que en futuras aplicaciones se brinde accesibilidad a esta información. El mejor resultado que se obtuvo en este trabajo es una precisión de detección en el orden de lectura de un 98.21% entre todas las estructuras de los documentos lo que lo vuelve una herramienta útil que beneficiará al a varios usuarios para acceder a cualquier tipo de información que contenga un documento PDF.