Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos

People with visual impairments face significant barriers to accessing information in printed documents, limiting their participation in education, employment, and social interaction. It can lead to exclusion in an increasingly information-dependent world. This motivated the development of a "Pr...

Full description

Saved in:
Bibliographic Details
Main Author: Torres Calva, Juan Pablo (author)
Format: bachelorThesis
Language:spa
Published: 2024
Subjects:
Online Access:https://dspace.unl.edu.ec/jspui/handle/123456789/30565
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1857833091051028480
author Torres Calva, Juan Pablo
author_facet Torres Calva, Juan Pablo
author_role author
collection Repositorio Universidad Nacional de Loja
dc.contributor.none.fl_str_mv Cumbicus Pineda, Oscar Miguel
dc.creator.none.fl_str_mv Torres Calva, Juan Pablo
dc.date.none.fl_str_mv 2024-09-13T17:02:26Z
2024-09-13T17:02:26Z
2024-09-13
dc.format.none.fl_str_mv 125 p.
application/pdf
dc.identifier.none.fl_str_mv https://dspace.unl.edu.ec/jspui/handle/123456789/30565
dc.language.none.fl_str_mv spa
dc.publisher.none.fl_str_mv Universidad Nacional de Loja
dc.rights.none.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/3.0/ec/
info:eu-repo/semantics/openAccess
dc.source.none.fl_str_mv reponame:Repositorio Universidad Nacional de Loja
instname:Universidad Nacional de Loja
instacron:UNL
dc.subject.none.fl_str_mv JETSON NANO
GEMINI
DISCAPACIDAD VISUAL
INTELIGENCIA ARTIFICIAL
dc.title.none.fl_str_mv Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos
Integration of Jetson Nano with Gemini Vision for the interpretation of tables and statistical charts in printed documents.
dc.type.none.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/bachelorThesis
description People with visual impairments face significant barriers to accessing information in printed documents, limiting their participation in education, employment, and social interaction. It can lead to exclusion in an increasingly information-dependent world. This motivated the development of a "Printed Document Reader for the Visually Impaired" to provide an accessible solution for reading printed documents for people with visual impairments, addressing the limited availability and high cost of current technologies such as OrCam MyEye glasses and mobile apps from Microsoft and Google. While these are useful, they present restrictions when describing complex scenarios. The project was based on integrating Google's Gemini multimodal language model into a Jetson Nano device, based on the SCRUM framework, and focused on identifying the needs of end users. Key tasks were developed from planning, hardware and software integration, and programming commands on a numeric keypad to execute specific tasks, such as reading text, reading tables, and describing statistical graphs, allowing the conversion of visual information to accessible formats such as audio. The main result was creating a functional system capable of providing accurate descriptions of printed documents through voice synthesis, improving accessibility to information for visually impaired people. Finally, it is concluded that the proposed solution is viable and efficient, standing out for its accessibility in terms of cost and advanced functionality compared to current market options, allowing greater inclusion and access to information for this group. Keywords: Jetson Nano, Gemini, Visual Impairment, Artificial Intelligence.
eu_rights_str_mv openAccess
format bachelorThesis
id UNL_a4afcd7fd00aaae9d4991eb803ef0d05
instacron_str UNL
institution UNL
instname_str Universidad Nacional de Loja
language spa
network_acronym_str UNL
network_name_str Repositorio Universidad Nacional de Loja
oai_identifier_str oai:dspace.unl.edu.ec:123456789/30565
publishDate 2024
publisher.none.fl_str_mv Universidad Nacional de Loja
reponame_str Repositorio Universidad Nacional de Loja
repository.mail.fl_str_mv *
repository.name.fl_str_mv Repositorio Universidad Nacional de Loja - Universidad Nacional de Loja
repository_id_str 0
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/3.0/ec/
spelling Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresosIntegration of Jetson Nano with Gemini Vision for the interpretation of tables and statistical charts in printed documents.Torres Calva, Juan PabloJETSON NANOGEMINIDISCAPACIDAD VISUALINTELIGENCIA ARTIFICIALPeople with visual impairments face significant barriers to accessing information in printed documents, limiting their participation in education, employment, and social interaction. It can lead to exclusion in an increasingly information-dependent world. This motivated the development of a "Printed Document Reader for the Visually Impaired" to provide an accessible solution for reading printed documents for people with visual impairments, addressing the limited availability and high cost of current technologies such as OrCam MyEye glasses and mobile apps from Microsoft and Google. While these are useful, they present restrictions when describing complex scenarios. The project was based on integrating Google's Gemini multimodal language model into a Jetson Nano device, based on the SCRUM framework, and focused on identifying the needs of end users. Key tasks were developed from planning, hardware and software integration, and programming commands on a numeric keypad to execute specific tasks, such as reading text, reading tables, and describing statistical graphs, allowing the conversion of visual information to accessible formats such as audio. The main result was creating a functional system capable of providing accurate descriptions of printed documents through voice synthesis, improving accessibility to information for visually impaired people. Finally, it is concluded that the proposed solution is viable and efficient, standing out for its accessibility in terms of cost and advanced functionality compared to current market options, allowing greater inclusion and access to information for this group. Keywords: Jetson Nano, Gemini, Visual Impairment, Artificial Intelligence.Las personas con discapacidad visual enfrentan obstáculos significativos para acceder a la información en documentos impresos, lo que limita su participación en la educación, el empleo y la interacción social, y puede llevar a la exclusión en un mundo que depende cada vez más de la información. Esto motivó el desarrollo de un "Lector de Documentos impresos para las personas con discapacidad visual", con el objetivo de ofrecer una solución accesible para la lectura de documentos impresos a personas con discapacidad visual, abordando la limitada disponibilidad y el elevado costo de tecnologías actuales como las gafas OrCam MyEye y las aplicaciones móviles de Microsoft y Google. Aunque estas son útiles, presentan restricciones en la descripción de escenarios complejos. El proyecto se basó en la integración del modelo de lenguaje multimodal Gemini de Google en un dispositivo Jetson Nano, basado en el marco de trabajo SCRUM, que permitió la lectura de texto, tablas y gráficos estadísticos, donde se desarrollaron tareas clave desde la planificación, la integración de hardware y software, y la programación de comandos en un teclado numérico para ejecutar tareas específicas, como la lectura de texto, la lectura de tablas y la descripción de gráficos estadísticos, permitiendo la conversión de información visual a formatos accesibles como el audio. El resultado principal fue la creación de un sistema funcional capaz de proporcionar descripciones de documentos impresos mediante síntesis de voz, mejorando la accesibilidad a la información para personas con discapacidad visual. Finalmente se concluye que la solución propuesta es viable y eficiente, destacándose por su accesibilidad en términos de costo y su funcionalidad avanzada en comparación con las opciones actuales del mercado, permitiendo una mayor inclusión y acceso a la información para este colectivo. Palabras clave: Jetson Nano, Gemini, discapacidad visual, inteligencia artificial.Universidad Nacional de LojaCumbicus Pineda, Oscar Miguel2024-09-13T17:02:26Z2024-09-13T17:02:26Z2024-09-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis125 p.application/pdfhttps://dspace.unl.edu.ec/jspui/handle/123456789/30565spahttp://creativecommons.org/licenses/by-nc-sa/3.0/ec/info:eu-repo/semantics/openAccessreponame:Repositorio Universidad Nacional de Lojainstname:Universidad Nacional de Lojainstacron:UNL2025-05-02T16:18:25Zoai:dspace.unl.edu.ec:123456789/30565Institucionalhttps://dspace.unl.edu.ec/Universidad públicahttps://unl.edu.ec/https://dspace.unl.edu.ec/oaiEcuador***opendoar:02025-05-02T16:18:25falseInstitucionalhttps://dspace.unl.edu.ec/Universidad públicahttps://unl.edu.ec/https://dspace.unl.edu.ec/oai*Ecuador***opendoar:02025-05-02T16:18:25Repositorio Universidad Nacional de Loja - Universidad Nacional de Lojafalse
spellingShingle Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos
Torres Calva, Juan Pablo
JETSON NANO
GEMINI
DISCAPACIDAD VISUAL
INTELIGENCIA ARTIFICIAL
status_str publishedVersion
title Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos
title_full Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos
title_fullStr Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos
title_full_unstemmed Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos
title_short Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos
title_sort Integración de Jetson Nano con Gemini Vision para la interpretación de tablas y gráficos estadísticos en documentos impresos
topic JETSON NANO
GEMINI
DISCAPACIDAD VISUAL
INTELIGENCIA ARTIFICIAL
url https://dspace.unl.edu.ec/jspui/handle/123456789/30565