Desarrollo de un sistema informático, siguiendo los principios de la ingeniería de software, aplicando una técnica no supervisada fundamentada en grafos y el algoritmo pagerank para desambiguar datos biomédicos a partir de la co-ocurrencia de conceptos biomédicos.

La desambiguación de términos biomédicos es un desafío inevitable en el análisis de textos enfocados al área de la salud que está marcado por la ambigüedad y la diversidad de los términos usualmente utilizados. Diversos enfoques se han propuesto en respuesta a esto, dependiendo (en algunas ocasiones...

Full description

Saved in:
Bibliographic Details
Main Author: Guanoluisa Castillo, Karen Viviana (author)
Format: bachelorThesis
Published: 2025
Subjects:
Online Access:https://repositorio.espe.edu.ec/handle/21000/43133
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:La desambiguación de términos biomédicos es un desafío inevitable en el análisis de textos enfocados al área de la salud que está marcado por la ambigüedad y la diversidad de los términos usualmente utilizados. Diversos enfoques se han propuesto en respuesta a esto, dependiendo (en algunas ocasiones) de ontologías como UMLS o de grandes cantidades de datos ya etiquetados. Esta tesis presenta un sistema que emplea grafos de co-ocurrencia, implementación de BlueBERT para tokenización y el algoritmo PageRank, usando como base el corpus de MedMentions. Donde cada nodo del grafo corresponde a un término médico, y los enlaces se establecen mediante el coseno de similitud. Posteriormente, extraemos subgrafos (en relación al contexto) para así reducir la complejidad del cálculo. Además, la relación entre los nodos no se limita a su mera co-ocurrencia sino que implementa un modelo de red neuronal basado en transformadores, específicamente BlueBERT con el objetivo de tokenizar cada nodo del grafo asociado a un CUI. Esta versión de BERT divide los términos en subunidades manejables y genera un “embedding” que abarca tanto el significado de la palabra como su relación contextual con otros términos. El enfoque descrito en esta tesis demuestra una capacidad de interpretación contextual que alcanza un 85.65% de precisión en la asignación de la aceptación correcta, ofreciendo una solución adaptable y eficiente para la desambiguación de términos médicos.