Limpieza de lecturas de secuenciación de ADN de Theobroma cacao utilizando redes neuronales

Theobroma cacao, comúnmente conocido como Cacao, es un fruto indispensable para la producción del chocolate. Su cultivo enfrenta retos significativos debido a una alta susceptibilidad a enfermedades, lo cual puede causar pérdidas económicas. Contar con información genómica precisa es crucial para en...

Descripció completa

Guardat en:
Dades bibliogràfiques
Autor principal: Acosta Irigoyen, Ana María (author)
Format: masterThesis
Publicat: 2025
Matèries:
Accés en línia:https://repositorio.puce.edu.ec/handle/123456789/46245
Etiquetes: Afegir etiqueta
Sense etiquetes, Sigues el primer a etiquetar aquest registre!
Descripció
Sumari:Theobroma cacao, comúnmente conocido como Cacao, es un fruto indispensable para la producción del chocolate. Su cultivo enfrenta retos significativos debido a una alta susceptibilidad a enfermedades, lo cual puede causar pérdidas económicas. Contar con información genómica precisa es crucial para entender las posibles enfermedades y, por tanto, colaborar eventualmente con el desarrollo de variedades de cacao resistentes a enfermedades. Actualmente, las secuencias de lectura crudas de Theobroma cacao contienen lecturas contaminadas y ruido, lo cual complica el subsecuente análisis, afectando la confiabilidad de los estudios genómicos. El propósito de este tema de titulación se centró en limpiar las secuencias de lectura crudas de Theobroma cacao que están contaminadas y/o contienen ruido, a través de la utilización de redes neuronales profundas. Esta investigación tomó ventaja de las técnicas avanzadas de aprendizaje de máquina, mediante el entrenamiento de una red neuronal, alimentándola con grandes conjuntos de datos de lecturas crudas de secuenciación de Illumina de Theobroma cacao. El entrenamiento de los datos se enfocó en distinguir entre secuencias correctas de Theobroma cacao y secuencias que no lo son. La eficiencia de esta red neuronal fue contrastada con otros métodos de limpieza de lecturas de secuenciación para determinar la eficiencia de este modelo de red neuronal, constituyéndose como la hipótesis motora de la presente investigación. La relevancia que propone este tema de investigación es de gran importancia para la industria del cacao y, a su vez, para el estudio genómico de plantas en general.