Ensamblaje y anotación del genoma de Vibrio spp. a partir de datos de secuenciación Nanopore (ONT) e Illumina
Antecedentes: Las especies bacterianas pertenecientes al género Vibrio son bacterias halófilas de tipo gramnegativas que habitan en entornos marinos, manglares, estuarios y por ende en el sistema digestivo de los crustáceos. Este proyecto tiene como objetivo generar un pipeline que permita la limpie...
Saved in:
| Hovedforfatter: | |
|---|---|
| Format: | masterThesis |
| Udgivet: |
2022
|
| Fag: | |
| Online adgang: | https://repositorio.puce.edu.ec/handle/123456789/27464 |
| Tags: |
Tilføj Tag
Ingen Tags, Vær først til at tagge denne postø!
|
| Summary: | Antecedentes: Las especies bacterianas pertenecientes al género Vibrio son bacterias halófilas de tipo gramnegativas que habitan en entornos marinos, manglares, estuarios y por ende en el sistema digestivo de los crustáceos. Este proyecto tiene como objetivo generar un pipeline que permita la limpieza, ensamblaje, pulido y anotación funcional e identificación a nivel de especie de lecturas crudas para el género Vibrio spp. obtenidas a través de secuenciación ONT e Illumina, usando diversas herramientas bioinformáticas de código abierto disponible para GNU/Linux. Métodos: Se realizó una investigación de tipo experimental con datos secundarios extraídos del Centro Nacional para la Información Biotecnológica (NCBI, por sus siglas en inglés) con número de accesión SRR21422415 (Vibrio spp CCB-PB317 Nanopore) y SRR21422416 (Vibrio spp CCB-PB317 Illumina). La evaluación de calidad se realizó mediante Nanoplot y FastQC respectivamente, a la muestra SRR21422415 se le aplicó una limpieza de los datos con Porechop. Posteriormente se realizó el ensamblaje de los datos limpios de Nanopore con los ensambladores Canu y Flye, los cuales fueron evaluados usando QUAST y BUSCO, seleccionando así el mejor ensamblaje. Se propuso mejorar el ensamblaje obtenido de Nanopore haciendo un pulido con los datos de Illumina, empezando con un mapeo mediante Bowtie2 e indexando con Samtools, los cuales sirvieron de entrada para Pilon. Una vez completado el proceso de pulido se procedió a evaluar el ensamblaje con QUAST y BUSCO. Todos los procesos mencionados fueron procesados en un entorno GNU/Linux a través de consola y usando diversos ambientes de Anaconda. Finalmente, el ensamblaje final fue ingresado en el Centro de Recursos de Bioinformática Bacteriana y Viral (BV-BRC, por sus siglas en inglés) para realizar el Análisis Integral del Genoma (CGA, por sus siglas en inglés) el cual comprende detalles del genoma ensamblado, anotación funcional, anotación proteica, análisis de subsistemas, genes especiales, genes anotados relacionados con mecanismos de resistencia antimicrobiana (AMR) y un árbol filogenético que permite ubicar el genoma con el más cercano. Resultados: El genoma de Vibrio fue ensamblado a partir de las lecturas obtenidas de bases de datos públicas utilizando los ensambladores de novo Canu y Flye. Evaluamos la calidad de los ensamblajes mediante QUAST obteniendo las siguientes estadísticas para Canu (contigs=8, contig más largo=3,075,685 pb, total longitud=5,196,194 pb, N50=3,075,685, %GC=44.92) y Flye (contigs=4, contig más largo=3,118,351 pb, total longitud=5,175,891 pb, N50=3,118,351, %GC=44.87). Adicionalmente, evaluamos la integridad de los genes ensamblados mediante BUSCO y se obtuvo para Canu 81.5% y Flye 91.4% de genes completos (C) identificados en el dataset vibrionales_odb10 de BUSCO. Observamos mejores estadísticas en las dos herramientas utilizando el ensamblaje realizado con Flye, el cual se procedió a realizar el proceso de pulido (polishing) mediante lecturas de Illumina. Se evaluó y comparó la calidad del ensamblaje de Flye pulido nuevamente con QUAST (contigs=4, contig más largo=3,118,981 pb, total longitud=5,176,947 pb, N50=3,118,981, %GC=44.87, #Ns=0) y al evaluar la integridad de los genes ensamblados mediante BUSCO se obtuvo un 100.0% de genes altamente conservados de categoría completos (C) identificados en el dataset vibrionales_odb10 de BUSCO, reflejando una mejora significativa al comparar el ensamblaje de Flye sin pulir con el mismo ensamblaje posterior al proceso de pulido. Al ingresar el ensamblaje de Flye pulido al BV-BRC y realizar el Análisis Integral del Genoma (CGA), se obtuvo que el genoma analizado está constituido por 4 contigs el primero con una longitud de 3,118,981 pb (3,1 Mb) y %GC=44.72 el cual fue identificado como el cromosoma I grande, el segundo con una longitud de 1,831,277 pb (1,8 Mb) y %GC=44.95 el cual fue identificado como el cromosoma II pequeño, estos cromosomas son característicos del género Vibrio spp. Además, se identificaron dos contigs pequeños de 48,036 pb (48 Kb), %GC=46.45 y 178,653 pb (178 Kb), %GC=46.21 respectivamente los cuales corresponden a plásmidos. En la anotación del genoma se obtuvieron 4791 CDS, 125 ARNt, 100 regiones repetitivas, 33 ARNr, 1112 proteínas hipotéticas, 1086 proteínas según la asignación Enzyme Commission Number (EC number), 905 proteínas con asignación Gene Ontology (GO) y 4648 proteínas con asignación de familia de género cruzado por PATRIC (PGfam). En el caso de genes especiales el CGA anotó un total de 44 genes relacionados con mecanismos de resistencia antimicrobiana, 40 genes relacionados con posibles objetivos farmacológicos, 64 genes transportadores y 114 genes relacionados con factores de virulencia, finalmente el Análisis Integral de Genoma determinó que por medio de un análisis filogenético que la especie más cercana a nuestro genoma corresponde a Vibrio alginolyticus. Conclusiones: El desarrollo exponencial de los últimos años de las tecnologías de secuenciación masiva permite en la actualidad obtener millones de secuencias de ADN a una gran velocidad y un costo cada vez menor, lo que genera una elevada cantidad de datos crudos en diversas bases de datos, entre ellas el Sequence Read Archive (SRA, por sus siglas en inglés) del NCBI. Por tal motivo el diseño de pipelines (tuberías) para el análisis de dichos datos que permita extraer la mayor cantidad de información útil de dichas secuencias prácticamente sin costo alguno se convierte en una herramienta poderosa en la biología computacional. Este pipeline diseñado para bacterias permite realizar ensamblajes de datos crudos obtenidos con Nanopore con dos de los mejores ensambladores de novo actualmente disponible Canu y Flye, en este caso con mejor desempeño el ensamblaje generado por Flye, el cual posterior al proceso de pulido con datos crudos de illumina mejoró sustancialmente, lo cual es crucial si se desea realizar un análisis de anotación funcional ya que la misma depende de la integridad y calidad del ensamblaje. Logramos identificar que nuestra muestra corresponde a Vibrio alginolyticus con una estructura genómica constituida por un cromosoma I grande y un cromosoma II pequeño, siendo común para el género, junto con dos regiones pequeñas que corresponden a plásmidos. Adicionalmente se evidencia la capacidad patogénica de la especie analizada por la cantidad de genes anotados relacionados con factores de virulencia y mecanismos de resistencia antimicrobiana. |
|---|