Recovery and characterization of viral diversity from aquatic short- and long-read metagenomes

  1. Zaragoza Solas, Asier
Dirigida por:
  1. Francisco Rodríguez Valera Director
  2. Mario López Pérez Codirector/a

Universidad de defensa: Universidad Miguel Hernández de Elche

Fecha de defensa: 21 de octubre de 2022

Tribunal:
  1. Mart Krupovic Presidente/a
  2. Manuel Martínez García Secretario
  3. Laura Alonso Sáez Vocal

Tipo: Tesis

Resumen

Los bacteriófagos (”fagos”) son los organismos más abundantes en los ecosistemas marinos y tienen un papel esencial en los ciclos biogeoquímicos globales. Asimismo, influencian la evolución de las poblaciones bacterianas que infectan y contribuyen a la diversificación del acervo genético bacteriano. Desgraciadamente, su estudio se ve limitado por la dificultad de cultivar y aislar estos organismos en el laboratorio. El uso de técnicas que no requieren cultivo, como la metagenómica, pueden complementar el cultivo en laboratorio para recuperar una mayor diversidad de fagos. Sin embargo, la inmensa mayoría de secuencias virales recuperadas mediante metagenómica no pueden ser caracterizadas, por lo que no proporcionan ninguna información sobre sus interacciones con la comunidad bacteriana, un fenómeno que se ha nombrado “materia oscura viral”. En esta tesis se han utilizado múltiples procesos bioinformáticos en colecciones de metagenomas de lectura corta y larga para caracterizar las secuencias virales que contienen. Se ha desarrollado un procedimiento para recuperar secuencias virales a partir de un genoma de referencia y se ha aplicado al estudio de miofagos que infectan al clado SAR11 de las Alfaproteobacteria, uno de los grupos de bacterioplankton más abundantes en agua dulce y agua salada de superficie. Se consiguió recuperar 22 nuevos genomas que incluyen el primer genoma que infecta LD12, el subclado de SAR11 de agua dulce. Estos genomas están poco representados en colecciones obtenidas de la fracción viral, lo que sugiere que las afecta un sesgo técnico o biológico. Sorprendentemente, esta familia de fagos contiene un operón similar al sistema de secreción tipo VIII de Escherichia coli. La función de este operón es aún desconocida. Asimismo, se contrastó la recuperación de secuencias víricas entre colecciones de lectura corta y larga utilizando colecciones obtenidas en el mar Mediterráneo. Los resultados muestran que aunque los ensamblajes derivados de las lecturas largas producen secuencias virales de mejor calidad, en el proceso se pierde una gran cantidad de diversidad intraclado. Esta diversidad es mucho mayor de la recuperada con lecturas cortas, y podría explotarse para aplicaciones biotecnológicas, como el descubrimiento de nuevas endolisinas. Finalmente, se desarrolló un programa (Random Forest Assignment of Hosts, o RaFAH) para asignar hospedadores a secuencias virales obtenidas de colecciones metagenómicas. El programa se basa en el uso de algoritmos de machine learning entrenados con grupos de proteínas creados de novo. RaFAH muestra un rendimiento similar a otros clasificadores de secuencias y es capaz de clasificar secuencias víricas al nivel taxonómico de Reino, siendo así el primer clasificador capaz de detectar fagos que infectan arqueas con precisión. El análisis de importancia de rasgo revela que los grupos de proteínas con mayor poder predictivo son aquellos involucrados en el reconocimiento del hospedador.