The power of onestudy of the marine virosphere using single-virus genomics
- Manuel Martínez García Doktorvater
Universität der Verteidigung: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 13 von September von 2019
- Mª Dolors Vaqué Vidal Präsident/in
- Laura Alonso Sáez Sekretär/in
- Carolina Megumi Mizuno Vocal
Art: Dissertation
Zusammenfassung
La presente tesis se encuentra divididad en 5 apartados teóricos, los tres primeros publicados en el momento de depósito de la tesis, y los otros 2 en diferentes fases de preparación. Cada uno de ellos trata de responder alguna de las pregutas claves que se plantean en la introducción, así como nuevas cuestiones generadas a raiz del propio desarrollo de la tesis: I. Single-virus genomics reveals hidden cosmopolitan and abundant viruses (Published paper) Este trabajo trata de la aplicación en muestras marinas de la metodología de Single-virus genomics, con el objetivo de secuenciar virus que otras tecnologías no nos han revelado todavía. Resumidamente, la metodología de SVG descrita en este trabajo consiste en: 1. Recogida y procesamiento de muestras marinas 2. Optimización de la tinción de virus para la citometría de flujo 3. Sorting de virus por “fluorescence-activated virus sorting (FAVS)” 4. Amplificación del genoma complete (WGA) de los virus separados por MDA 5. Secuenciación y análisis del genoma Durante el proceso del FAVS, los virus son seleccionados aleatoriamente, por tanto, cuanto más abundante es un virus, mayor es la posibilidad de que sea seleccionado y separado durante el sorting. Por tanto, los genomas víricos únicos amplificados (vSAGs) deberían de corresponderse con abundantes poblaciones marinas de virus. Los resultados confirmaron la eficiente aplicación de la técnica SVG en muestras ambientales marinas. Se obtuvieron 44 vSAGs de diferentes muestras (superficie, DCM y regiones batipelágicas), su análisis confirmó que eran virus no previamente descritos por ninguna otra metodología. Uno de ellos, el vSAG 37-F6, mostró una inesperada enorme abundancia y dispersión a lo largo de todos los océanos analizados. Los análisis de reclutamiento de fragmentos víricos mostraron por qué no había sido antes descubierto: la microdiversidad de su genoma. Usando viromas simulados, se demostró como la microdiversidad dificulta la reconstrucción de genomas durante el ensamblaje. En este trabajo, el enorme potencial de la aplicación de SVG en muestras naturales queda reflejado. La combinación de esta metodología con otras técnicas, como la virómica o las técnicas de cultivo, puede ayudar a desvelar la todavía virosfera desconocida. II. Single-cell genomics uncover Pelagibacter as the putative host of the extremely abundant uncultured 37-F6 viral population in the ocean (Published paper) Tras descubrir el vSAG 37-F6, una de las más relevantes cuestiones a ser resuelta fue la identidad de su huésped. Esta identificación ayudará a entender mejor el impacto del virus sobre los ciclos biogeoquímicos globales, y a construir modelos ecológicos. En el trabajo previo, diferentes métodos in silico basados en análisis de k-mer, espaciadores CRISPR y búsqueda de ARNt, fueron empleados para tratar de identificar su huésped, sin embargo no se obtuvo ningún resultado concluyente. Por ello se diseñó una aproximación experimental para conseguir este propósito. Primero se generó una colección de varios cientos de células sorteadas individualmente (single cells), del mismo punto de muestreo de donde el vSAG 37-F6 fue obtenido, el observatorio microbiológico de Blanes (BBMO) situado en la costa Mediterránea del Noroeste de España. Tras ello se diseñaron unos primers específicos del genoma de este virus que fueron empleados sobre todos los productos de MDA de los single-cell (SAGs) Una amplificación positiva fue obtenida en uno de estos SAGs, el SAG MED 40. Tras esto análisis de 16S ARNr, genómicos y filogenéticos fueron realizados, mostrando que el MEG 40 estaba relacionado con los Pelagibacteriales. Por tanto el vSAG 37-F6 fue identificado como un posible pelagifago. Además, 3 contigs diferentes, similares al vSAG 37-F6 fueron encontrados en otros 3 SAGs identificados también como Pelagibacter sp, obtenidos cada uno de ellos en diferentes localizaciones (Océanos Atlántico y Pacífico), y en tres experimentos y trabajos diferentes. Estos Pelagifagos similares al 37-F6 estaban poco relacionados con los obtenidos por técnicas dependientes de cultivo (Zhao et al., 2013). III. Droplet Digital PCR for Estimating Absolute Abundances of Widespread Pelagibacter Viruses (Paper published) La estimación de la abundancia absoluta del vSAG 37-F6 nos proporcionaría valiosa información relacionada con su impacto ecológico. Esta información podría ser estudiada para evaluar sus dinámicas de infección, su contribución al aporte de DOM o su impacto sobre los ciclos biogeoquímicos. Esta sección se centra en el uso de ddPCR para cuantificar de forma absoluta la abundancia de dos virus, el vSAG 37-F6 y el pelagifago cultivado HTVC010P. Ambos virus han mostrado altas tasas de reclutamiento de lecturas de secuenciación virómicas, y son considerados como dos de los virus más abundantes a nivel global. Los pasos críticos de la metodología de ddPCR para obtener la abundancia absoluta en muestras víricas ambientales son evaluados en este trabajo. El correcto diseño de primers específicos, la optimización del proceso de PCR o la corrección matemática para su cálculo son algunos de estos relevantes pasos. Teniéndolos todo esto en cuenta, se plantea un procedimiento estándar que permite obtener la abundancia absoluta de cualquier virus a partir de una muestra ambiental. Las abundancias absolutas de ambos virus fueron calculadas en tres muestras ambientales diferentes, dos del Mar Mediterráneo, y una del Atlántico Norte, procedente del Golfo de Maine (Estados Unidos). La pareja de primers empleada con el vSAG 37-F6 fue diseñada siguiendo el procedimiento propuesto en este trabajo, mientras que para el HTVC010P se empleó una pareja de primers obtenida de la bibliografía (Eggleston and Hewson, 2016). Los valores de abundancia obtenidos estuvieron comprendidos entre los valores de 1,270-14,400 virus mL-1 y de 360 a 8,510 virus mL-1 para el HTVC010P y el vSAG 37-F6 respectivamente. La especificidad de los primers empleados fue evaluada mediante la secuenciación de los amplicones obtenidos mediante la tecnología de Illumina. No se observaron amplificaciones inespecíficas con los primers diseñados del vSAG 37-F6, sin embargo, se encontró una sobreestimación del 6% del HTVC010P, con genomas de virus poco relacionados. Este resultado, subraya la importancia de un correcto diseño de primers específicos, que sin embargo se encuentra limitado por las actuales bases de datos víricas disponibles. La comparación de las abundancias absolutas de ambos virus con la abundancia total de virus resultó en bajos valores relativos (menos de1%), a pesar de que ambos virus son considerados de los más abundantes del planeta (Martinez-Hernandez et al., 2017; Zhao et al., 2013). EN este trabajo también se discute como la diversidad y microdiversidad de las poblaciones víricas marinas puede ser el causante de estos bajos valores relativos. IV. From macro to microdiversity: A fine analysis of the diversity of the abundant and widespread vSAG 37-F6 marine virus (Unfinished study) La microdiversidad del genoma del vSAG 37-F6 es el motivo por el cual, a pesar de su alta abundancia, no fue recuperado por las técnicas de virómica (Martinez-Hernandez et al., 2017). Tras analizar el reclutamiento de lecturas de secuenciación virómicas, un elevado número de estas se encontraron por encima del 95% de identidad de nucleótidos. Este hecho refleja que un elevado número de virus similares (al nivel de especie/género) se encuentran dentro de la misma muestra, y por tanto el genotipo del vSAG 37-F6 descubierto por SVGs es un miembro de esta población. La variabilidad de la población del vSAG 37-F6 fue analizada desde un punto de vista más amplio (similar a género) hasta uno más restrictivo (similar a especie). La primera aproximación se realizó mediante la proteína estructural de la cápside codificada por el gen 9 del vSAG 37-F6, considerada como una de las más abundantes de los océanos (Brum et al., 2016). Un alto número de virus, muy diferentes entre ellos, mostraron esta proteína u otras similares. No solamente virus marinos compartían esta proteína, sino que también se encontraron representantes de otros ambientes, como por ejemplo el dulceacuícola. En esta sección también se profundizó en identificar aquellas proteínas más conservadas dentro de la población del vSAG 37-F6, es decir, su genoma core. Cuatro proteínas, dos de ellas anotadas como proteínas hipotéticas, una terminasa y la proteína estructural de la cápside fueron identificadas como aquellas con menor variabilidad entre los genomas más similares al vSAG 37-F6. Se construyeron modelos ocultos de Markov (HMM) de estas proteínas, y se emplearon para buscar virus similares. Por último, se diseñaron primers específicos del vSAG 37-F6 con adaptadores de Illumina para secuenciar sus productos de PCR. Cuatro regiones del genoma de este virus fueron analizadas, empleándose ADN extraído de muestras ambientales de diferentes regiones y profundidades del Mar Mediterráneo. Los amplicones se agruparon al 95% de identidad (agrupación similar a especie (Gregory et al., 2019; Martinez-Hernandez et al., 2017; Roux et al., 2016)), mostrando como el genotipo del vSAG 37-F6 era el dominante en la mayoría de muestras analizadas. Analizando la microdiversidad (amplicones dentro de una misma agrupación) se observó cómo la región del genoma codificante de la proteína estructural era la que menos variabilidad mostró. Este trabajo, todavía sin finalizar, de la (micro-)diversidad del vSAG 37-F6 mostró una alta variabilidad de los virus que contienen la proteína estructural. Algunos de los virus que se encontraban relacionados con el vSAG 37-F6 (mediante el análisis por vContact) fueron obtenidos de viromas dulceacuícolas. Como se discute en el capítulo 2 de la tesis, vSAG 37-F6 infecta a Pelagibacter sp. El grupo bacteriano LD12 son considerados como los “SAR11 dulceacuícolas”, mostrando una historia evolutiva común entre ellos (Bahr et al., 1996; Henson et al., 2018; Salcher et al., 2011). En esta sección se especula sobre si estos virus que contienen una proteína estructural similar a la del vSAG 37-F6 pueden ser posibles virus que infecten a LD12. Sin embargo, para poder contratar esta hipótesis nuevos análisis están siendo llevados a cabo. V. Into the deep: Exploring the deep ocean virosphere using single-virus genomics (Unfinished study) El océano profundo es el más vasto ecosistema de los océanos, que albergando una inmensa cantidad de virus desconocidos. Algunos trabajos (Mizuno et al., 2016; Winter et al., 2014) han analizado la virosfera de estos ambientes mediante técnicas relacionadas con la virómica y librerías de fósmidos. En el primer capítulo de la tesis, se obtuvieron 3 vSAGs de muestras batipelágicas. Esta tesis concluye en su último capítulo con un trabajo y análisis más exhaustivo de la aplicación de la metodología de SVG en muestras marinas de profundidad. Aunque los resultados son preliminares, 64 posibles vSAGs de profundidad fueron secuenciados y ensamblados por esta metodología, procedentes de regiones batipelágicas y de la OMZ del Océano Pacífico, Atlántico Norte y Mar Mediterráneo. Se espera que la aplicación de SVG pueda arrojar luz sobre la oscuridad que reina en la inexplorada virosfera del océano profundo, al igual que lo hizo sobre la superficie marina. Este último capítulo es también un nuevo punto de inicio para optimizar y expandir la aplicación de la metodología de SVG a otros ambientes, como el océano profundo o el viroma humano. La primera, y única hasta la fecha, aplicación de SVG en muestras humanas se encuentra adjuntada como anexo a esta tesis, y en ella el doctorando contribuyó como coautor realizando el análisis bioinformático relacionado con los vSAGs humanos. CONCLUSIONES La metdología de Single-virus genomics (SVGs) ha sido optimizada y aplicada por primera vez en muestras ambientales, permitiéndonos obtener genomas de virus (vSAGs) representativos de los ambientes marinos. En la primera aplicación de SVGs, un total de 44 vSAGs fueron secuenciados e identificados. La anotación de proteínas, el reclutamiento de fragmentos virómicos y el análisis de la red de proteínas confirmo que dichas secuencias se correspondían con genomas víricos. De los 44 vSAGs, 22 de ellos fueron asignados como Caudovirales. La relación de proteínas identifico a 37 de ellos como posibles nuevas especies de virus, y los otros 7 como posibles nuevas especies, pertenecientes a los grupos víricos más cosmopolitas de la virosfera marina. El reclutamiento de fragmentos virómicos mostró que estos vSAGs estaban ampliamente distribuidos y eran muy abundantes en la superficie oceánica a lo largo de los diferentes océanos. En particular, el vSAG 37-F6 fue identificado como el virus más abundante y extendido a nivel global a nivel de género y especie. Virus similares al vSAG 37-F6 fueron detectados también a altas profundidades del Mar Mediterráneo y en otros océanos. El virus vSAG 37-F6 contiene una proteína estructural considerada como la más abundante de la virosfera marina. Proteínas estructurales similares se encuentran altamente distribuidas a lo largo de diferentes sistemas acuáticos. El vSAG 37-F6 presenta una elevada microdiversidad con un gran número de otros virus que coexisten en los mismos ecosistemas y lugares muestreados. Esta alta microdiversidad genómica dificulta el ensamblaje metagenómico de dicho virus, y explica por qué, a pesar de su elevada abundancia, este virus no ha sido descubierto previamente por las técnicas de metagenómica y virómica. Esta limitación no afecta a la metodología de SVGs. La metodología de SVG ha mostrado suficientes evidencias de su enorme potencial para descubrir los virus relevantes de los diferentes ecosistemas. La presencia de virus muy similares al vSAG 37-F6 en 4 genomas amplificados de single-cell (SAGs), obtenidos de diferentes océanos e identificados como Pelagibacter spp identificaron esta población bacteriana como el posible hospedador del vSAG 37-F6. Esta población de virus similares al vSAG 37-F6 identificados en SAGs de Pelagibacter, no están genéticamente relacionados con los Pelagifagos aislados por técnicas de cultivo. La presencia de dos virus similares al vSAG 37-F6 en SAGs de Verrucomicrobia y Bacteroidetes sugiere una amplia diversidad de rango de huéspedes de la población vSAG 37-F6. La aplicación de droplet digital PCR (ddPCR) para calcular la abundancia absoluta del vSAG 37-F6 y el pelagifago aislado por cultivo HTVC010P, mostró a esta técnica como una robusta metodología para cuantificar virus ambientales. El correcto diseño de primers específicos, usando una base de datos vírica lo más completa posible es uno de los principales factores a tener en cuenta para calcular estas abundancias de forma precisa. Las abundancias absolutas de vSAG 37-F6 y HTVC010P, obtenidas por ddPCR estuvieron comprendidas entre 360 and 8,510 virus/mL y 1,270-14,400 virus/mL, respectivamente. Al menos un 6% de sobreestimación fue observada en solamente en el caso del HTVC010P.