UCSC Genome Browser

De Wikipedia, la enciclopedia libre
UCSC Genome Browser
Tipo Base de datos y navegador genómico en línea
Sede central Universidad de California en Santa Cruz
Sitio web https://genome.ucsc.edu/
Navarro González & al. (2021)[1]

El UCSC Genome Browser es un navegador genómico en línea y descargable, alojado por la Universidad de California, Santa Cruz (UCSC).[2][3][4]​ Es un sitio web interactivo que ofrece acceso a datos de secuencias genómicas de múltiples especies de vertebrados e invertebrados y principales organismos modelo, integrados en una amplia colección de secuencias anotadas. El navegador es un visor gráfico optimizado para un uso rápido e interactivo y es de código abierto, diseñado sobre una base de datos MySQL para una visualización, examen y consulta de datos rápida y a varios niveles. Toda la información relativa a la base de datos, herramientas del navegador, archivos descargables y bibliografía se puede encontrar en el sitio web del grupo de Bioinformática y Genómica de la UCSC.

Historia[editar]

El UCSC Genome Browser comenzó a funcionar en el año 2000 como un recurso para la distribución de los primeros resultados extraídos del Proyecto Genoma Humano, siendo diseñado y mantenido por el estudiante Jim Kent y el profesor de Ciencias de la computación David Haussler de la Universidad de California, Santa Cruz. Fue fundado por el Instituto Médico Howard Hughes y el Instituto Nacional de Investigación del Genoma Humano (NHGRI), uno de los Institutos de Salud de los EE.UU. (NIH). En sus comienzos, el navegador solo mostraba la secuencia ensamblada del primer cromosoma secuenciado del genoma humano. Actualmente, tanto genetistas, biólogos moleculares, médicos, como estudiantes y profesores acceden a la información contenida en este navegador.[5]

Genomas[editar]

Genomas del UCSC Genome Browser

Desde su fundación, el navegador se ha expandido añadiendo genomas de todos los vertebrados e invertebrados para los cuales existe secuencias con alta cobertura,[6]​ incluyendo actualmente genomas de 108 especies . Una alta cobertura es necesaria para el ensamblado de las diferentes secuencias de regiones contiguas. Las secuencias con una menor cobertura se incluyen como alineamientos múltiples en algunos navegadores aunque el estado fragmentado de estos ensamblados los vuelve inapropiados para todos los navegadores genómicos. En la siguiente tabla se muestran los organismos cuyo genoma está disponible en el UCSC Genome Browser.[7]

Especies
Grandes simios Babuino, bonobo, chimpancé, gibón, gorila, humano, orangután
Primates (no simios) Gálago de Garnet, langur chato dorado, lémur ratón gris, macaco Rhesus, mono ardilla boliviano, mono narigudo, mono verde, tarsero, tití común, tupaya de Belanger
Mamíferos (no primates) Alpaca, ardilla de tierra, armadillo de nueve bandas, ballena Minke, bisonte americano, caballo, cerdo, colicorto gris, colugo, conejillo de indias, conejo, damán de El Cabo, delfín, demonio de Tasmania, elefante, erizo, foca monje hawaiana, gato, hámster chino, hurón, kiwi marrón, manatí, megamurciélago, musaraña, oveja, panda, pangolín chino, pequeño murciélago café, perezoso, perro, pika rata canguro, rata topo desnuda, ratón, rata, rinoceronte blanco tenrec, vaca, wallabi
Cordados (no mamíferos) Águila real, bacalao del Atlántico, caimán americano, celacanto, culebra, espinoso, fugu, gallina, lagarto, lamprea, medaka, Nanorana parkeri, pavo, periquito, pez cebra, pinzón cebra, pinzón de tierra mediana, rana de uñas africana, tiburón elefante, Tetraodon, tilapia del Nilo, tortuga pintada, Xenopus tropicalis
Invertebrados Anopheles gambiae, Apis mellifera, ascidia, Caenorhabditis spp (5), Ciona intestinalis, Drosophila spp. (11), erizo de mar, lanceta, levadura Liebre de mar, Pristionchus pacificus
Virus Coronavirus SARS-CoV-2, Ebolavirus

Además de estas 108 especies y sus genomas, el UCSC Genome Browser también ofrece la herramienta Assembly hubs, un conjunto de directorios en línea con datos genómicos que pueden ser visualizados en el navegador e incluyen genomas que no están incluidos nativamente en la base de datos de la UCSC. Los usuarios pueden subir y anotar genomas únicos, para los cuales la UCSC no ofrece datos de anotación. Se puede consultar una lista completa de especies y sus genomas en el portal GenArk, incluyendo hasta 2 589 genomas compartidos entre las bases de datos de UCSC Genome Browser y Assembly Hubs. Un ejemplo disponible en la plataforma es el Proyecto de Genomas de Vertebrados.

Funcionalidades[editar]

La producción actual de datos masivos de sistemas biológicos en la bibliografía científica hace necesario el uso de herramientas bioinformáticas para su colección y análisis. El UCSC Genome Browser ofrece una amplia colección de conjuntos de datos anotados, denominados tracks y presentados visualmente, los cuales incluyen alineamientos de ARNm, secuencias de elementos repetitivos en ADN, predicción de genes, datos de expresión génica, datos de asociación gen-enfermedad y secuencias de chips de genes disponibles en el mercado (ej.: Illumina y Agilent). La visualización de datos en el navegador se basa en mostrar las secuencias genómicas horizontalmente, indicando las representaciones gráficas y localización de los ARNm, genes etc. A lo largo del eje de coordenadas, hay bloques de colores indicando la localización de los alineamiento de diferentes tipos de datos. La capacidad del navegador para mostrar una gran variedad de datos de manera compacta y fácil de visualizar lo convierte en una herramienta muy útil para la integración de datos.[8]

Para localizar una región o gen concretos, el usuario puede buscar por nombre, secuencia de ADN, un identificador específico de ARN, el nombre de una banda citológica (ej.: 20p13 para la banda 13 en el brazo corto del cromosoma 20), o por posición en un cromosoma (ej.: chr17:38,450,000-38,531,000 para buscar la región entorno al gen BRCA1).

El navegador también ofrece enlaces para acceder a información más detallada sobre la anotación de cualquier región. La sección de detalles en el track Genes ofrece una gran cantidad de enlaces a información específica sobre genes extraída de otras bases de datos, como OMIM y SwissProt.

A su vez, el navegador también está optimizado para un acceso de alta velocidad de los datos. Por ejemplo, es posible tener un acceso directo a los alineamiento de cualquier ARN con cualquiera de las especies disponibles mediante el pre-alineamiento de millones de secuencias de ARN procedentes de GenBank contra cada uno de los 244 genomas disponibles (muchas de las 108 especies tienen más de una versión de su genoma).

Transcritos del gen FOXP2 (arriba) y conservación evolutiva que se muestran en alineamiento múltiple (abajo)

La yuxtaposición de múltiples tipos de datos permite a los investigadores visualizar la combinación de datos exacta que puede responder a sus consultas. Es posible exportar la información en formato imagen pdf/postscript para publicación en revistas científicas.

Una funcionalidad única y útil que distingue al UCSC Genome Browser de otros navegadores genómicos es la gran flexibilidad y variedad de maneras de visualización de datos. Cualquier secuencia de cualquier longitud se puede visualizar, desde un único nucleótido de ADN hasta un cromosoma completo con sus respectivos tracks de anotación biológica (ej.: el cromosoma 1 humano tiene una longitud de 245 millones de bases, Mb). Los investigadores pueden seleccionar un solo gen, un exón o una banda cromosómica, mostrando docenas o cientos de genes con cualquier combinación de tracks disponibles. Se puede aumentar/reducir el zum hasta en pantalla completa, así como arrastrar las coordenadas a diferentes regiones en el genoma.

Otra funcionalidad útil para los investigadores es la posibilidad de subir sus propios conjuntos de datos al navegador mediante la herramienta Custom Tracks. Esta permite customizar la información con datos propios en el contexto de un genoma de referencia. Los usuarios también pueden utilizar los datos contenidos por la UCSC, creando subconjuntos de datos que sean de interés mediante la herramienta Table Browser (por ejemplo, los SNPs que cambian la secuencia de aminoácidos de una proteína) y mostrarlos de manera personalizada como Custom Tracks.

Cualquier visualización de datos creada por los usuarios, incluidos los Custom Tracks, pueden ser compartidos con otros usuarios mediante la herramienta Saved Sessions.

Tracks[editar]

Tracks del UCSC Genome Browser para las categorías: Mapeo y secuenciación, genes y predicciones de genes, fenotipo y literatura, COVID-19, secuencia de ARN de una sola célula, ARNm y EST.
Tracks del UCSC Genome Browser para las categorías: Regulación, genómica comparativa, variación, repeticiones

En las imágenes se puede ver todas las categorías de tracks adicionales disponibles en el navegador, los cuales se pueden colocar en paralelo a los datos originales del navegador. Estas categorías son: mapeado y secuenciación, genes y predicción de genes, fenotipo y bibliografía, ARNm y EST, expresión génica, regulación, genómica comparativa, variación genética y repeticiones.

Categorías
Categoría Descripción Ejemplos de Tracks
Mapeo y Secuenciación Permiten modificar el estilo de los datos (ej.: coordenadas genómicas, huecos en alineamientos etc.). Los usuarios pueden visualizar porcentajes de prevalencia de elementos genómicos en un área concreta. Base Position . Mappability , Gap
Genes y predicciones de genes Ofrecen herramientas para predicción de genes y bases de datos origen de los datos. Los diferentes Tracks permiten al usuario visualizar modelos de genes, regiones codificantes de proteínas, ARNs no codificantes etc. Es posible comparar rápidamente secuencias propias con conjuntos preseleccionados de genes para buscar correlaciones entre diferentes genes conocidos. GENCODE v24, Geneid Genes, Pfam in UCSC Gene
Fenotipo y Literatura Ofrece acceso a bases de datos bibliográficas sobre fenotipos. Estos Tracks están enfocados para médicos y otros profesionales interesados en desórdenes genéticos (ej.: genetistas, estudiantes de ciencias y medicina. Los usuarios pueden visualizar las posiciones genómicas de variantes genéticas naturales y artificiales. OMIM Alleles, Cancer Gene Expr Super-track
COVID-19 Incluye datos procedentes de estudios de asociación del genoma completo (GWAS) y experimentos de identificación de variantes genéticas para identificar variantes asociadas con la severidad y susceptibilidad a la enfermedad del COVID-19. COVID GWAS v3, COVID GWAS v4, Rare Harmful Vars
Secuencia de ARN de una sola célula Comprende datos de expresión de ARN de célula única (scARN-Seq) de diferentes tejidos humanos (ej.: riñón, colon, corazón, músculo, placenta, células mononucleares de sangre periférica etc.). Blood(PBMC), Heart Cell Atlas, Colon Wang
ARNm y EST Datos de marcadores de secuencia expresada (ESTs) y ARN mensajero. Los ESTs son secuencias típicamente de 500 bases de longitud y usualmente representan fragmentos de genes transcritos. Los Tracks de ARNm permiten visualizar fragmentos de ARNm alineados con el genoma human, así como de otras especies. Los Tracks de ESTs permiten comparar regiones que muestran señales de splicing del ARNm al alinearlas con el genoma. Human ESTs, Other ESTs, Other mRNAs
Expresión Ofrece datos genéticos y datos relacionados de expresión en diferentes tejidos. Los usuarios puede comprobar si un gen concreto o secuencia se expresa en diferentes tejidos a lo largo del cuerpo. Se puede ver datos consenso de expresión de secuencias propias. GTEx Gene, Affy U133
Regulación Información relevante sobre regulación de la transcripción a partir de diferentes estudios. Los usuarios pueden ajustar los Tracks para añadir gráficos en el navegador. Esto permite un análisis detallado de regiones reguladoras, sitios de unión de factores de transcripción, sitios de unión de ARN, variantes reguladoras, haplotipos y otros elementos reguladores. ENCODE Regulation Super-track Settings, ORegAnno
Genómica Comparada Ofrece datos de conservación de secuencias, incluyendo primates, vertebrados, mamíferos, entre otros organismos. Los alineamientos permiten comparar visualmente relaciones evolutivas entre especies. Esto lo convierte en una herramienta útil para investigadores para visualizar niveles de conservación y hacer predicciones de elementos funcionales en regiones de ADN desconocidas; A su vez, es útil para estudiantes para comprobar los argumentos básicos de la teoría de la evolución de las especies. El Track Conservation en el genoma humano muestra de manera clara que, conforme se retrocede evolutivamente (este track incluye datos de 100 especies), menos secuencias homólogas permanecen, pero regiones de importancia funcional en el genoma (ej.: exones y elementos reguladores, pero típicamente no intrones) se conservan mucho más en las especies más antiguas. Conservation, Cactus 241-way, Cons 30 Primates
Variación Permite comparar variantes genéticas conocidas en las secuencias, por ejemplo: cada actualización de la base de datos dbSNP del NCBI informa sobre variantes en genomas humano, murino y de otras especies, incluyendo los obtenidos en el Proyecto 1000 Genomas Otros tipos de datos de variantes genéticas incluyen variantes en el número de copias (CNV) y frecuencias alélicas en poblaciones humanas, extraídas del Proyecto HapMap. Common SNPs (150), All SNP (146), Flagged SNPs (144)
Repeticiones Permite consultar diferentes tipos de secuencias repetidas de manera rápida, pudiendo configurar la búsqueda o los Tracks de búsqueda. RepeatMasker, Microsatellite, WM + SDust

Herramientas de análisis[editar]

El sitio web también ofrece herramientas de análisis genómicos, incluyendo una interfaz gráfica completa para buscar información en el navegador, la herramienta BLAT[9]​ para alineamientos múltiples de secuencias formato FASTA contra cualquiera de las secuencias masivas de los genomas guardados en la base de datos (ej.: genoma humano = 3 230 millones de bases (Gb)).

La herramienta LiftOver permite la conversión entre diferentes versiones de un genoma de referencia de una especie o incluso entre especies. La herramienta Genome Graphs permite a los usuarios visualizar todos los cromosomas a la vez y ver los resultados de estudios de GWAS. El Gene Sorter muestra genes agrupados por parámetros no asociados a la localización en el genoma, por ejemplo: los patrones de expresión en tejidos.

Acceso libre / espejos[editar]

El navegador es de código y acceso libre, sin uso comercial, y tiene sitios web espejos locales para múltiples grupos de investigación, permitiendo la visualización privada de los datos públicos. El UCSC Genome Browser tiene dos sitios web espejo a nivel mundial, mostrados en la tabla.

Sitios web espejo oficiales
Servidor europeo ---- mantenido por UCSC en la Universidad de Bielefeld, Alemania
Servidor asiático ---- mantenido por UCSC en RIKEN, Yokohama, Japón

El código del navegador también se utiliza en instalaciones separadas por otros navegadores genómicos, el UCSC Malaria Genome Browser y el Archaea Browser.

Véase también[editar]

Referencias[editar]

  1. Navarro Gonzalez, J; Zweig, AS; Speir, ML; Schmelter, D; Rosenbloom, KR; Raney, BJ; Powell, CC; Nassar, LR; Maulding, ND; Lee, CM; Lee, BT; Hinrichs, AS; Fyfe, AC; Fernandes, JD; Diekhans, M; Clawson, H; Casper, J; Benet-Pagès, A; Barber, GP; Haussler, D; Kuhn, RM; Haeussler, M; Kent, WJ (8 de enero de 2021). «The UCSC Genome Browser database: 2021 update.». Nucleic Acids Research 49 (D1): D1046-D1057. ISSN 0305-1048. PMC 7779060. PMID 33221922. doi:10.1093/nar/gkaa1070. 
  2. Fujita, Pauline A.; Rhead, Brooke; Zweig, Angie S. (Enero de 2011). «The UCSC Genome Browser database: update 2011». Nucleic Acids Res. 39 (Database issue): D876-82. PMC 3242726. PMID 20959295. doi:10.1093/nar/gkq963. Consultado el 23 de septiembre de 2022. 
  3. Kent, W. James; Sugnet, Charles W.; Furey, Terrence S.; Roskin, Krishna M.; Pringle, Tom H.; Zahler, Alan M.; Haussler, David (Junio de 2002). «The human genome browser at UCSC». Genome Res. 12 (6): 996-1006. PMC 186604. PMID 12045153. doi:10.1101/gr.229102. Consultado el 23 de septiembre de 2022. 
  4. Kuhn, R. M.; Karolchik, D.; Zweig, A. S.; Wang, T.; Smith, K. E.; Rosenbloom, K. R.; Rhead, B.; Raney, B. J. et al. (1 de enero de 2009). «The UCSC Genome Browser Database: update 2009». Nucleic Acids Research (en inglés) 37 (Database): D755-D761. ISSN 0305-1048. PMC 2686463. PMID 18996895. doi:10.1093/nar/gkn875. Consultado el 23 de septiembre de 2022. 
  5. «History | Genomics Institute». genomics.ucsc.edu (en inglés). Consultado el 7 de agosto de 2022. 
  6. "Alta cobertura" significa aquí una cobertura 6x, en otras palabras, un número de secuencias seis veces mayor que la longitud total del genoma.
  7. «UCSC Genome Browser: Acknowledgments». genome.ucsc.edu. Consultado el 27 de julio de 2022. 
  8. Navarro Gonzalez, Jairo; Zweig, Ann S.; Speir, Matthew L.; Schmelter, Daniel; Rosenbloom, Kate R.; Raney, Brian J.; Powell, Conner C.; Nassar, Luis R. et al. (8 de enero de 2021). «The UCSC Genome Browser database: 2021 update». Nucleic Acids Research 49 (D1): D1046-D1057. ISSN 1362-4962. PMC 7779060. PMID 33221922. doi:10.1093/nar/gkaa1070. Consultado el 7 de agosto de 2022. 
  9. Kent, WJ. (Abril de 2002). «BLAT - the BLAST-like alignment tool». Genome Res 12 (4): 656-64. PMC 187518. PMID 11932250. doi:10.1101/gr.229202. Consultado el 23 de septiembre de 2022.