Eines bioinformàtiques i estadístiques per
a la investigació biomèdica
Bioinformàtica bàsica:
Bases de dades en Biología Molecular
Israel Ortega i Alex Sánchez
Unitat d’Estadística i Bioinformàtica
03/10/2015
Israel Ortega i Alex Sánchez
1
We are drowning in information and
starved for knowledge
John Naisbitt
Who on efficient work is bent,
Must choose the fittest instrument.
Goehthe (Fausto)
03/10/2015
Israel Ortega i Alex Sánchez
2
Esquema de la presentación
I.
¿Qué es la Bioinformática?
II. Bases de datos en Biologia Molecular
•
•
•
Tipos de bases de datos.
Herramientas de consulta.
Ejemplos.
III. Búsqueda de homologías: BLAST
•
•
•
03/10/2015
Motivación.
Alineamientos por parejas.
BLAST
Israel Ortega i Alex Sánchez
3
II. Bases de datos en
Biología Molecular
03/10/2015
Israel Ortega i Alex Sánchez
4
Información en la era genómica
• Era genómica: cantidades
masivas de información.
• Para poder utilizar esta
información, ha de estar
almacenada correctamente
• El acceso a la información
– Ha de ser rápido
– Debe poder hacerse de
manera flexible
• Esto es posible gracias a la
– Creación de bases de datos
– Su distribución vía Internet
03/10/2015
Israel Ortega i Alex Sánchez
5
Distintos usos de las BD
• Búsqueda de información.
– Por palabra clave, números de acceso, autores...
• Búsqueda de homologías
– ¿Hay secuencias iguales o similares a la mía?
• Búsqueda de patrones
– ¿Mi secuencia contienen patrones conocidos?
• Predicciones
– ¿Puedo encontrar proteínas parecidas a la mía,
pero con función conocida?
03/10/2015
Israel Ortega i Alex Sánchez
6
Aspectos a tener en cuenta
Organizacion de
la informacion
Proveedores
de recursos
03/10/2015
Bases de
datos
Israel Ortega i Alex Sánchez
Herramientas
7
Principales proveedores de recursos
• El National Center for Biotechnology
Information (NCBI) centraliza los bancos de
datos y aplicacions de EEUU
• El European Bioinformatics Institute (EBI)
realiza una función similar en Europa
• GenomeNet reune bases de datos diversas en
Japón
03/10/2015
Israel Ortega i Alex Sánchez
8
Tipos de bases de datos
• Existen cientos de BD en número tan elevado
que no es práctico enumerarlas (aunque aquí
lo intentan)
• Podemos clasificarlas según múltiples criterios
• Curiosamente la organización del EMBL y del
NCBI es radicalmente distinta
03/10/2015
Israel Ortega i Alex Sánchez
9
Tipos de BD en EMBL / NCBI
• NCBI
• EMBL
–
–
–
–
–
–
–
03/10/2015
BD bibliográficas
BD taxonómicas
BD de nucleótidos
BD genómicas
BD de proteínas
BD de microarrays
Otras BD
–
–
–
–
–
–
Israel Ortega i Alex Sánchez
Pubmed
Entrez
OMIM
Books
TaxBrowser
Structure
10
Bases de datos bibliográficas
• Organización de los
artículos publicados
en la revistas de
ámbito científico.
– Pubmed (NCBI)
– Medline (EBI)
– Biocatalog:
organización de los
artículos por
temáticas concretas
de biología molecular.
03/10/2015
Israel Ortega i Alex Sánchez
11
Bases de datos taxonómicas
• Información sobre la
clasificación de los seres
vivos
– básicamente jerárquica
– y basada en información
molecular
• Para clasificar cualquier
organismo del que se
posea como mínimo una
secuencia de Acidos
Nucleicos
• Proyecto no libre de
controversia entre la
comunidad taxonómica
03/10/2015
Israel Ortega i Alex Sánchez
12
Bases de datos de nucleótidos
• Secuencias de los laboratorios experimentales
• Actualización diaria
• Intercambian diariamente su contenido
– Genbank (NCBI)
– EMBL (EBI)
– KEGG (Genome net)
03/10/2015
Israel Ortega i Alex Sánchez
13
Bases de datos de genomas
• Secuencias y anotaciones
de genomas completos.
– Ensembl (EBI)
– Genome viewer (NCBI)
– Goldenpath (UCSC)
• También recursos
genómicos especializados
–
–
–
–
Transfact
EST
UTRDB
SpliceSitesDB
03/10/2015
Israel Ortega i Alex Sánchez
14
Bases de datos de proteínas
• Secuencias primarias
de aminoácidos
– Sin revisión humana
• Trembl (EBI)
• nr (NCBI)
– Con revisión de la
anotación
• Uniprot (EBI)
– Bases de datos de
proteomas
• Proteome analysis
(EBI)
03/10/2015
Israel Ortega i Alex Sánchez
15
BD secundarias de proteínas
• Estructuras secundarias
o dominios.
• Varían según la fuente de
las proteínas y el análisis
que se realiza sobre
ellas.
–
–
–
–
–
BLOCKS
PROSITE
PRINTS
PFAM
INTERPRO: Integra la
información de muchas
bases de datos de
dominios.
03/10/2015
Israel Ortega i Alex Sánchez
16
BD de estructuras 3D de proteinas
• Estructuras 3D con las
coordenadas de cada
átomo.
– PDB: Base de datos
principal de estructuras
tridimensionales
– CATH: Clasificación de
PDB en diferentes grupos
funcionales y estructurales
– MMDB: subset de PDB
mantenido por NCBI
– MSD: subset de PDB
mantenido por EBI
03/10/2015
Israel Ortega i Alex Sánchez
17
Bases de datos de microarrays
• Resultados obtenidos
por arrays de
expresión.
– ArrayExpress (EBI)
– caArray
– Gene Expression
Omnibus
03/10/2015
Israel Ortega i Alex Sánchez
18
Otras bases de datos
• Anotaciones
– Gene Ontology
– KEGG
– Gene Cards
• Dianas terapeuticas
– Therapeutic targets
database
– PharmKGB
03/10/2015
Israel Ortega i Alex Sánchez
19
Entrez databases
03/10/2015
Israel Ortega i Alex Sánchez
20
Listado de bases de datos
biológicas
Nucleic Acids Research Database Listing
– Annual Database issue
http://www.oxfordjournals.org/nar/database/c/
– Suplemento en el número de enero de cada año
– 2009 describe 179 bases de datos (95 nuevas) que
cumplen unos criterios mínimos de calidad.
– Se añaden a la lista de Nucleic Acids Research online
Molecular Biology Database Collection (1170 en total)
– Son un buen punto de partida para seleccionar la base de
datos adecuada
03/10/2015
Israel Ortega i Alex Sánchez
21
Listado de bases de datos (NAR)
• Las bases de datos se ordenan en diferentes
categorías.
• La relación de bases de datos se entrega como
información adicional.
03/10/2015
Israel Ortega i Alex Sánchez
22
Estructura de las BDB
• La forma de organizar los datos en
cualquier BD depende del modelo o
arquitectura en que se base.
• Hay múltiples modelos
[Relacional, Jerárquico, en Red, …]
pero el más habitual es el relacional
– Múltiples tablas relacionadas entre ellas
– Mediante campos clave.
03/10/2015
Israel Ortega i Alex Sánchez
23
Formatos de datos en las BDB
• El trabajar con BD relacionales
comporta que se utilicen formatos de
datos planos
– Archivos de texto
– Con algun tipo de etiqueta para indicar el
contenido de cada linea o región del
archivo.
• Existen múltiples formatos y los
programas deben poder reconocerlos e
intercambiarlos.
03/10/2015
Israel Ortega i Alex Sánchez
24
Formatos de secuencias: FASTA
Seqüència
1a línia: descripció
Símbol fasta
Identificador
Comentaris
>gi|15341523|gb|AF405321.1| Human echovirus 29 strain JV-10 5' UTR,
partial sequence
CAAGCACTTCTGTTTCCCCGGACTGAGTATCAATAGACTGCTCACGCGGTTGAAGGAGAAAACGTTCGTT
ATCCGGCCAACTACTTCGAGAAACCTAGTAACGCCATGGAAGTTGTGGAGTGTTTCGCTCAGCACTACCC
CAGTGTAGATCAGGTTGATGAGTCACCGCATTCCCCACGGGTGACCGTGGCGGTGGCTGCGTTGGCGGCC
TGCCCATGGGGAAACCCATGGGACGCTCTTATACAGACATGGTGCGAAGAGTCTATTGAGCTAGTTGGTA
GTCCTCCGGCCCCTGAATGCGGCTAATCCCAACTGCGGAGCATACACTCTCAAGCCAGAGGGTAGTGTGT
CGTAATGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT
>gi|15341527|gb|AF405325.1| Human echovirus 6 strain D' Amori 5' UTR,
partial sequence
CAAGCACTTCTGTTTCCCCGGACCGAGTATCAATAAGCTGCTCACGCGGCTGAAGGAGAAAGTGTTCGTT
ACCCGGCTAGTTACTTCGAGAAACCTAGTACCACCATGAAGGTTGCGCAGCGTTTCGCTCCGCACAACCC
CAGTGTAGATCAGGTCGATGAGTCACCGCGTTCCCCACGGGCGACCGTGGCGGTGGCTGCGTTGGCGGCC
TGCCCATGGGGCAACCCATGGGACGCTTCAATACTGACATGGTGCGAAGAGTCTATTGAGCTAACTAGTA
GTCCTCCGGCCCCTGAATGCGGATAATCTTAACTGCGGAGCAGGTGCTCACAATCCAGTGGGTGGCCTGT
CGTAACGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT
03/10/2015
Israel Ortega i Alex Sánchez
25
Ejemplo entrada Genbank
03/10/2015
Israel Ortega i Alex Sánchez
26
Ejemplo entrada EMBL
03/10/2015
Israel Ortega i Alex Sánchez
27
Entrada de información
• Muchas BD biológicas son públicas y
cualquier usuario suele poder contribuir
con nuevos datos.
• Se pueden enviar múltiples tipos de
datos pero los más habituales son
– Secuencias
– Experimentos de microarrays
–…
03/10/2015
Israel Ortega i Alex Sánchez
28
Contribución de secuencias
• Enviar información a EMBL
– http://www.ebi.ac.uk/embl/Submission/
• Como enviar información a GeneBank
– http://www.nlm.nih.gov/pubs/factsheets/sd
genbk.html
03/10/2015
Israel Ortega i Alex Sánchez
29
Contribución de datos de expresión
• Enviar información a ArrayExpress (EBI)
– http://www.ebi.ac.uk/microarray/submission
s.html
• Enviar información a GEO (NCBI)
– Se explica en las FAQs de GEO/
03/10/2015
Israel Ortega i Alex Sánchez
30
III. Motores de busqueda en
bases de datos
03/10/2015
Israel Ortega i Alex Sánchez
31
SRS
• Sequence Retrieval System
• Es el sistema de recuperación de la
información disponible en el EBI.
• Realiza búsquedas
– en las bases de datos seleccionadas
– A partir de criterios especificados por el
usuario
• Permite definir vistas propias, combinar
consultas y vincular resultados de la
búsqueda a otras BD.
03/10/2015
Israel Ortega i Alex Sánchez
32
Entrez
• Es el sistema de búsqueda disponible en
el NCBI.
• Gran potencia y versatilidad pero
menos intuitivo que SRS
– No dispone de formularios para cada campo
• Suele utilizarse en estilo “TopBottom”
– Realizar una consulta
– Refinar los resultados hasta encontrar lo
que se busca.
03/10/2015
Israel Ortega i Alex Sánchez
33
Ejemplos de búsqueda con SRS/Entrez
1.
03/10/2015
Estamos interesados en el gen MLH1 humano,
implicado en el cáncer de colon
1.
Separar el grano de la paja: identificar una secuencia de
mRNA representativa y bien anotada del gen MLH1.
2.
Obtener literatura asociada y su secuencia potéica.
3.
Identificar proteínas similares.
4.
Identificar dominios conservados dentro de la proteína.
5.
Identificar mutaciones conocidas en el gen o la proteína.
6.
Encontrar la estructura tridimensional de la proteína, si
esta es conocida, o si no es así, identificar estructuras de
secuencia homóloga.
7.
Ver el contexto genómico del gen y descargar la región
que lo contiene.
Israel Ortega i Alex Sánchez
34
Ejemplo con SRS
03/10/2015
Israel Ortega i Alex Sánchez
35
Inicio de sesión
• Tras iniciar la sesión se accede a la
página principal Top Page
• Desde esta pagina es posible…
– Seleccionar la base de datos donde buscar
• Puede seleccionarse todo (“all”), uno o más
bancos (“Uniprot”, “EMBL”,…) o subconjuntos
de estos (“TrEMBL”,…)
– Realizar consultas sencillas (“Quick search”)
mediante un solo término
03/10/2015
Israel Ortega i Alex Sánchez
36
Inicio de SRS y búsqueda
rápida:
03/10/2015
Israel Ortega i Alex Sánchez
37
Búsqueda estándar
• Más completa
• Permite combinar campos y términos
–
–
–
–
–
Elegir “Standard Query”
Introducir términos de búsqueda
Seleccionar campos donde buscar
Combinar con AND / OR…
Seleccionar formato de salida
• En vez de la anterior se puede, p.ej. buscar
– Description = “Prion” AND Organism = “Bovin”
– Pasamos a obtener 10 resultados
03/10/2015
Israel Ortega i Alex Sánchez
38
Busca estándar: Entrada
03/10/2015
Israel Ortega i Alex Sánchez
39
Busca estándar: resultados
03/10/2015
Israel Ortega i Alex Sánchez
40
Visualización de los resultados
• Haciendo doble clic sobre los resultados
se accede a la información contenida en
la BD de donde procede
• Es posible visualizar los resultados en
distintos formatos
• Si, por ejemplo, deseamos proseguir
con los análisis podemos obtener la
secuencia en formato FASTA
seleccionando FastaSeq en el menú
View
03/10/2015
Israel Ortega i Alex Sánchez
41
Resultados en formato FASTA
03/10/2015
Israel Ortega i Alex Sánchez
42
Ejemplo con ENTREZ
03/10/2015
Israel Ortega i Alex Sánchez
43
Ejemplo Entrez - 1
Pas 1: Cerca de “colon cancer”  > 10,000 resultats!!!
03/10/2015
Israel Ortega i Alex Sánchez
44
Ejemplo Entrez - 1
Pas 2: Buscar per gen i organisme  20 resultats... molt millor!
Israel si
Ortega
i Alexés
Sánchez
(tot03/10/2015
i que podem tenir problemes
el gen
conegut per molts sinònims 45
diferents)
Ejemplo Entrez - 1
Pas 3: Limitar la cerca a seqüències de referència (RefSeq)  3 resultats!
03/10/2015
Israel Ortega i Alex Sánchez
46
Descargar

Diapositiva 1