Bases de datos en Bioinformática
u la
ien tífica
Contenidos
1. La bioinformática y las bases de datos
2. Las bases de datos en biología molecular
3. Formato de la información almacenada
u la
ien tífica
Introducción a la Bioinformática
2
Información en la era genómica
• El proyecto genoma humano y similares genera un
inmenso flujo de información
• Para poder utilizar esta información, ha de estar
almacenada correctamente
• El acceso a la información almacenada ...
u la
ien tífica
– Ha de ser rápido
– Debe poder hacerse de manera flexible
• Esto es posible gracias a la creación de bases de datos y
distribución vía Internet.
Introducción a la Bioinformática
3
Para que se utilizan las bases de datos ?
• Búsqueda de información.
– Por palabra clave, números de acceso, autores...
• Búsqueda de homologías
•
la
u
– ¿Hay secuencias igual o parecidas a la mía ?
Búsqueda de patrones
ien
tífica
– ¿Mi secuencia contienen
patrones
conocidos?
• Predicciones
– ¿Puedo encontrar proteínas parecidas a la mía, pero con
función conocida?
Introducción a la Bioinformática
4
Aspectos a tener en cuenta
• Los proveedores de recursos
– Centros o organizaciones especializadas en tener y
mantener las bases de datos.
u la
– Hay mucha variedad y contiene información diversa
ien tífica
Las herramientas
• Bases de datos
•
– Para encontrar información en las BD
– Para contrastar secuencias contra las BD
– Para exportar la información
Introducción a la Bioinformática
5
Principales proveedores de recursos
• El National Center for Biotechnology Information (NCBI)
centraliza los bancos de datos y aplicacions de EEUU
• El European Bioinformatics Institute (EBI) realiza una
función similar en Europa
• GenomeNet reune bases de datos diversas en Japón
u la
ien tífica
Introducción a la Bioinformática
6
Principales bases de datos en
u la
Biología Molecular
ien tífica
Tipos de bases de datos
• Existen cientos de BD en número tan elevado que no es
práctico enumerarlas (aunque aquí lo intentan)
• Por el tipo de información que contienen distinguimos
–
–
–
–
–
–
u la
ien tífica
Bases de datos bibliográficas
Bases de datos taxonómicas
Bases de datos de nucleótidos
Bases de datos genómicas
Bases de datos de proteinas
Bases de datos de microarrays
Introducción a la Bioinformática
8
Bases de datos bibliográficas
• Organización de los artículos publicados en la
revistas de ámbito científico.
u la
ien tífica
– Pubmed (NCBI)
– Medline (EBI)
– Biocatalog: organización de los artículos por temáticas
concretas de biología molecular.
Introducción a la Bioinformática
9
Bases de datos taxonómicas
• Son BD que contienen información sobre la clasificación
de los seres vivos
• Esta clasificación es básicamente jerárquica y basada en
información molecular
• Pretende clasificar cualquier organismo del que se posea
como mínimo una secuencia de acidos nucléicos
• Como puede suponerse el proyecto no está libre de
controversia debido a las visiones diferentes que existen en
la comunidad taxonómica
u la
ien tífica
Introducción a la Bioinformática
10
Bases de datos de nucleótidos
• Las bases de datos de ácidos nucleicos reciben las
secuencias de los laboratorios experimentales y las
organizan haciéndolas accesibles a diario a toda la
comunidad científica
• Existen varias BD que intercambian diariamente
su contenido
– Genbank (NCBI)
– EMBL (EBI)
– KEGG (Genome net)
u la
ien tífica
Introducción a la Bioinformática
11
Bases de datos de genomas
• Se encargan de mantener y actualizar las secuencias y las
anotaciones de genomas completos.
– Ensembl (EBI)
– Genome viewer (NCBI)
– Goldenpath (UCSC)
•
u la
Existen también recursos genómicos especializados
ien tífica
–
–
–
–
Transfact: sitios de unión a factores de transcripción.
EST: Expressed Sequence Tags
UTRDB: Untranslated regions
SpliceSitesDB: Pares de señales de splicing
Introducción a la Bioinformática
12
Bases de datos de proteínas
• Secuencias primarias de aminoácidos
– Sin revisión humana
u la
– Con revisión de la anotación
ien tífica
• Trembl (EBI)
• nr (NCBI)
• Swisprot (EBI)
– Bases de datos de proteomas
• Proteome analysis (EBI)
Introducción a la Bioinformática
13
Proteínas (II)
• Estructuras secundarias o dominios. Varían según la fuente
de las proteínas y el análisis que se realiza sobre ellas.
– BLOCKS: Motivos alineados de PROSITE/PRINTS
– PROSITE: Expresiones regulares sobre Swiss-prot
– PRINTS: Conjunto de motivos que definen una familia sobre
Swiss-prot/TrEMBL
– PFAM: Modelos de Markov sobre Swiss-prot
– INTERPRO: Integra la información de muchas bases de datos de
dominios.
u la
ien tífica
Introducción a la Bioinformática
14
Proteínas (III)
• Estructuras tridimensionales de macromoléculas
con las coordenadas en el espacio de cada átomo.
– PDB: Base de datos principal de estructuras
tridimensionales
– CATH: Clasificación de PDB en diferentes grupos
funcionales y estructurales
– MMDB: subset de PDB mantenido por NCBI
– MSD: subset de PDB mantenido por EBI
u la
ien tífica
Introducción a la Bioinformática
15
Bases de datos de microarrays
• Bases de datos con las imágenes y resultados
obtenidos por arrays de expresión.
u la
ien tífica
– ArrayExpress (EBI)
– Riken Expression Array Database
– Eisen Laboratory (Lawrence Berkeley National Lab)
Introducción a la Bioinformática
16
la
u
4. El formato de la información
ien tífica
Introducción a la Bioinformática
17
Estructura de las BD
• La calidad de la información en una base de datos,
está muy relacionas con su estructura
• Este aspecto también es crucial para su eficiencia
y accesibilidad .
• En la actualidad no existe ningún formato único y
estándar, usualmente cada base de datos impone su
propio formato.
u la
ien tífica
Introducción a la Bioinformática
18
Ejemplo entrada Genbank
u la
ien tífica
Introducción a la Bioinformática
19
Ejemplo entrada EMBL
u la
ien tífica
Introducción a la Bioinformática
20
Información sobre los formatos
de las bases de datos
u la
ien tífica
Introducción a la Bioinformática
21
Descargar

Bases de datos en biología molecular