Anotación Automática
Dante Travisany
Temas
• Pipeline
• Tools
• Bases de Datos
• Conceptos
• Ejemplos
• Ensembl
Identificación del Problema
• Virus : 15 – 20
• Bacteria 3000 - 5000
• Eucariontes: sobre los 10000
Pipeline
Pipeline
• Unix
• Símbolo: |
• Segmentación
Tools
•
•
•
•
•
•
•
•
•
•
•
•
•
BLAST
InterProScan
AmiGO
Pathway Tools
Infernal
Glimmer
Critica
GeneMark
GeneWise
BedTools
Samtools
GenomicTools
KEGG-API
Base de Datos
BLAST DB Protein
-KEGG
-PRIAM
-SWISSPROT
-UNIPROT
-NR
BLAST DB Nucleotide
- NT
- REFSEQ
- RDP
InterProScan - Databases
-
Pfam
SSF
Gene3D
TIGRfam
Nuevo Problema
• Gran cantidad de bases de datos.
• Errores en Anotación, doble anotación.
• Necesidad de Crear un vocabulario Controlado
• Gene Ontology, UniPROT, SwissPROT, InterProScan.
• Capacidad de realizar referencias cruzadas en las bases
de datos.
Algunos Conceptos Importantes
• Gene Name
• Vocabulario Controlado
• IFAA
GeneName:
Para cada Organismo existen gene names
particulares, según la base de datos de
Referencia.
HUGO:
www.genenames.org
Gene Ontology Consortium
Gene Ontology:
Proyecto colaborativo entre variadas instituciones.
Vocabulario:
Estructurado
Preciso
Común
Controlado
Permite describir los roles de los genes y los productos génicos en
cualquier organismo.
División Gene Ontology
• Proceso Biológico
• Función Molecular
• Componente Celular
COG - KOG
Idea
• Filtrar por bases de datos
• Generar una rutina automática capaz de iterar
el proceso, para cada set de genes.
Tools & Databases
Unknown
No
Si
Evidencia
Significativa?
Almacenar
BLAST
NR
No
Si
Evidencia
Significativa?
Almacenar
Uniprot
Bacteria
BLAST
No
Si
Evidencia
Significativa?
Almacenar
BLAST
SwissProt
No
Si
Evidencia
Significativa?
BLAST
Almacenar
KEGG
Resumen
• Hasta ahora, se han visto:
NGS sequencing.
Assembly.
Gene Prediction.
Annotation (Databases).
Automatic Annotation
Caso Transcriptómica
Nannochloropsis salina
transcriptomics
Z
Cytoskeleton
Y
Nuclear structure
V W
Extracellular structures
U
Intracellular trafficking, secretion, and vesicular transport
T
Signal transduction mechanisms
S
Function unknown
R
General function prediction only
Q
Secondary metabolites biosynthesis, transport and catabolism
P
Inorganic ion transport and metabolism
KOG Category
L M N O
Posttranslational modification, protein turnover, chaperones
K
Transcription
J
Translation, ribosomal structure and biogenesis
I
Lipid transport and metabolism
H
Coenzyme transport and metabolism
G
Carbohydrate transport and metabolism
F
Nucleotide transport and metabolism
E
Amino acid transport and metabolism
D
Cell cycle control, cell division, chromosome partitioning
C
Energy production and conversion
B
Chromatin structure and dynamics
A
KOG Category N.salina v/s C.reindhardtii
RNA processing and modification
Defense mechanisms
Cell motility
Cell wall/membrane/envelope biogenesis
N.salina
Replication, recombination and repair
C.reindhartii
0
5
10
15
Category Percentage
20
25
GenDB
– Automatic Annotation System for Prokaryotic
genomes
• Development for the University of Bielefeld
since 2002.
• Modular system developed using an OOP and
a relational database (O2DBI).
• Provide an Application program Interface
(API).
23
GenDB
•
24
Folker Meyer et all. GenDB an open source genome annotation system for prokaryote genomes. Nucleic Acids Research,2003
GenDB
Pipeline
25
25
GenDB
26
Ensembl
• Inicio:1999
• Objetivo: generar herramientas de anotación
automática.
Ensembl Pipeline.
• Website:
http://www.ensembl.org/
Galaxy
• Workflows, para NGS sequence, web based.
http://galaxy.psu.edu/
Descargar

Anotación Automática por métodos comparativos