Predicción de genes
u la
ien tífica
Genís Parra
Contenido de la presentación
1.
2.
3.
4.
5.
6.
¿Es realmente necesario ?
Introducción biológica
Predicción “in silico” , principales problemas
¿De qué información disponemos?
Medidas de fiabilidad
Fiabilidad actual: GASP1
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
2
1. ¿Es realmente necesario ?
u la
Anotación del ien
genomatífica
humano.
Genís Parra
Numero de genes en el chromosoma 22
• initial annotation
545
Dunham et al., 1999
• genscan+RT-PCR
590
Das et al., 2001
• genscan+microarrays
730
Shoemaker et al., 2001
• reviewed annotation 726
chr22 team, sanger, 2001
• mouse shotgun data +20
(our data)
• geneid predictions
u la
ien tífica
794
• genscan predictions 1128
Introducción a la Bioinformática
Genís Parra
4
Numero de genes del genoma humano
• Consortium
30.000-40.000 2001
• Celera
27.000-38.000 2001
• Consortium+Celera
50.000
u la
ien tífica
Hogenesch et al. 2001
• DBsearches
65.000-75.000 Wrigth et al., 2001
• HumanGenomeSciences
90.000-120.000
Introducción a la Bioinformática
Haseltine, 2001
Genís Parra
5
2. Introducción biológica
u la
Del DNA aien
las proteínas
tífica
Genís Parra
Dogma central de la biología
• Transcripción. Las regiones promotoras contienen señales que
son reconocidas por los factores de transcripción. Interacciones
entre estos, activan la copia de una de las dos cadenas de DNA a
RNA por una RNA polimerasa.
• Splicing. Los intrones, regiones no codificantes, son eliminados
del tránscrito primario, produciendo una molécula mas corta de
RNA, conocido como RNA mensajero (mRNA).
• Traducción. El ribosoma se une al codón inicial del mRNA, y
recorre la secuencia sintetizando la cadena de aminoácidos
especificada por codones consecutivos hasta que encuentra un
codón de finalización.
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
7
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
8
Predicción de genes “in silico”
Deducir la secuencia de aminoácidos codificada
en una cadena de DNA genómico, generando
modelos computacionales para reproducir el
mecanismo biológico que ocurre en la célula.
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
9
Predicción en genomas procariotas
La predicción de genes en los genomas procariotas es mas
simple debido principalmente a :
u la
ien
tífica
Estas propiedades implican que la mayoría de pautas de
• Ausencia de intrones en los genes.
• Alta densidad de genes.
lectura abiertas(ORFs), mas largas de un razonable
“cutoff”, corresponden a genes.
Introducción a la Bioinformática
Genís Parra
10
Predicción en genomas eucariotas
• Los genes están separados por largas regiones intergénicas.
• Las regiones codificantes están divididas en un número
“usualmente grande” de “pequeños” fragmentos codificantes
conocidos como exones, separados por “largas” regiones no
codificantes conocidas como intrones.
• Las señales que existen no están 100% conservadas y en muchos
casos no tenemos suficiente conocimiento del proceso biológico.
• En algunos genomas eucariotas existe una gran densidad de
elementos repetitivos, que pueden contener regiones
codificantes.
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
11
Diferencias entre genes de organismos
procariotas y eucariotas.
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
12
ATATATATATGGCGGCATTATATTGTTGGTAACTAAAATCACTCAGCTCTTACATGGTAAACCAGGAT
CCAAACTAGGGTCTGTGAAGTTCTAAATCTCATGTTTTCAACACTGTTCAAACAAAGATTTTCAGCTT
CTGAGAAGAACAGAGGTGGACGAATGCAGGTACTTGATAGAATTTGAATCTGAATTACAGTGCTACTG
ATAGGTCTGTTAATCACGCACGTGCACATGCCACGCAAAAGTCAAACGCAGGGACCTAAACACGCCTG
TGGTGTGTTCTCAGCTGAGCTCCAAGGCCCTGATGAGTTGTAAATGTTTACAGACTCCTCAGCTGGGT
GGTCCTGGAGGCAGCTTATCACATGCCCTGAGGCCCGAGTGGGTTAGGGGAGAGAGCACAAAACGTGA
CAGCTTTGCCCTCACAGTCTCAGCTACCCTGGGAAAGAGTTTGGCAGGGGAATCATCATGCAGGCTCC
ATTTTTATACCACTGCACTGAAGTATAAGTACATTTTTTGTCACACTCTGCTAACTGCCTGCTCATAG
ATATTCAAATTTAGTAGATGTAGACAGACTCCTAACTTCTCATGGTTTAAAATGTTTAAACAACTATA
TTTATTTTGTACTTGCCTAATCTTTTCTAGTCCCCCTGGATTGGTATATGTTTCACCTGCTTAAATGA
GACTGTTCTCTGGCTTAAGATTTATTTAGGTAGTGAGGGCTACTTTTGGTTGAAAGCTAGAACAGGTT
TTGCACTTTAATGAACCTAAAGCAGATCTATGCTGTTTACATTCAGGTAAGGGGACTTCTCCTTTATT
ATTTATTTTAGATAGAATATTTGCCAACTGAAGATGTGTGGCCCCTTCCCACCCCAAAGAAGACAGTA
CCCATGGTTGAATTCCCAGATGGAAATGATTTATGACTAGGGATCCCATAGCCTTGGTTCCCCTTGTC
TGCTGCTTATGAAGCAAGATAAACATGCTGCCTCCTCCTGGTGCAGCTCTTGAAATGTTTTGACTTCC
TGTCACTGGAGAGGTGTTGACATGCTCAGGGGAATGTTGGTGGAACTCACTCTGCATTCCAATGTGTC
ATGAATTTAAGGATTATGGTTAGACCACGTCGAAGTCATCACACAGTAGTTACAGCTAATGTCTAGTA
CTGGTTGGCCCTGGAAACAAAGAAGAGCTTGGAAAAAAAGCAGTTTACAATGCAGAAGGTAGACGGAG
CTGTGCTTATTGGATTGGTGGGAAATCAAATGCAGGAAACATGGTGTATTACTTGTTTATTTGGTGTA
ATGAAGACTACAGTGTCAGCCTCTACAACTACAGTGTGATCTGCTTCAGGGCAGGGTGTGTCTTCATC
ACTTTCACCTGGCCCTGGGGAGGCACTCAATAAATATTTGGAGGTGAATGAATTAATTAGAGTGGGAG
ATCTACCACGCTTGTGTCTGGTTCCTTACAGGGTAAAGACCCTGAGTTAAAGGCCAATGAAGTGACTA
AATAAAGAAGATGGTAATCCAGCAAGCAGATTCTAATGCAGCCTTTTACAATAAATAACACCCCCATG
CAGCTTTTATATAGAGATATAGACAGCTATAGATGAAT
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
13
3. ¿De qué información
disponemos u
? la
ien tífica
Modelizando la información biológica
Genís Parra
Información utilizada para encontrar genes:
1.
2.
3.
Búsqueda de señales. La maquinaria celular reconoce
secuencias mas o menos conservadas en el DNA
genómico.
Estadísticos codificantes. Las regiones codificantes
tienen propiedades estadísticamente diferentes a las
regiones no codificantes.
Uso de homología. La similaridad con secuencias
conocidas es un indicativo de que esa región pueda
contener un gen homólogo.
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
15
(I) Búsqueda de señales
Tipos de señales:
u la
ien tífica
Les señales conocidas son alineadas y se generan patrones
con las regiones conservadas.
Introducción a la Bioinformática
Genís Parra
16
Generando un modelo para donors sites
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
17
(II) Estadísticos codificantes
El DNA codificante tiene una composición de nucleótidos
diferente al resto de DNA genómico, debido a que ha de
codificar para proteínas (es menos aleatorio).
u la
Estadístico codificante: es una función que dada una
secuencia de DNA, nos devuelve
untífica
número relacionado
ien
con la probabilidad de que esa secuencia corresponda a una
región codificante.
Introducción a la Bioinformática
Genís Parra
18
Ejemplo de estadístico codificante:
“codon usage”
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
19
(III) Uso de homología
Algunos programas de predicción de genes permiten el uso de
homologías con secuencias conocidas para mejorar las
predicciones.
Estas homologías las podemos encontrar en:
• Proteínas de otras especies.
• Fragmentos genómicos que sabemos que se transcriben
(ESTs o cDNAs)
• Comparación de genomas completos.
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
20
Integrando la información
geneid como ejemplo de
programa de predicción de
genes.
u la
Estructura jerárquica :
señales
- exones - genes
ien
tífica
Introducción a la Bioinformática
Genís Parra
21
4. Medidas de fiabilidad
u la
ien tífica
Genís Parra
Fiabilidad de los programas de
predicción de genes.
1. Necesitamos un conjunto de genes conocidos
para validar las predicciones.
2. Conceptos básicos para medir la fiabilidad:
•
•
la
u
Sensibilidad: proporción de genes reales que han sido
predichos.
iende predicciones
tíficaque
Especificidad: proporción
corresponden con la realidad.
Introducción a la Bioinformática
Genís Parra
23
Ejemplo de fiabilidad
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
24
5. Fiabilidad actual:uGASP1
la
ien tífica
Introducción a la Bioinformática
Genís Parra
25
GASP1:
genome annotation assessment project
• El objetivo de este proyecto era estudiar la eficiencia de los
programas de predicción de genes en una región de 2.9 Mb
del genoma de Droshophila Melanogaster.
• Las predicciones fueron comparadas en base a los
resultados de un profundo estudio experimental (2 años
recopilando cDNAs) que no fueron revelados hasta el
final de la evaluación.
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
26
Resultados del GASP1
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
27
Resultados del GASP1
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
28
Conclusiones del GASP1
• Las predicciones cubren un 95% del proteoma.
• La predicción a nivel de nucleótido mejor que a nivel de
exón.
• Muy baja proporción de genes correctamente predichos.
• Métodos optimizados para una especie funcionan mejor.
• Ningún programa es perfecto.
u la
ien tífica
Introducción a la Bioinformática
Genís Parra
29
Descargar

Predicción de genes - Universitat de Barcelona -