¿Por qué es útil la
comparación de
secuencias?
Parte II
Lipman, David
(NIH/NLM/NCBI)
Casi 100 Trillones de comparaciones
BLAST por cuarto (10/01)
1,E+14
9,E+13
8,E+13
7,E+13
6,E+13
5,E+13
4,E+13
3,E+13
2,E+13
1,E+13
0,E+00
1998
1999
2000
Cuarto
2001
Búsqueda rápida de similitudes de banco de datos
de ácido nucleico y proteínas.
Wilbur WJ, Lipman DJ.
Proc Natl Acad Sci U S A 1983 Feb;80(3):726-30
Con el desarrollo de grandes bancos de datos de secuencias de proteínas y
ácidos nucleicos, la necesidad de métodos eficientes de búsqueda en tales
bancos para secuencias similares a una secuencia dada se ha vuelto evidente.
Presentamos un algoritmo para la comparación global de secuencias basados
en k-tuples pareados de secuencia de elementos para un k fijado. El método
resulta en reducción substancial del tiempo requerido para la búsqueda en el
banco de datos cuando se compara con técnicas anteriores de análisis de
similitud, con mínima pérdida de sensibilidad. El algoritmo también ha sido
adaptado, en una implementación separada, para producir alineación rigurosa
de secuencias. Actualmente, usando el sistema DEC KL-10, podemos
comparar todas las secuencias en el Banco de datos de proteína de la
Fundación de Investigación Biomédica con una búsqueda de secuencia 350residuos en menos de 3 minutos y efectuar un análisis similar con un
búsqueda de secuencia 500-base contra todas las secuencias eucarióticas en
la Báse de Datos de Ácido Nucleico en los Álamos en menos de 2 minutos.
Gene del cáncer encuentra su
pareja
NY Times Julio 3, 1983
“…una búsqueda computarizada por serendipia…”
Waterfield MD et al., Nature 1983 Jul 7;304(5921):35-39
Doolittle RF et al., Science 1983 Jul 15;221(4607):275-277
v-sis: 6 QGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAELDLNMTRSHSGGELESLARGK 65
QGDPIPEELY+MLS HSIRSFDDLQRLL GD G+EDGAELDLNMTRSHSGGELESLARG+
PDGF : 10 QGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSGGELESLARGR 69
v-sis: 66 RSLGSLSVAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 125
RSLGSL++AEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ
PDGF : 70 RSLGSLTIAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 129
v-sis: 126 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQEQR 185
CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCE VAAAR VTRSPG SQEQR
PDGF : 130 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAARPVTRSPGGSQEQR 189
v-sis: 186 AKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGA 226
AKT Q+RVTIRTVRVRRPPKGKHRK KHTHDKTALKETLGA
PDGF : 190 AKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA 230
V-sis y factor de crecimiento derivado de plaquetas (PDGF)
(para animación de la diapositiva, por favor de click en el área de la
diapositiva p en el botón de mostrar la diapositiva).
Un temprano, más sutil descubrimiento …
Productos del gene viral src están relacionados a la cadena
catalítica de proteìn-kinasa dependiente de cAMP de
mamíferos Barker WC, Dayhoff MO. PNAS 1982
Mayo;79(9):2836-2839
Query: 113 YAAQIVLTFEYLHSLDLIYRDLKPENLLIDQQGYIQVTDFGFAKR---VKGRTWT---LC 166
Y+ +V
+LHS +++ DLKP N+LI +Q
+++DFG +++
++GR +
+
Sbjct: 125 YSLDVVNGLLFLHSQSILHLDLKPANILISEQDVCKISDFGCSQKLQDLRGRQASPPHIG 184
Query: 167 GTPEYLAPEIILSKGYNKAVDWWALGVLIYEMAAGYPPFFADQPIQIYEKIVSGKVR 223
GT + APEI+ +
D ++ G+ +++M
P ++ +P +
+V+ +R
Sbjct: 185 GTYTHQAPEILKGEIATPKADIYSFGITLWQMTTREVP-YSGEPQYVQYAVVAYNLR 240
Biología no algoritmos
- Comparan proteínas, no DNA
- deberá detectar aminoácidos similares no sólo
identidades
(para animación de la diapositiva, por favor de click en el área de la
diapositiva p en el botón de mostrar la diapositiva).
¿Con qué frecuencia encontraremos
similitudes?
¿Cuántas familias de proteínas habrá?
En 1983, hubo sólo un pequeño porcentaje
de genes de los genomas de distintos
organismos, diferentes en su evolución
(por ejemplo hombre, mosca, e. coli,
levadura).
Similitudes inesperadas deberán ser raras.
(para animación de la diapositiva, por favor de click en el área de la
diapositiva p en el botón de mostrar la diapositiva).
Estimando el número de familias de
proteínas
Estimaciones tempranas del
número de familias de proteínas~1000
• Zuckerkandl,E. (1974) Accomplissement et perspectives de la
paleogenetique chimique. In: Ecole de Roscoff –1974, p. 69. Paris:CNRS.
“La aparición de nuevas estructuras y funciones en proteínas durante evolución”,
J. Mol. Evol. 7, 1-57 (1975).
• Dayhoff, M.O. (1974) Federation Proceedings 33, 2314.
“El origen y evolución de superfamilias de proteínas”, Fed.Proc. 35, 2132-2138
(1976).
Margaret Dayhoff
Atlas de Secuencia y Estructura de
Proteína, Vol. 5, Suplemento 3 (1978)
pg. 10:
“Se ha estimado que en el humano hay
50,000 proteínas de importancia funcional o
médica. … Un hito en la biología molecular
ocurrirá cuando un miembro de cada
superfamilia haya sido elucidado. A la tasa
actual de 25 por año, tomará al menos 15
años.”
(Para animación de la diapositiva click en el área de la diapositiva o el botón de mostrar
diapositiva)
Hubris, el Proyecto Genoma y
familias de proterínas
Chothia, C. (1992). Mil familias para el biólogo
molecular. Nature, 357, 543-544.
Green P, Lipman D, Hillier L, Waterson R, States,D, and
Claverie JM (1993). Ancient Conserved Regions in
New Gene Sequences and the Protein Databases.
Science, 259, 1711-1716.
ACR = similitud detectada entre secuencias de
organismos remotamente relacionados
(Para animación de la diapositiva click en el área de la diapositiva o el botón de mostrar diapositiva)
1992: ¿Qué nuevas familias tenemos del
proyecto genoma?
Codificación de
secuencias
Sec. con
ACRs
Set
N
humano ESTs
2644
600-1200
197 (1633%)
103
gusano ESTs
1472
1370
570 (42%)
240
Genes gusano
234
234
74 (32%)
59
Levadura
ORFs
182
182
43 (24%)
35
Sets comparados
Secuencias
pareadas
ACRs
ACRs
ACRs en base
de datos
gusano ESTs, humano ESTs
77, 66
34
31 (91%)
gusano ESTs, levadura ORFs
23, 13
9
8 (89%)
gusano genes, humano ESTs
17, 17
12
12 (100%)
gusano genes, levadura ORFs
6, 4
4
3 (75%)
humano ESTs, levadura ORFs
14, 13
10
10 (100%)
(Para animación de la diapositiva click en el área de la diapositiva o el botón de mostrar diapositiva)
Crecimiento acumulado en número de proteínas y número de
dominios conservados (de Geer, L., Bryant, S., & Ostell, J.)
Green et al.
85% de ACRs
1.2*10 6
100
80
8.0*10 5
60
Familias con
dominio
conservado
6.0*10 5
40
4.0*10 5
Dayhoff 10%
de superfamilias
Secuencias de
20
proteínas
2.0*10 5
0
0.0
1960
1965
1970
1975
1980
1985
1990
1995
2000
% Familias Hit
Número de proteínas
1.0*10 6
¿Por qué son pocas familias y por
qué evolucionan lentamente?
Típica
Muy rara
Vista estructural
Termodinámica: Finkelstein, AV,
“¿Por qué aon las mismas
proteínas usadas para realizar
diferentes funciones?” FEBS 325,
pp. 23-28 (1993)
(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva)
Limitantes debido a función biológica
pueden ser más importantes
Un gen
Compare pares de secuencias de
clases relacionadas de proteínas
Divergencia
funcional
Duplicación de genes
– Todas las secuencias deberían al menos
compartir similitudes en la estructura
Último ancestro
universal común
–Los tiempos de divergencia para
todas las secuencias deben ser
aproximadamente las mismas
– Secuencias dentro de una
clase comparten función pero las
secuencias entre clases tienen
diferente función
Grado dentro de clases similares > entre
clases similares indica importancia de
limitantes debido a función biológica
eucariotes
procariotes
Ejemplo de la aminoacil-tRNA sintestasas
(aaRS) (de E. Koonin & Y. Wolf)
(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva)
enzimas esenciales responsables para la incorporación de aminoácidos en
proteínas
•Dos clases no relacionadas de aaRS, cada una
incluye 10 aaRS relacionadas entre sí
•El último ancestro común universal (LUCA) de
formas de vida moderna ya tenía al menos 17
aaRS
•La duplicación que da lugar a aaRS de diferentes
especificidades debió haber ocurrido durante un
relativamente corto periodo de evolución
temprana.
•La evolución post-LUCA de aaRS tomó mucho
más que la fase temprana cuando las especificidades
fueron establecidas. Sin embargo, los cambios que
ocurrieron después de aaRS fueron cerradas en sus
especificidades son pequeños comparados a los
cambios trazados en la fase temprana.
Orthologs … (de S. Bryant)
Paralogs … (de S. Bryant)
Ejemplo de las aminoacil-tRNA sintetasas
(aaRS) (de E. Koonin & Y. Wolf)
ArgRS
HisRS
1.0
1.0
0.8
0.8
0.6
o
0.6
o
0.4
n
0.4
n
0.2
0.2
0.0
0.0
0.00
0.10
0.20
0.30
0.40
0.00
0.10
ValRS
0.30
0.40
TrpRS
1.0
1.0
0.8
0.8
0.6
o
0.6
0.4
n
0.4
0.2
Exepciones glutamina/glutamato,asparagina/
aspartato y triptofano/tirosina
0.2
0.0
0.00
0.20
0.0
0.10
0.20
0.30
0.40
0.00
0.10
0.20
0.30
0.40
(para animación de la diapositiva click el área de la diapositiva o click en
Mostrar Diapositiva)
¿Cuantos genes humanos?
80,000
Antequera F & Bird A, “Number of CpG islands and genes in
human and mouse”, PNAS 90, 11995-11999 (1993).
120,000
Liang F et al., “Gene Index analysis of the human genome
estimates approximately 120,000 genes”, Nat. Gen., 25, 239-240 (2000)
35,000
Ewing B & Green P, “Analysis of expressed sequence tags
indicates 35,000 human genes”, Nat. Gen. 25, 232-234 (2000)
28,000-34,000 Roest Crollius, H. et al., “Estimate of human gene number
Provided by genome-wide analysis using Tetraodon nigroviridis DNA
Sequence”, Nat. Gen. 25, 235-238 (2000).
41,000-45,000 Das M et al., “Assessment of the Total Number of Human
Transcription Units”, Genomics 77, 71-78 (2001)
(para animación de la diapositiva click el área de la diapositiva o click en
Mostrar Diapositiva)
¿Cuantos genes humanos con ACRs?
(de S. Resenchuk, T.Tatusov, L. Wagner, A. Souverov)
12,245 mRNA caracterizados de RefSeq
78% tienen ACR, i.e., vertebrados en E <10e-6 ( 9,496/12,245)
90% de estos han correspondido a predicciones de GenomeScan
los cuales también tienen ACR (8501/9496)
20,245 modelos GS para el genoma humano completo tienen ACR
15,573 modelos GS después de corrección para splitting
(20,245/1.3)
17,300 genes humanos estimados con ACRs ( ~15,573/.9)
(para animación de la diapositiva click el área de la diapositiva o click en
Mostrar Diapositiva)
¿Cuantos genes tienen los humanos?
17,303 estimación de genes humanos con ACRs
Ahora use comparación de genomas…
ACRs/
genes
S.cerev.
S. Pombe
A.thal.
4022/6306
63%
4846/6593
73%
14443/24605
58%
C. Elegans
11598/20850
55%
D. mela.
10469/14335
73%
17,303/.55 = ~31,500 Total de genes humanos
¡Más complicado que esto!
(para animación de la diapositiva click el área de la diapositiva o click en
Mostrar Diapositiva)
Conservación, nivel de expresión longitud de
proteína y número exon
EST # 0
0-20
0-200
>200
All
RefSec
#
2716
9454
2791
12,245
1718
419
(63%)
7049
486
(75%)
2447
517
(88%)
9496
493
(78%)
396
RS +
240
Long.
319
ACR
de Prot. (61%)
GS
158
1424
6256
2245
8501
Avg.+ 23,600
3.82
6.25
8.78
10.38
9.15
estimación
revisada(89%)
de genes humanos
con(90%)
ACRs
ACR
(66%)
(83%)
(92%)
exon#
(~15,573/.66)
43,000 límite superior del estimado del total de genes
humanos (23,600/.55) 35,000 es un límite más razonable con
esta forma
La relación de conservación de
proetína y longitud de secuencia
• Lipman DJ, Souvorov A, Koonin EV, Panchenko
AR, Tatusova TA
• BMC Evol Biol. 2002 2:20
E-coli
140
conservada
120
4279 proteínas
No conservada
Number
Número
100
Dominios
estructurales
80
60
Set de
Salmonella
40
20
0
0
200
400
600
Longitud
Length
800
1000
Archaeoglobus fulgidus
100
conservada
80
No conservada
60
Dominios
estructurales
Número
2420 proteínas
40
20
0
0
200
400
600
Longitud
800
1000
Yeast
400
350
conservada
300
6305 proteínas
No conservada
Número
250
Dominios
estructurales
200
150
100
50
0
0
200
400
600
Longitud
800
1000
Drosophila
50
2390 proteínas
conservada
40
No conservada
Número
30
Dominios
estructurales
20
10
0
0
200
400
600
Longitud
800
1000
Humano
300
Conservada
250
No conservada
200
Dominios
estructurales
Número
14538 proteínas
150
100
50
0
0
200
400
600
Longitud
800
1000
4279 proteins
E-value 1.e-3
A
E-coli
200
Number
150
Conservada
100
No conservada
50
0
0
200
400
600
800
1000
Length
4279 proteins
E-value 1.e-9
B
E-coli
140
120
Number
100
80
60
40
20
0
0
200
400
600
Length
800
1000
1.2
10
1
8
Escherichia coli
Densidad de
contacto
0.8
0.6
4
0.4
2
0.2
0
0
200
400
600
Length
800
0
1000
Contact density
6
Fraction
Archaeoglobus
fulgidus
Reconocimientos
Steve Bryant
Greg Schuler
Lewis Geer
Alex Souverov
Alex Kondrashov
Tatiana Tatusov
Eugene Koonin
Lukas Wagner
Jim Ostell
Yuri Wolf
Sergei Resenchuk
Phil Murphy (NIAID)
Y todos mis colegas en NCBI y NIH
Descargar

¿Por qué es útil la comparación de secuencias? in