Uso del programa HMMER
•Búsqueda de familias (dominios) de proteínas
DOMINIO PROTEICO: porción de una proteína con
estructura terciaria definida (40-350 aminoácidos). Unidad
modular. En general asociados a una función particular.
Proteínas pequeñas tienen un único dominio, proteínas
grandes pueden llegar a tener más de 10 dominios.
FAMILIA DE PROTEINAS:
Conjunto de proteínas con dominios o funciones en común
La secuencia aminoacídica puede estar conservada en mayor
o menor medida.
Casos extremos: 25 % de identidad aminoacídica, estructura
terciaria idéntica
Dominios
Aplicación de HHMER
Dada una familia de proteínas conocida…..
¿Hay nuevos miembros de esta familia?
Construcción
• A partir de un alineamiento múltiple, se
genera un consenso, con matchs, deleciones o
inserciones
• Los parámetros del modelo se determinan en
base a la frecuencia de aparición de cada
aminoácido en una posición particular
• Algoritmos de programación dinámica para la
construcción del modelo
• Cálculo de frecuencias de emisión y transición:
algoritmos de pesado de secuencias, Plan 7
Características HMMER
• Tres estados principales: Match, Deleción o Inserción
• Se emiten pares de residuos
Modelo Básico
δ
ε
δ
1-2δ-τ
B
1-ε- τ
M
pm
τ
D
pd
τ
E
1-ε- τ
1-2δ-τ
δ
I
pi
δ
ε
τ
τ
PLAN 7
Estados especiales (no dependen de los datos de entrada):
S, N, J, C, T
Permiten encontrar matchs en cualquier lugar interno de la secuencia
Dominios locales
Globinas
Amplia familia de proteínas
(50 secuencias de diferentes especies)
1 secuencia de “globina” de Artemia (micro camarón)
Datos de entrada: Alineamianto múltiple
(Clustal o HMMER)
Construcción del modelo
Algortimo de programación dinámica
Parámetro x determina la cantidad de residuos
en el consenso
hmmbuild - build a hidden Markov model from an alignment
HMMER 2.3.2 (Oct 2003)
Copyright (C) 1992-2003 HHMI/Washington University School of Medicine
Freely distributed under the GNU General Public License (GPL)
-----------------------------------Alignment file:
globins50.msf
File format:
MSF
Search algorithm configuration: Multiple domain (hmmls)
Model construction strategy:
MAP (gapmax hint: 0.50)
Null model used:
(default)
Prior used:
(default)
Sequence weighting method:
G/S/C tree weights
New HMM file:
globin.hmm
-------------------------------Alignment:
#1
Number of sequences: 50
Number of columns: 308
Determining effective sequence number ... done. [2]
Weighting sequences heuristically
... done.
Constructing model architecture
... done.
Converting counts to probabilities
... done.
Setting model name, etc.
... done. [globins50]
Constructed a profile HMM (length 143)
Average score:
189.04 bits
Minimum score:
-17.62 bits
Maximum score:
234.09 bits
Std. deviation:
53.18 bits
Finalizing model configuration
... done.
Saving model to file
... done.
Calibración
• Generación de secuencias aleatorias en función de
la longitud y composición aminoacídica del
alineamiento múltiple
• Construcción de histograma distribución de los
scores de las secuencias aleatorias
• Seteo de mu y lambda (E-value)
Calibración
hmmcalibrate -- calibrate HMM search statistics
HMMER 2.3.2 (Oct 2003)
Copyright (C) 1992-2003 HHMI/Washington University School of Medicine
Freely distributed under the GNU General Public License (GPL)
-----------------------------------HMM file:
globin.hmm
Length distribution mean: 325
Length distribution s.d.: 200
Number of samples:
5000
random seed:
1096635211
histogram(s) saved to: histograma
-------------------------------HMM : globins50
mu : -38.917610
lambda : 0.240948
max : -6.474000
Búsqueda
Criterios de evaluación de los resultados
Score = log2 P(seq/HMM)
P (seq/null)
E-value = número esperado de falsos positivos
(secuencias con score alto por azar)
Búsqueda
hmmsearch - search a sequence database with a profile HMM
[HMM has been calibrated; E-values are empirical estimates]
Scores for complete sequences (score includes all domains):
Sequence Description
Score
E-value N
-------- ------------------S13421
S13421 GLOBIN - BRINE SHRIMP
474.3
1.7e-143
9
Parsed for domains:
Sequence Domain seq-f seq-t
hmm-f hmm-t
-------- ------- ----- --------- ----S13421
7/9
932 1075 ..
1
143 []
S13421
2/9
153
293 ..
1
143 []
S13421
3/9
307
450 ..
1
143 []
S13421
8/9
1089 1234 ..
1
143 []
S13421
9/9
1248 1390 ..
1
143 []
S13421
1/9
1
143 [.
1
143 []
S13421
4/9
464
607 ..
1
143 []
S13421
6/9
775
918 ..
1
143 []
S13421
5/9
623
762 ..
1
143 []
score
----76.9
63.7
59.8
57.6
52.3
51.2
46.7
42.2
23.9
E-value
------7.3e-24
6.8e-20
9.8e-19
4.5e-18
1.8e-16
4e-16
8.6e-15
2e-13
6.6e-08
Alignments of top-scoring domains:
S13421: domain 7 of 9, from 932 to 1075: score 76.9, E = 7.3e-24
*->eekalvksvwgkveknveevGaeaLerllvvyPetkryFpkFkdLss
+e a vk+ w+ v+ ++
S13421
932
vG
+++ l++ +P+ +++FpkF d+
REVAVVKQTWNLVKPDLMGVGMRIFKSLFEAFPAYQAVFPKFSDVPL 978
adavkgsakvkahgkkVltalgdavkkldd...lkgalakLselHaqklr
d++++++ v +h
S13421
V t+l++ ++ ld++ +l+
++L+e H+
lr
979 -DKLEDTPAVGKHSISVTTKLDELIQTLDEpanLALLARQLGEDHIV-LR 1026
vdpenfkllsevllvvlaeklgkeftpevqaalekllaavataLaakYk<
v+
S13421
fk +++vl+
l++ lg+ f+
++ +++k+++++++ +++
+
1027 VNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWHKAYDVIVEYIEEGLQ
-*
1075
Vale la pena?
para este ejemplo particular:
•50 proteínas de información inicial
•estructura y función perfectamente conocidas
Resultados similares utilizando PSI-BLAST y CDD
Otro caso
•Familia de proteínas específicas de un grupo de organismos alejados
evolutivamente de las especies más estudiadas (hombre, ratón, etc.)
Echinococcus granulosus
•Poca informacion disponible de proteínas pertencientes a la misma familia
Los bancos de datos que utilizan estos programas no son
completos (ej. Pfam 5193 flias)
Usamos HMMER.......
Datos de entrada
7 proteínas de las misma familia (sospecha por estructura y función)
Datos de búsqueda
una secuencia nueva EgB2G1/10
10
20
30
40
50
60
70
80
90
....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|.
EgB2G1/10
Ts
Tc
Me
Hd
ASPI1
ASPI2
AsCE1
MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSK
-----------ITV..APDDDKGQ.DLNMTVMKQ.G...R..TE....RNVTKQLKEMI..AKVIRHR.RKC.GE.L.G.EN.------------------ITV..APTDDKG..DL.KKMMKQ.G...R...E.....KIIDHFQETVS..KAIRER.RKR.GE.L.G.EN.-----------------------ME.ETNPIRAI.KR..SY.KSREE.YDK.....KIAKFYGEWKELVAEVRKRVRARIAA...K.Q..-----------------------ME.ETNPIR.I.TKAKEYFAARER.YDE....KQIA.HLSKWRE.IRDVRARLRGY.R..LN..QK.YPKA---------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPGCELQCGESD-KPCP.MCG.PKCY.SPDQ-YRRIPDGRCIRKIQCPQH-----------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPKCELQCGESD-KPCATICGEPKCY.SPDK-YRRIPDGRCIRKIQCPQH---------------------------GQ...GPNEVWTECTGCEMKCG..ENTPCPLMC.RPSCE.SPGRGMRRTNDG.CIPASQCP.-------
Construcción del modelo
hmmbuild - build a hidden Markov model from an alignment
HMMER 2.3.2 (Oct 2003)
Copyright (C) 1992-2003 HHMI/Washington University School of
Medicine
Freely distributed under the GNU General Public License (GPL)
-----------------------------------Alignment file:
AgBfam.pir
File format:
a2m
Search algorithm configuration: Multiple local (hmmfs)
S/W aggregate entry probability: 0.50
S/W aggregate exit probability: 0.50
Model construction strategy:
MAP (gapmax hint: 0.50)
Null model used:
(default)
Prior used:
(default)
Sequence weighting method:
G/S/C tree weights
New HMM file:
Agb.hmm
-------------------------------Alignment:
#1
Number of sequences: 7
Number of columns: 86
Determining effective sequence number ... done. [5]
Weighting sequences heuristically
... done.
Constructing model architecture
... done.
Converting counts to probabilities
... done.
Setting model name, etc.
... done. [AgBfam]
Constructed a profile HMM (length 86)
Average score:
137.09 bits
Minimum score:
115.76 bits
Maximum score:
156.73 bits
Std. deviation:
15.18 bits
Finalizing model configuration
... done.
Saving model to file
... done.
Parámetro modificado:
-f
busca dominios
localmente
(prioriza dominios
pequeños)
Calibración
hmmcalibrate -- calibrate HMM search statistics
HMMER 2.3.2 (Oct 2003)
Copyright (C) 1992-2003 HHMI/Washington University School of Medicine
Freely distributed under the GNU General Public License (GPL)
-----------------------------------HMM file:
Agb.hmm
Length distribution mean: 325
Length distribution s.d.: 200
Number of samples:
5000
random seed:
1096637147
histogram(s) saved to: histograma2
-------------------------------HMM : AgBfam
mu : -10.075376
lambda : 0.640866
max : 4.144000
Búsqueda
10
20
30
40
50
60
70
80
90
....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|....|.
EgB2G1/10
MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSK
hmmsearch - search a sequence database with a profile HMM
[HMM has been calibrated; E-values are empirical estimates]
Scores for complete sequences (score includes all domains):
Sequence
Description
Score
---------------------P1;EgB2G1/10
22.9
Parsed for domains:
Sequence
Domain seq-f seq-t
hmm-f hmm-t
-------------- ----- --------- ----P1;EgB2G1/10
1/1
24
87 ..
19
86 .]
score
----22.9
E-value N
------- --6.8e-10
1
E-value
------6.8e-10
Alignments of top-scoring domains:
P1;EgB2G1/10: domain 1 of 1, from 24 to 87: score 22.9, E = 6.8e-10
*->qerikkkemkylcereefydeDPlGkkiakhlgepkcicspvRkkri
+er+k ++ l e++ f++ DPlG+
+ ++ +ic
i
P1;EgB2G1/
24
PERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHL-KI 69
P1;EgB2G1/
RkrlGkYlkklQcEehkakkk<-*
l kY+k+l +Ee
+++
70 HEVLKKYVKDLLEEE---EEE
87
Programas que utilizan HMM
P rog ra ma
HM M ER
“ ha m m er”
SA M
M eta me me
H M M P ro
P fa m
A plica cio nes
B úsq ue da de fa m ilia s de proteína s
a pa rtir de un a linea m ie nto
m ú ltiple
E m isió n de sec ue ncia s pa tró n
Ide m H M M E R
B úsq ue da de m o tiv os e n
a linea m ie ntos sin g a ps ( m e nos
pa rá m etros pa ra a justa r)
P rog ra ma c o m ercia l. Ide m
H M M E R m á s interfa ce g ráfica
B a nco de a linea m ie ntos m ú ltiples y
H M M s de la s fa m ilia s y d o m inios
proteicos m á s co m u nes (5 1 9 3 flias)
Sitio
http://h m m er.w ustl.e d u
http://bio w eb .pa ste ur.fr/seqa na l/m o tif/h m m er-u k.ht m l
http://w w w .cse.ucsc.ed u/resea rch/co m p b io/sa m .ht m l
http:// meta m e m e.s dsc.ed u/
http://w w w .nw tid.co m /ht m l/h m m p r o.ht m l
T ip os de P fa m :
- F a m ily
- D o m a in
- R epetid o (e n ta nde m for m a do m inio)
- M otiv o (unida d de sec ue ncia corta p or fuera de los
do m inios)
http://pfa m .w ustl.ed u/
http://w w w .sa ng er.a c.a k/S oftw a re/P fa m/index .s ht m l
Referencias
Profile hidden Markov models. Edyy S.R. 1998,
Bioinformatics Review. Volume : 14,775-763.
What is a hidden Markov model? Eddy S. R. 2004.
Publication On line
Biological Sequence Analysis: Probabilistic Models of
Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh
A. and Mitchison G. J. Cambridge University Press,
Cambbridge UK.
Descargar

Otras aplicaciones de HMM