Predicción de la
estructura
tridimensional de
proteínas
Dr. Alfonso Méndez Tenorio
Métodos para la predicción de estructura
tridimensional (3D)
Modelación por homología (homology modeling):
Si la similitud es mayor al 30% un alineamiento
de secuencias puede utilizarse para llevar a cabo
un alineamiento estructural.
Enrollamiento (threading): Hay familias de
proteínas con plegamientos específicos. Se
busca cual es la familia con la que encaja mejor
el núcleo de la proteína.
ab-initio: Se trata de predecir la estructura a partir
de los valores de las interacciones atómicas.
Pasos a seguir en la modelación por
homología
Reconocimiento del molde y alineamiento
inicial.
Corrección del alineamiento.
Generación de la cadena principal.
Modelación de rizos.
Modelación de la cadenas laterales.
Optimización del modelo.
Validación del modelo.
1fdx
1fdx
5fd1
1fdx
5fd1
5fd1
AYVINDSC-- IACGACKPEC PVNIIQGSI- -YAIDADSCI DCGSCASVCP VGAPNPED
AFVVTDNCIK CKYTDCVEVC PVDCFYEGPN FLVIHPDECI DCALCEPECP AQAIFSED
*.*. *.*
*
* **. . .
* .* ** **. * . **
* .**
sss
hhh
sss
sss
hhhhh
sss
sssss
hhh
sssss
sssss
hhhh
sssss
Predicción de estructura tridimensional por modelación por homología. La estructura tridimensional de la ferrodoxina de
Azotobacter vinelandii es conocida (No. Acceso PDB: 5fd1). Esta estructura se utilizó para predecir la estructura de la
ferrodoxina 1fdx (no conocida). En este tipo de predicción se hace un alineamiento estructural entre las dos secuencias, el cual
se refina tomando en cuenta las interacciones entre los átomos. En este caso la estructura a modelar es mas pequeña y se
muestra también la predicción de la estructura secundaria (s=beta plegada, h=alfa hélice). Predicción llevada a cabo con los
programas Modeller version 6 y DeepView..
Distribución de arquitecturas de dominios.
Descripción de la red neuronal implementada en
GenTHREADER
Ejemplo de GeneTHREAD
Validación de predicciones
de estructura tridimensional
Crecimiento de la base de datos PDB
(1972-2005)
Algunas definiciones importantes.
Factor R: Es una medida de las diferencias entre los
factores de la estructura calculados a partir del
modelo y aquellos obtenidos de los datos
experimentales (una medida de las diferencias en
los patrones de difracción observados y calculados).
Entre más pequeño sea este valor mejor se ajusta
el modelo a los datos experimentales (se desea que
el factor R < 0.2).
Factor G: Es una medida de que tan “apropiada” o
“inusual” es una propiedad estereoquímica. Se
calcula como logaritmo de probabilidad a partir de
estructuras observadas.
Patrón de difracción experimental y calculado
Algunas definiciones importantes.
Desviación de la raiz cuadrada de las medias (RMSD): Es una
medida para verificar el ajuste entre dos moléculas.
 (dist )
2
RMSD 
dist=Distancia entre pares de átomos
n pares de atomos
Radio de van der Waals: Se puede interpretar como la mitad de la
distancia entre dos átomos (del mismo elemento) en donde la
fuerzas de atracción y repulsión están balanceadas exactamente.
Superficie de van der Waals: Es una esfera que recubre cada átomo
y cuyo radio es igual al radio de van der Waals.
Superficie de densidad electrónica: Una capa que rodea un átomo
en donde se concentra la mayor densidad de electrónica (derivada
de la teoría cuántica).
Las estructuras PDB en bases de
datos pueden tener errores.
Algunas estructuras depositadas en bases de
datos como el PDB pueden tener errores, los
cuales puden ser menores o típicos (la
estructura es en general correcta pero tiene
algunos errores aleatorios experimentales) o
serios
(cadena
polipeptídica
incorrecta,
asignación de estructura secundaria incorrecta,
conección equivocada de los elementos de la
estructura secundaria).
Para modelación se requiere escoger moldes de
buena calidad (resolución < 2Å, Factor R < 0.2).
Algunos errores serios de estructuras PDB
Modelos proteína nsp13 SARS
Threading
Robetta
Cell, Vol. 113, 701–702, June 13, 2003.
Rosetta
Tipos de pruebas de validación
Características estereoquímicas de la
proteína (Procheck, What If).
Contactos entre residuos (What if, Probe).
Parámetros
energéticos
y
campos
electrostáticos (Potencial de Campo de
Fuerza, Energía Optimizada Discreta de la
Proteína-DOPE) (ProSa-II, Modeller).
Pruebas de ajuste entre modelos (RMSD).
Pruebas para verificar una estructura.
Dichas pruebas se pueden llevar a cabo sobre estructuras
PDB “reales”, o bien sobre modelos de moléculas.
Generalmente los valores de las pruebas tienen valores
“normales” basados en una compilación de datos de
estructuras validadas.
Es factible que en estructuras correctas se presenten
algunas variaciones con respecto a valores típicos. Dichas
variaciones no necesariamente indican que el modelo sea
incorrecto (pueden ser variaciones reales, por ejemplo
conformaciones especiales en el sitio activo).
Sin embargo, cuando se presenta una gran cantidad de
anormalidades en la estructura esto generalmente indica que
hay defectos graves en el modelo o que este es incorrecto.
Pruebas de validación con Procheck (I-III)
Gráficas de Ramachandran: Valores de los ángulos Psi-Phi
para todos los aminoácidos (excepto Gly y Pro). Idealmente
se espera que al menos 90% de los aminoácidos se
encuentren en las regiones “mas favorables” que se observan
comúnmente en las proteínas.
Gráficas de Ramachandran de cada residuo. Se presentan
las gráficas por separado para cada aminoácido. Las áreas
favorables en cada gráfica fueron derivadas de un conjunto
de 163 proteínas no homólogas cristalizadas y analizadas
con alta resolución. Los aminoácidos localizados en regiones
desfavorables son marcados en cada gráfica.
Gráficas Chi1-Chi2: Muestra los ángulos de torsión chi1 y
chi2 de las cadenas laterales para todos los tipos de residuos
con grupos R lo suficientemente grandes para tener ambos
ángulos. Se destacan aquellos residuos con valores
inusuales de los ángulos.
Pruebas de validación con Procheck (IV)
a)
b)
c)
d)
e)
f)
Parámetros de la cadena principal. Las seis gráficas muestran
como la estructura (representada por el cuadro negro) se compara
con estructuras refinadas de resolución similar. La banda obscura
representa resultados de las estructuras refinadas. La línea del
centro representa la media y el ancho de la banda es equivalente
a una desviación estándar de la media (en algunos casos la
tendencia depende de la resolución). Se analizan 6 propiedades:
Calidad de la gráfica de Ramachandran.
Planaridad del enlace peptídico (desviación estándar del ángulo
de torsión omega).
Interacciones incorrectas de no unión (número de contactos
incorrectos por 100 residuos).
Distorsión tetrahédrica (desviación estandar del ángulo de torsión
zeta).
Energía de puentes de hidrógeno de la cadena principal.
Factor G total. Medición de la normalidad total de la estructura (es
el promedio de los factores G de cada residuo).
Pruebas de validación con Procheck (V)
a)
b)
c)
d)
e)
Parámetros de la cadena lateral: Incluye 5 gráficas que
muestran como la estructura se compara con otras de la
misma resolución (similar interpretación a la anterior). Se
analizan las siguientes propiedades:
Desviación estándar del ángulo de torsión negativo chi 1
menos impedido.
Desviación estándar de los ángulos de torsión trans.
Desviación estándar de los ángulos de torsión chi1 más
impedidos.
Desviación estandar ponderada de todos los ángulos de
torsión chi 1
Desviación estándar de los ángulos de torsión chi 2
trans.
Pruebas de validación con Procheck (VI)





Propiedades de los residuos. Incluye varias pruebas:
a-c muestran algunas propiedades opcionales que pueden
seleccionarse de 14 pruebas distintas. Se resaltan valores
inusuales (mas allá de 2 deviaciones estándar de los valores
“ideales”).
d muestra asignaciones de la estructura secundaria según
Kabash y Sander (1983) (hélices H ó G y cadenas plegadas
E). El sombreado denota una aproximación a la accesibilidad.
e muestra la secuencia y el sombreado indica si los ángulos
de cada residuo se encuentran en regiones favorables o no.
f muestra un histograma con desviaciones estandar máximas
de algunas propiedades para cada residuo. Las propiedades
evaluadas se describen en un archivo out (longitudes de
enlace, por ejemplo).
g muestra factores G de cada residuo. Los cuadros obscuros
denotan factores inusuales.
Pruebas de validación con Procheck (VII-VIII)
Distribuciones de las longitudes de enlace de la cadena
principal. Los histogramas muestran distribuciones de las
longitudes de enlace en la cadena principal para toda la
estructura. Se resaltan valores que se alejan más allá de 2
desviaciones estandar. Algunas veces aparecen flechas
indicando que algunos valores han salido incluso de la
gráfica. Desviaciones importantes se muestran en las gráficas
de simetrias distorsionadas.
Distribuciones de los ángulos de enlace en la cadena
principal. Similar a la anterior solo que aquí se presentan
valores para los ángulos de enlace de la cadena principal.
Pruebas de validación con Procheck (IX-X)
Distancias RMS a la planaridad. Las graficas muestran
distancias RMS (desviaciones) a la planaridad de diferentes
grupos normalmente planos aromáticos (Phe, Tyr, Trp, His) y
grupos planares terminales (Arg, Asn, Asp, Gln, Glu). Las
desviaciones máximas por defecto son 0.03Å y 0.02Å y se
resaltan valores inusuales.
Gráficas de geometrías distorsionadas. Se muestran todos
aquellos grupos con longitudes y angulos de enlace de la
cadena principal que presentan valores inusuales
(distorsionados). Se presenta el valor ideal, el obtenido y la
diferencia entre ambos.
Pruebas de validación con What If
Verificación de ángulos de enlace.
Verificación longitudes de enlace (dos partes: una compara
los valores con datos “normales” y otra verifica si hay
direccionalidad significativa que indicaría un refinamiento
inadecuado de la estructura de rayos X).
Análisis de donadores de puentes de hidrógeno enterrados
(no accesibles por el solvente).
Análisis de choques. Verifica superposiciones de cada
residuo que sobrepasen sus radios de van der Waals.
Verificación de nombres de cadenas. Verifica tramos
discontinuos de residuos con el mismo nombre de cadena.
Verificación del desplazamiento (flip) de los planos del enlace
peptídico. Las desviaciones de la planaridad son comparadas
con una base de datos.
Verificación de nomenclatura. Se detectan nombres que no
se ajusten a las convenciones de la IUPAC.
Pruebas de validación con What If
Análisis de quiralidad. Verifica la quiralidad de un átomo
expresada en la forma de dihedros impropios A-X-Y-Z para un
átomo A con tres atomos conectados X-Y-Z. El valor es de –
35 para atomos quirales y 0 si la configuración es plana. Se
destacan residuos con valores inusuales.
Análisis del “doblaje” de Prolinas. Las prolinas pueden tener
dos conformaciones llamadas anterior y posterior. Se listan
casos de conformaciones inusuales.
Verificación de calidad. Se asigna un valor para cada residuo
y uno para toda la estructura. El resultado representa la
calidad del empacamiento. Se evalúa si cada residuo se
encuentra en medio de residuos “favorables” o
“desfavorables”. El valor global menor de –3 indica que la
proteína no es globular, -3 a –2 mal refinamiento, -2 a –1 baja
resolución o proteína modelada, mayor que –1 la proteína es
aparentemente globular.
Pruebas de validación con What If
Verificación de rotámeros de la cadena principal. Si la
conformación del rotámero se acerca a los de la base de datos,
su valor será cercano a 1, si está muy alejada, su valor se
acercará a 0.
Verificación de simetría, verifica la información presente en las
secciones CRYST1 y SCALE en el archivo PDB.
Verificación de los ángulos de torsión. Se verifican los ángulos
de torsión de todos los residuos excepto para los C y N
terminales y se comparan con los de una base de datos. La
desviación no debe ser mayor que 2 desviaciones estandar de
la media.
Posición del agua. Se verifica la disposición de grupos de
moléculas de agua entorno a la proteína.
Ocupación atómica. Todas los grados de ocupación de los
átomos deben estar entre 0 y 1.
Prueba de los contactos entre todos los
átomos.
Es una prueba relativamente reciente (1999).
De una estructura se adicionan todos los átomos de
hidrógeno (los cuales muchas veces se omiten en los
modelos PDB) y se optimizan sus posiciones (programa
Reduce).
Se evalúan todos los contactos entre los átomos a partir
de los radios de van der Waals y se almacena la
estrutura como “kinemage” (programa Probe).
El programa Mage lee la estructura y la muestra
utilizando un código de colores en el cual los contactos
correctos se muestran en verde, contactos aceptables
se ilustran en color amarillo o anaranjado y los contactos
incorrectos se representan en color rojo.
DOPE (Discrete optimized protein energy)
Es un valor valor estadístico de la energía potencial de
la proteína). Podemos considerarla la energía potencial
del plegamiento de la proteína el cual depende de la
posición de cada uno de los aminoácidos.
Los potenciales DOPE para proteínas con la misma
estructura y alto grado de similitud son muy similares.
Por lo tanto, la energías del modelo y molde deben ser
muy similares.
Sitios en los cuales la energía del modelo se diferencía
grandemente de la del molde corresponden
generalmente a regiones incorrectamente modeladas.
Otras pruebas para verificar una estructura.
Pruebas de dinámica molecular.
Pseudoenergía, energía potencial media o energía
de enrrollamiento. Valores de estas energías
mayores que cero indican que tal arreglo de los
residuos no fue observado en las proteínas
empleadas para el entrenamiento del modelo.
Energía de campo: Una mediad empírica del
campo energético de cada residuo. El cálculo se
basa en el método de Gromos96. Valores mayores
que cero permiten visualizar residuos con
geometrías incorrectos o con contactos incorrectos
muy cercanos.
Descargar

Proteinas3D - WordPress.com