Curso Teórico-Práctico de Posgrado
Herramientas informáticas
para el análisis estructural
de ácidos nucleicos y
proteínas
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS
CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS
2006
Nancy I. López
ALINEAMIENTO DE SECUENCIAS
Comparación
alineamiento de a pares.
Alineamiento múltiple comparando varias secuencias relacionadas
Utilidad
. Destacar regiones de similitud, divergencia o mutaciones
. Motivos, estructura y función en proteínas. Resaltar errores en la
predicción de la secuencia de proteínas o en la secuencia misma
. Seleccionar primers de una familia de genes.
. Realizar análisis evolutivos (filogenia)
árboles filogenéticos
Cómo obtener los mejores alineamientos
Homología.
Fragmentos que compartan regiones comunes o secuencia completa.
Estructura / Secuencia?
Editar manualmente.
Alineamientos múltiples
La premisa básica de un alineamiento múltiple es que
para cada columna en el alineamiento cada residuo
de cada secuencia es homólogo. Esto significa que ha
evolucionado desde la misma posición en una
secuencia ancestral común sin inserción ni deleción.
información sobre estructura y función de proteínas
modo de evolución
filogenia. En el caso de la filogenia molecular el resultado del
análisis dependerá del alineamiento previo. Inspeccionar
cuidadosamente ese alineamiento para ver que se incluye y que
no.
En caso de utilizar genes que codifican proteínas: usar
secuencia de proteínas o de DNA.
Métodos utilizados para realizar
alineamientos
Agrupación (clustering) es uno de los más utilizados.
Alineamientos óptimos requieren programas de computación.
Programa CLUSTAL
alineamiento global para un conjunto de secuencias
Las secuencias son alineadas de a pares y los pares con puntaje
(score) más alto son luego agrupados con otras secuencias y
los grupos (clusters) son armados de acuerdo a la similitud.
Árbol guía no da información filogenética. Secuencias similares
más cercanas en el árbol (archivo.dnd)
Alineamiento múltiple constituye un paso fundamental.
Hasta 1989 alineamientos a mano. ClustalW –ClustalX
BioEdit
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS
UTILIZANDO EL PROGRAMA CLUSTALW
1. Secuencias en un archivo común en un formato compatible.
Nombre >abc
Formato FASTA
Genebank
2. Pegar archivo
3. Seleccionar opciones
Matrices
DNA identity matrix
Gonnet 250
Resultados del alineamiento múltiple de
4 proteínas
SeqA Name
Len(aa)
SeqB Name
Len(aa)
Score
=============================================================================
1
Ps.putida
304
2
Ps.fluorescensPfO -1
304
82
1
Ps.putida
304
3
Acinetobacter
311
52
1
Ps.putida
304
4
Ralstonia
307
50
2
Ps.fluorescensPfO-1
304
3
Acinetobacter
311
54
2
Ps.fluorescensPfO-1
304
4
Ralstonia
307
50
3
Acinetobacter
311
4
Ralstonia
307
52
=============================================================================
Alineamiento múltiple (basado en secuencia de proteínas-Fragmento)
Ps.putida
Ps.fluorescensPfO-1
Acinetobacter
Ralstonia
MTVNISHTAEVQQFFEQAAGFCNAAGNPRLKRIVQRLLQDTARLIEDLDISEDEFWHAVD
MTVKIAHTAELQKFFEEAAGFANDGGSSRLKTIVLRVLQDTARIIEDLEISEDEFWKAVD
MEVKIFNTQDVQDFLRVASGLEQEGGNPRVKQIIHRVLSDLYKAIEDLNITSDEYWAGVA
MTHAEIEALAKQFIVDTAT---QGTANARVQQVVLRLTTDLFKAIEDLDLSQSEVWKGIE
*
.:
* :. *:
:
...*:: :: *: * : ****:::..* * .:
60
60
60
57
Ps.putida
Ps.fluorescensPfO-1
Acinetobacter
Ralstonia
YLNRLGGRGEAGLLVAGLGIEHFLDLLQDAKDQEAGRVGGTPRTIEGPLYVAGAPIAQGE
YLNRLGGCSEAGLLVAGLGLEHFLDLLQDAKDAQIGLTGGTPRTIEGPLYVAGAPLYEGE
YLNQLGANQEAGLLSPGLGFDHYLDMRMDAEDAALGIENATPRTIEGPLYVAGAPESVGY
YMAEAGATQELGLLAAGLGLERFLDVRADEADAKAGISGGTPRTIEGPLYVAGAPESKGF
*: . *. * *** .***::::**: * *
* ..***************
*
120
120
120
117
Árbol guía
Archivo de datos
>s1
GCTCGGTATGTTGGTCGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAAA...............
>s2
GAcACTGCCCTCCCGATGCAGGGAAAAATCGGCGCCATTGTCGATCAATGAGCAGTAACGAACAAAATGC................
>s3
GCAAAGCgCacTTcAaATCaGGGCTCGACATCATCaCATAGCCCAccACGTCGTAAATgCCCGGCTTGACCAG
.....
Construcción de árboles filogenéticos
Filogenia es la ciencia de estimar el pasado evolutivo. Filogenia
molecular basada en comparación de secuencias de proteínas o
de DNA.
Árbol filogenético
1° alineamiento múltiple.
Árbol obtenido dependiente de este alineamiento.
Árbol
estructura matemática que se usa para modelar la
historia evolutiva de un grupo de secuencias o de organismos.
Árboles
. se pueden graficar de cualquier manera
. complejidad
rotación (todas las ramas pueden rotar
alrededor del plano de sus nodos
árboles =)
.crecen de izquierda a derecha
. etiquetas son horizontales.
Construcción de árboles filogenéticos
1. Definir conjunto de secuencias a analizar (DNA,
RNA o proteínas) provenientes de distintos
microorganismos
2. Alinear correctamente esas secuencias
3. Aplicar métodos adecuados para la
construcción de árboles filogenéticos
4. Evaluar estadísticamente el árbol filogenético
obtenido
Nodos
Ramas
Nodos
terminales:
OTUs (Datos)
Nodos
internos:
antecesores
hipotéticos
Raiz: nodo
del cual los
otros
descienden.
Da dirección
Patrón de ramificación:topología
Number of
Taxa
3
Number of
unrooted trees
Number of rooted
trees
1
3
4
3
15
5
15
105
6
105
945
7
945
10395
8
10395
135135
9
135135
2027025
10
2027025
34459425
Nr=(2n-3)!/[2n-2*(n-2)!], n ≥2
Nu=(2n-5)!/[2n-3*(n-3)!], n ≥3
Nr para n = Nu para n+1
Cladograma: es el modelo básico y simplemente muestra la distancia al antecesor común
en términos relativos. Las ramas son de igual longitud por lo cual no indican el tiempo
evolutivo.
Filograma: contiene información adicional dada por la longitud de las ramas. Los números
asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad
de cambio evolutivo. Es aditivo. Métricos.
Dendrograma: tipo especial de árbol aditivo en el cual los extremos del árbol son
equidistantes de la raíz y son proporcionales al tiempo de divergencia. Ultramétricos.
Métodos para la construcción
de árboles filogenéticos
Métodos de distancia
Utilizan matrices de distancia
UPGMA: Unweighted Pair Group Method with Arithmetic Mean.
NJ-Neighbour Joining. Vecino más cercano
Minimum evolution. Utiliza el método de cuadrados mínimos.
Métodos discretos
Operan directamente con las secuencias
Parsimonia: usa un carácter. Criterio: buscar el menor número de
cambios evolutivos requeridos
Máxima verosimilitud (Maximum likelihood): utiliza el estado del
carácter y la distancia
Matriz de distancias
Sitios
Secuencias
1 2 3 4 5 6 7
1
2
3
4
T
A
A
A
T
A
A
A
A
T
A
A
T
T
A
A
T
T
A
A
A
A
T
A
A
A
A
T
Distancias
10
2 30
3 5 40
4 5 4 20
___________
1 2 34
Diferencia o divergencia entre las secuencias
.- Rápidos
.- información restringida al árbol
Métodos discretos
Analizan cada columna dentro del
alineamiento y construyen el mejor árbol que
se ajusta a esa condición
.- lentos
.- ricos en información. Hipótesis para cada
columna dentro del alineamiento. Puede
obtenerse información sobre evolución de
sitios específicos en la molécula (Ej.: sitios
catalíticos o regiones regulatorias).
Cómo comparar diferentes métodos de
construcción de árboles?
Eficiencia : rapidez
“potencia”: número de datos requeridos para
obtener resultados razonables
Consistencia
Robustez: sensibilidad a desviaciones
Información sobre si los supuestos son
violados.
METODO IDEAL DEBERIA CUMPLIR LOS 5
CRITERIOS PERO NO EXISTE
Probar árboles con más de un
método
4. Evaluación estadística del árbol
filogenético obtenido
El test más simple para probar si el
conjunto de datos “soportan” el árbol
obtenido es el del bootstrap.
Es un método estadístico que puede
estimar las distribuciones por creación
repetida y análisis de conjuntos de
datos artificiales.
Una forma de medir el error de muestreo es tomar muchas muestras de la
población estudiada y compararlas. Bootstrap simula esto pero en lugar de
muestrear de una población “remuestrea” los datos originando
pseudorréplicas.
Valores de bootstrap ( %).
> 50 %.
Programas
ClustalW Alineamiento
Graficar con Treeview, Phylodraw
NJ-Plot
PHYLIP
MEGA 3.1 Es el más fácil de manejar
PAUP* (POP STAR). Es el más sofisticado
y versátil
TRABAJO PRÁCTICO
1. Tutorial de ClustalW
Secuencias simples
Alineamiento múltiple. Analizar. Observar árbol guía.
ClustalW para construir el árbol. Modificar opciones
en la ventana “Phylogenetic tree”. Método utilizado
por el programa es el del NJ-Vecino más cercano
(Neighbour Joining). Elegir entre los posibles
formatos de árbol (Neighbour, Phylip, Distance)
Con el archivo obtenido del CLustalW (. ph)entrar en
el programa Treeview y graficar el árbol. Observar
distintos tipos de árboles. Definir el outgroup
Descargar

Construcción de árboles filogenéticos