Predicción de árboles
filogenéticos:
UPGMA
Marco Antonio Robles Montoya
METODOS DE DISTANCIA





Emplea el numero de cambios entre pares dentro de un
grupo de secuencias para producir un árbol filogenético
del grupo.
El par de secuencias que tenga el menor numero de
cambios entre si son “vecinos”
Los “vecinos” parten de un mismo nodo o ancestro
común al cual son unidos por una rama.
Objetivo: Identificar un árbol donde las posiciones de los
vecinos sea correcta y que las longitudes de las ramas
reproduzcan la información original lo mas parecido
posible.
Buscar los “vecinos” mas parecidos o mas cercanos:
primer paso para el alineamiento de secuencias múltiple.





Iniciado por Feng y Doolitle (1996)
Programas producían un alineamiento y un árbol de
secuencias de proteínas.
CLUSTALW: métodos de distancias como guía para el
alineamiento de secuencias múltiple
PAUP 4: análisis filogenético por método de distancias
PHYLIP: Realizan análisis de distancia, incluyen los
anteriores programas.

DNADIST: calcula distancias entre secuencias de
ácidos nucleicos. Opciones de varios modelos de
evolución. Opciones para el numero esperado de
transiciones a transversiones.

PROTDIST: Calcula la distancia medida para
secuencias de proteínas, basada en el modelo
Dayhoff PAM u otros modelos de cambios evolutivos
en proteínas.

Matrices de distancia producidos serán usados como dato
(input) para los programas de análisis de distancia.

Análisis de distancias utilizado por PHYLIP:



FITCH: Estima un árbol filogenético asumiendo las sumas
de las longitudes de las ramas usando el método de FitchMargoliash y no asume el RELOJ MOLECULAR
KITSCH: Estima un árbol filogenético usando el método
de Fitch-Margoliash pero bajo la aceptación del RELOJ
MOLECULAR.
NEIGHBOR: Estima filogenias usando el acople de
“vecinos” (NEIGHBOR-JOINED) o UPGMA. El método de
NEIGHBOR-JOINED no asume el RELOJ MOLECULAR y
produce un árbol sin raíz. El método de UPGMA asume el
RELOJ MOLECULAR y produce un árbol con raíz.
RELOJ MOLECULAR


Proviene de la teoría neutral de la evolución de Kimura.
Mutaciones se acumulan aproximadamente
constantemente a lo largo del tiempo en DNA.
 La diferencia entre secuencias de DNA o proteínas en
dos especies serán proporcionales al tiempo desde que
las especies divergieron de un ancestro común
 Diferentes secuencias de DNA (o proteínas) o diferentes
partes de un mismo gen se desarrollan con marcadas
diferencias evolutivas.
 fibrinopeptido - citocromo c
 Intrones y pseudogenes - secuenciais codificantes
(exones)
 Los relojes moleculares si pueden existir, pero en
árboles “locales”, mas no “universales”.
UPGMA (The Unweighted Pair Group
Method with Arithmetic Mean)




Mas simple método para la construcción de árboles.
Asume el rango de cambio a lo largo de las ramas del
árbol es constante
Las distancias son ultra métricas (equidistantes a la raíz
todos los OTUS).
Distancias ultra métricas: definido por la condición de los
3 puntos (the three-point condition):
 Para culquier taxa, las dos distancias mas grandes
son iguales.

PROCEDIMIENTO
 1.- Calcula las longitudes de las ramas entre las
secuencias mas cercanas
 2.- Promedia la distancia entre el par o entre el grupo
de secuencias.
 3.- Continua hasta que todas las secuencias están
incluidas en el árbol
 4.- Finalmente, predice una posición para la raíz del
árbol
ALGORITMO


d = función distancia entre especies
Definición de la distancia Di,j entre 2 clusters de las
especies Ci y Cj:

Donde ni = |Ci| y nj = |Cj|




Una especie por cluster.
Busqueda del i y j que tenga la menor distancia Dij.
Creación de un nuevo cluster (ij).
Conección de i y j en el árbol a un nuevo nodo, el cual
corresponde al nuevo cluster (ij), y dar a las dos ramas
conectoras i y j a (ij) la longitud
.

Calculo de la distancia desde el nuevo cluster a todos
los otros clusters como un promedio de las distancias de
sus componentes.

Eliminar las columnas y filas en D y adicionar una
columna y una fila por cluster (ij), con D(ij)
Realizar todo el procedimiento hasta que no queden
clusters.

EJEMPLO 1
B
C
D
E
F
A
2
4
6
6
8
B
C
D
E
4
6
6
8
6
6
8
4
8
8

dist(A,B),C = (distAC + distBC) / 2 = 4

dist(A,B),D = (distAD + distBD) / 2 = 6

dist(A,B),E = (distAE + distBE) / 2 = 6

dist(A,B),F = (distAF + distBF) / 2 = 8
C
D
E
F
A,B C
D
E
4
6
6
8
4
8
8
6
6
8
C
D,E
F
A,B
C
D,E
4
6
8
6
8
8
D,E
F
AB,C
D,E
6
8
8
ABC,DE
F
8
EJEMPLO 2
A
B 5
C 4
D 7
E 6
F 8
B
C
D
E
7
10 7
9 6
11 8
5
9
8
B
D
E
F
A,C
4
7
6
8
B
D
E
10
9
11
5
8
9
B
D,E
F
A,C
B
D,E
6
6.5
8
9.5
11
8.5
D,E
F
AC,B
D,E
8
9.5
9.5
ABC,DE
F
9
EJEMPLO2
EJEMPLO1
Descargar

METODOS DE DISTANCIA