Introducción al Análisis
Cluster
1
Índice
•
Introducción
•
Conceptos básicos
–
–
–
–
–
Elementos
Características de los elementos
Distancias
Particiones
Jerarquías
•
Modelos de análisis cluster
•
Modelo de análisis cluster jerárquico
–
–
–
–
–
Métodos aglomerativos
Dendograma
El problema del número de clusters
Ejemplo
Cuestiones complementarias
2
Introducción
•
El problema de la clasificación
– Identificar grupos de individuos/objetos de características similares
– Tipologías
• Economía: segmentación del mercado de consumidores
• Biología: creación de una sistemática sobre el mundo vegetal y animal
• Medicina: clasificación de las enfermedades en función de su sintomatología
•
Definición de análisis cluster
Conjunto de técnicas multivariantes cuyo principal propósito es la agrupación de
individuos en conglomerados (cluster) basándose en las características de los
mismos
•
Cuestiones a tratar
–
–
–
–
–
Características
Similaridad
Modelos a utilizar
El problema del número de cluster o conglomerados
Interpretación de las características de los cluster
3
Conceptos básicos
• Objetos: son los elementos a clasificar
ai , i  1n
• Características de los objetos
– Escala
– Nominal
ai , j
i  1 n
j  1 k
4
Conceptos básicos
• Matriz de datos
a11
a21
a31
a12
a22
a32
Peso
Altura
86
1,76
53
1,58
60
1,65
5
Conceptos básicos
Representación gráfica
de la matriz de datos
6
Conceptos básicos
• Distancia
– La distancia es un índice de disimilaridad que verifica las
siguientes propiedades:
D(a, b)  0
D(a, b)  D(b, a)
D(a, a)  0
D(a, c)  D(a, b)  D(b, c)
7
Conceptos básicos
• Existe una gran variedad de distancias;
enumeramos unicamente las más
habituales
– Distancia euclídea
– Distancia euclídea al cuadrado
– Distancia de Manhattan
– Distancia de correlación de Pearson
8
Conceptos básicos
• Distancia euclídea
D(a1 , a2 )  (a11  a21 ) 2  (a12  a22 ) 2
D(a1 , a2 ) 
2
(
a

a
)
 1, j 2, j
j
9
Conceptos básicos
a  b c
2
2
10
Conceptos básicos
Matriz de distancias
Caso
1:Jose
2:Angeles
3:Conchita
distancia euclídea
1:Jose
2:Angeles
3:Conchita
,000
33,000
26,000
33,000
,000
7,000
26,000
7,000
,000
Esta es una matriz de disimilaridades
11
Conceptos básicos
• Distancia de Manhattan
D(a1 , a2 )   a1, j  a2, j
j
12
Conceptos básicos
13
Conceptos básicos
• Distancia de correlación de Pearson
Esta distancia esta basada en el coeficiente de
correlación de Pearson y por lo tanto hereda todas sus
propiedades.
El coeficiente de correlación de Pearson mide el grado
de asociación lineal entre dos objetos, es decir, hasta
que punto dos objetos son proporcionales.
A diferencia de otras medidas, este coeficiente no se ve
afectado por las escalas de medidas utilizadas.
El recorrido de este coeficiente varía entre -1 y 1
(1 indica una relación proporcional perfecta).
14
Conceptos básicos
• La estandarización de variables.
• Debido a la propia definición de distancia se
deduce que ésta va a ser sensible a los cambios
de escala, es decir, va a ser afectada por las
unidades de medida que hemos utilizado para
medir las características de los elementos.
• Si los rangos de las distintas características son
dispares el cálculo de las distancias se vería
seriamente afectado.
15
Conceptos básicos
676 0.01  26.001
(1,76-1,65)^2=0,01
(86-60)^2=676
16
Conceptos básicos
17
Conceptos básicos
• El problema de utilizar variables con distinto
recorrido.
-Homogeneizar las escalas en el intervalo 0-1.
a 
'
i, j
ai , j  min(a*, j )
max(a*, j )  min(a*, j )
18
Conceptos básicos
86
1,76
1,00
1,00
53
1,58
0,00
0,00
60
1,65
0,21
0,39
Descriptive Statistics
N
peso
Altura
npeso
naltura
Valid N (listwise)
3
3
3
3
3
Range
33,00
,18
1,00
1,00
Minimum
53,00
1,58
,00
,00
Maximum
86,00
1,76
1,00
1,00
Mean
66,3333
1,6633
,4033
,4633
19
Conceptos básicos
• Estandarizar variables
Realizar una transformación de forma que las variables
transformadas tengan media 0 y varianza 1.
a 
´
i, j
ai , j  media(a*, j )
 (a*, j )
20
Conceptos básicos
86
1,76
1,13
1,07
53
1,58
-0,77
-0,92
60
1,65
-0,36
-0,15
Descriptive Statistics
N
peso
Altura
Zpeso Zscore(peso)
ZAltura Zscore(Altura)
Valid N (listwise)
3
3
3
3
3
Range
33,00
,18
1,89789
1,98374
Minimum
53,00
1,58
-,76682
-,91840
Maximum
86,00
1,76
1,13107
1,06534
Mean
66,3333
1,6633
,0000000
,0000000
Std. Deviation
17,38774
,09074
1,00000000
1,00000000
21
Conceptos básicos
• Partición
• Sea A un conjunto finito, consideramos una clase
de subconjuntos de A, denominada H:
H i , i  1 L
• H es una partición de A si se verifica:
Hi  H j  
H
i
A
i
22
80
Japón
Italia
70
Paraguay
Croacia
Georgia
Líbano
Marruecos
60
Libia
50
India
40
Tanzania
0
5000
10000
15000
producto interior bruto per-capita
20000
23
24
Conceptos básicos
• Jerarquía
Dado un conjunto finito A, consideramos una
clase H de subconjuntos de A.
Se dice que H es una jerarquía de A si:
h, h  H , h  h' h, h,
h  H ,h : h  H , h  hh, 
25
Conceptos básicos
Jerarquía
Austria
Alemania
Noruega
Suecia
Austria
Alemania
Austria
Suecia
Noruega
Alemania
Suecia
Noruega
26
Conceptos básicos
27
Modelos de análisis cluster
•
Métodos de agrupación jerárquica.
1. Se establecen n agrupamientos. Cada
agrupamiento contiene exactamente un elemento.
2. Se agrupan los dos cluster más cercanos formando
un único cluster.
3. Se recalcula la matriz de distancias.
4. Pasamos al punto 1.
Este algoritmo realiza exactamente n-1
iteraciones.
28
Métodos de agrupación jerárquica
29
Métodos de agrupación jerárquica
30
Métodos de agrupación jerárquica
31
Métodos de agrupación jerárquica
32
Métodos de agrupación jerárquica
• Ventajas del modelo de agrupación
jerárquica.
1. No requiere hacer inferencias sobre el número de
cluster.
2. Permite representar las sucesivas agrupaciones en
forma de árbol (dendograma).
• Inconvenientes
1. Alto coste computacional.
2. Sensible respecto de las primeras agrupaciones.
3. Complicado de interpretar cuando el número de
elementos a clasificar es grande.
33
Métodos de agrupación
no jerárquica
1. Se determina a priori el número de clusters que se
desea construir (k).
2. Se establece una configuración aleatoria de los
centros de estos clusters, estos centros se
denominan centroides.
3. Los elementos se asignan al cluster cuyo centroide
esté más cerca.
4. Se recalculan (actualizan) nuevamente los
centroides en función de los elementos que les han
sido asignados
5. Se repite el algoritmo desde el paso 3, hasta que
los centroides dejan de cambiar.
34
Métodos de agrupación
no jerárquica
35
Métodos de agrupación
no jerárquica
36
Métodos de agrupación
no jerárquica
•
Ventajas del análisis cluster no jerárquico.
1. Rapidez.
2. Permite el procesamiento de gran número de datos.
•
Inconvenientes
1. Hay que determinar el número óptimo de cluster a
priori.
2. Muy sensible ante la presencia de datos extremos.
3. Sólo se pueden utilizar medidas euclídeas.
4. Sensible respecto de la ordenación de los datos.
37
Análisis cluster jerárquico
•
Fases de un análisis cluster jerárquico.
1. Determinar qué características vamos a utilizar para
comparar los elementos a clasificar.
2. Considerar la conveniencia de estandarizar o no
dichas características.
3. Determinar qué distancia debemos utilizar para
medir la similaridad entre elementos.
4. Fijar el método de conglomeración.
5. Examinar el dendograma para determinar el número
óptimo de agrupaciones.
6. Estudio e interpretación de la partición obtenida.
7. Verificar la estabilidad de la solución.
38
Análisis cluster jerárquico
• Métodos de conglomeración
– Vecino más cercano.
– Vecino más lejano.
– Centroide
– Vinculación intergrupos
39
Análisis cluster jerárquico
• Vecino más cercano.
– La distancia entre dos conglomerados se
define como la distancia (en la métrica
considerada) de los dos elementos más
cercanos.
– Este método tiende a maximizar lo conexo.
40
Análisis cluster jerárquico
41
Análisis cluster jerárquico
• Vecino más lejano.
– La distancia entre dos conglomerados se
define como aquélla entre los elementos más
alejados.
– Este método tiende a minimizar las distancias
dentro de los conglomerados.
42
Análisis cluster jerárquico
• Método del centroide.
• La distancia entre dos cluster se define
como la distancia entre las medias
(centroides) de los mismos.
43
Análisis cluster jerárquico
44
Análisis cluster jerárquico
• Vinculación entre grupos
• Se define la distancia entre dos clusters
como el promedio de las distancias entre
todos los pares de elementos de los dos
conglomerados.
45
Análisis cluster jerárquico
46
Análisis cluster jerárquico
• Dendograma
• El dendograma es un diagrama con estructura
de árbol binario que muestra las fusiones de los
elementos en cada paso del procedimiento
jerárquico.
• El dendograma se representa por medio de dos
ejes perpendiculares. En uno de ellos se
representan los elementos a clasificar, en el otro
eje se representan las distancias a la que se
van juntando los elementos.
47
Análisis cluster jerárquico
48
Análisis cluster jerárquico
• El problema del número de clusters.
• No existe ningún criterio general que nos
permita determinar el número óptimo de
clusters, pues influyen factores como el número
de elementos con valores extremos, las
distribuciones que siguen las variables … etc.
• Una forma de determinar el número óptimo de
cluster es examinar atentamente el historial del
algoritmo de aglomeración y el dendograma del
mismo.
• Un factor a tener muy en cuenta es el tamaño
de los clusters resultantes.
49
Análisis cluster jerárquico
50
Análisis cluster jerárquico
51
Descargar

Analisis cluster.7