Escalogramas
multidimensionales
Introducción
• Dada una matriz de distancias, D, (contiene
ceros en la diagonal es simétrica y
cuadrada) obtener las variables que han
generado estas distancias
• La matriz puede ser de similaridades (con
unos en la diagonal y cuadrada y simétrica)
• distancia =1- similaridad
Coordenadas principales
• Dada la matriz D de distancias, ¿Podemos
encontrar las variables que podrían haberla
generado?
• Es decir, ¿Podemos encontrar una matriz de
datos X que puede haber generado la D?
• Método: entender como se genera una
matriz D conocida la X y reconstruir el
camino al reves para encontrar la matrix X a
partir de la D
Obtención de las coordenadas
principales
Definamos:
(Esta matriz es una estandarización de la matriz de distancias)
(determinamos el rango de la matriz de distancias estandarizada)
Coordenadas principales
(Aproximamos la matriz Q como producto XX’ para cierta X)
Ejemplo
(Estas distancias estandarizadas suman ahora cero por filas y columnas,
para facilitar la lectura, la matriz se ha dividido por 10000)
Ejemplo
Los vectores y valores propios de Q son:
Las coordenadas resultantes de tomar dos dimensiones son:
Ejemplo
Justificación del método
Con esta matriz de variables de media cero podemos calcular
dos matrices cuadradas:
La S de covarianzas entre variables y la
Q matriz de productos escalares entre observaciones
Relación entre la matriz de distancias, D, y la Q:
Conclusión: Dada la matriz Q podemos obtener la D
Forma de recuperar la Q dada la D
Observemos que como las variables tienen
media cero, la suma de una fila de Q es
cero.
t =traza(Q)
Ecuación para recuperar la Q dada la D
Obtener la matriz X dada la Q
• Realizar la descomposición espectral de la
matriz cuadrada Q
Q=ABA’=AB1/2B1/2A’
donde A y B contienen los valores y vectores
propios no nulos. Entonces:
X=AB1/2
• Diremos que la matriz D es compatible con
una metrica euclidea si la matriz Q obtenida
como
Q=-(1/2)PDP
• es semidefinida positiva
Ejemplo: similitud entre
productos
Ejemplo
Relación con componentes
• Componentes: valores y vectores propios de
S
• Coordenadas: valores y vectores propios de
Q
Si los datos son métricos ambos procedimientos son idénticos
Coordenadas generaliza componentes para datos no exactamente
métricos
Biplots
Representación en dos dimensiones de una matriz de
datos o distancias por filas y columnas
Representar conjuntamente los observaciones por las filas de V2 y
Las variables mediante las coordenadas D1/2 A’2
Se denominan biplots a los gráficos de dos dimensiones para
una matriz de datos, que aproximan su estructura por filas y columnas
Biplot
Justificación
Escalado no métrico
• Se parte de una matriz de similaridades
entre objetos
• Se supone que las variables que determinan
las distancias euclídeas entre los elementos
estan relacionadas con las similaridades
observadas entre los objetos pero solo de
una forma monótona
similaridad =F (distancia)
Escalado no métrico
Idea del método
• Si tenemos una relación monótona entre x e
y debe haber una relación lineal exacta entre
los rangos de x y los de y
• Asignar rangos estimar una regresión e
iterar
Descargar

Escalogramas multidimensionales