2. ANÁLISIS DE COMPONENTES PRINCIPALES
Objetivo:
Transformar un conjunto de variables en un nuevo conjunto, componentes
principales, incorrelacionadas entre sí. Se consigue una representación
simplificada, más sencilla y fácil de ver.
Metodología:
Los datos se presentan en una tabla rectangular con n líneas (individuos) y p
columnas (variables) (matriz R, nxp). Puede ser disimétrica y con variables
heterogéneas. Hay dos espacios:
Rp : n individuos con los valores que toman para cada una de las p variables.
Rn : p variables para cada individuo.
Finalidad:
Buscar un subespacio Rq, q<p que contenga la mayor cantidad posible de
información de la nube primitiva, y que mejor se ajuste a la nube de puntos y la
deforme lo menos posible. El criterio de ajuste es el de mínimos cuadrados. Se
obtendrán nuevas variables, combinaciones lineales de las variables originales
llamadas factores o componentes.
1
Gráficamente:
ui es el vector unitario o propio y zi es la proyección de xi en Fi.
Como medida de la cantidad de información incorporada en una componente se utiliza su
varianza. Cuanto mayor sea, mayor es la información incorporada a dicha componente. La
primera componente será la de mayor varianza.
Para obtener los factores o componentes que diferencian al máximo a los individuos entre sí,
medidos a través de caracteres métricos, la extracción se realiza sobre variables tipificadas, con
matriz X, para evitar problemas de escala. La suma de las varianzas es igual a p, ya que la de
cada una de ellas es igual a 1 y habrá tantas componentes como número de variables originales.
Mientras más correlacionadas estén las variables originales entre sí, más alta será la variabilidad
que se pueda explicar con menos componentes. Si existiera incorrelación, el ACP carecería de
sentido, ya que las variables originales y las componentes o nuevas variables coincidirían.
2
MATRIZ DE DATOS
Cálculo de medias y
desviaciones típicas
X: MATRIZ DE DATOS TIPIFICADOS
R =X´X
MATRIZ DE CORRELACIONES
Diagonalización de R, cálculo de
valores propios, varianza
explicada y correlaciones
COMPONENTES PRINCIPALES
3
Resumen
Las componentes principales son combinaciones lineales de las variables
originales.
Los coeficientes de las combinaciones lineales son los elementos de los
vectores característicos asociados a la matriz de covarianzas de las variables
originales. Por tanto, la obtención de componentes principales es un caso típico
de cálculo de raíces y vectores característicos de una matriz simétrica.
La primera componente se asocia a la mayor raíz característica a que va
asociada.
Si se tipifican las variables originales, su proporción de variabilidad total captada
por una componente es igual a su raíz característica dividida por el número de
variables originales.
La correlación entre una componente y una variable original se determina con la
raíz característica de la componente y el correspondiente elemento del vector
característico asociado, si las variables originales están tipificadas
4
SPSS versión 10.0 para windows
• Coeficientes: Matriz de los coeficientes de correlación entre todas las variables analizadas.
• Niveles de significación: Unilaterales para cada uno de los coeficientes de correlación.
• Determinante: muestra el determinante de la matriz que recoge los coeficientes de correlación.
• KMO y prueba de esfericidad de Bartlett: Calcula la medida de la adecuación muestral de
Kaiser-Meyer-Olkin que es el estadístico de contraste de la hipótesis de que las correlaciones
parciales entre las variables son pequeñas.
•Inversa: muestra la inversa de la matriz de correlaciones.
•Reproducida: Matriz de correlaciones obtenida a partir del modelo factorial estimado. Muestra
las correlaciones residuales como medida del nivel de error de estas estimaciones, es decir, las
diferencias entre las correlaciones observadas de las variables originales y las estimadas.
• Anti-imagen: Matriz con los negativos de los coeficientes de correlación parcial. Para que el
modelo factorial sea considerado bueno la mayoría de los elementos fuera de la diagonal principal
deben ser pequeños, mientras que en la diagonal principal se muestran los valores de la
5
adecuación muestral para cada una de las variables consideradas individualmente.
Como mínimo habrá que pedir la media y la desviación típica y los coeficientes de la matriz
de correlaciones lineal de Pearson entre las variables dos a dos. En general, se debería
usar alguna de las otras opciones, como son:
Los niveles de significación, obtenidos en un test de hipótesis de los coeficientes de
correlación lineal.
El índice KMO (Kaiser-Meyer-Olkin) Se obtendrá mediante la siguiente ecuación:
  r ij
2
KMO 
i j
  r ij
2
i j

  a ij
2
i j
donde:
rij : coeficiente de correlación lineal de Pearson entre las variables i,j
aij: coeficiente de correlación parcial entre las variables i,j
Índice KMO alto, implica que el nivel de correlación entre las variables analizadas es alto y
por tanto tiene sentido el Análisis de Componentes Principales, puesto que se podrá reducir
la dimensionalidad del problema agrupando variables con una alta correlación entre ellas.
La prueba de esferidad de Bartlett se utiliza para verificar si la matriz de correlaciones es
una matriz de identidad o no. Indica la inadecuación del modelo factorial propuesto.
6
Elección del numero de ejes
Criterio de la media aritmética:
Se seleccionan las componentes cuya varianza (valor propio) o inercia asociada
a cada componente, exceda de la media de las raíces características. Por tanto,
se debe verificar que
p
λh  λ 
 λi
i 1
p
p
Si las variables originales están tipificadas,  λ j  p, por lo que la media de la
1
inercia es igual a 1. Se retendrán los factores jcuya
inercia sea mayor que 1.
7
Comando Extracción SPSS
Método factorial: Análisis de Componentes Principales
Matriz de correlaciones. Entre las variables. Punto muy importante
Solución factorial sin rotar: Definir cada una de las componentes retenidas.
Gráfico de sedimentación de los autovalores: Ayuda a en la elección del
número de factores. Según el cambio de pendiente del gráfico, confirmará a
partir de qué factor la cantidad de varianza explicada disminuye drásticamente.
Extraer: Elección del número de componentes. Por defecto, las componentes
con autovalores mayores que 1, siguiendo el criterio de la media aritmética.
8
Obtención de las puntuaciones factoriales
Guardar las puntuaciones factoriales de cada individuo como variables
añadidas al fichero de datos inicial.
Método: El más usual es el de Regresión
9
Posicionamiento de países de la U E frente al
cumplimiento de las condiciones de Maastricht
Encargo: Una asociación de empresarios dedicados a la exportación
de productos a Europa, encarga un estudio del entorno económico
europeo.
Objetivo:
Conocer la situación de cada país de la UE en cuanto a las previsiones
de entrada en el MUE y la similitud o disimilitud entre ellos.
Fase cualitativa
Se consideraron las cuatro variables para el cumplimiento de las
condiciones de Maastricht: Inflación, deuda, déficit y crecimiento.
10
Datos
P aís
Inflación D éficit (*) D euda (*) C recim iento
B élgica
1,9
2,7
126,7
2,3
D inam arca
2,8
0,3
67,2
3
Alem ania
1,9
3
61,8
2,3
G recia
6
4,9
108,3
3,1
E spaña
2,4
3
88,1
2,8
Francia
1,6
3
57,9
2,3
Irlanda
2
1
68,3
7,2
Italia
2,7
3,2
122,4
1,2
Luxem burg o
1,7
1,1
6,5
3,7
H olanda
2,4
2,3
76,2
3,1
P ortugal
2,5
3
64,1
3,2
R eino U nido
2,3
2,9
54,7
2,5
Austria
2,1
3
68,5
1,6
Finlandia
0,9
1,9
59,2
4,4
S uecia
1,5
2,6
78,5
2,1
Fuente: Informe Previsiones Económicas de primavera del año 1997. Club
Mediterranée
11
Resultados
V ariab les C o eficien te
C recim iento
D éficit
D euda
Inflación
C o rre la c ió n
S ig .
(U n ila te ra l)
V ariació n P earso n
2,12
2,28
4,49
2,04
In fla c ió n D é fic it D e u d a C re c im ie n to
In fla c ió n
1 ,0 0 0 ,5 4 0 ,4 2 1
-,0 8 5
D é fic it
,5 4 0 1 ,0 0 0 ,5 0 4
-,5 0 2
D euda
,4 2 1 ,5 0 4 1 ,0 0 0
-,3 1 4
C re c im ie n to
-,0 8 5 -,5 0 2 -,3 1 4
1 ,0 0 0
In fla c ió n
,0 1 9 ,0 5 9
,3 8 2
D é fic it
,0 1 9
,0 2 8
,0 2 8
D euda
,0 5 9 ,0 2 8
,1 2 7
C re c im ie n to
,3 8 2 ,0 2 8 ,1 2 7
12
Valores propios y % de variación explicada
Au to valo res in iciales
C o m p o n en te T o tal % d e la varian za % acu m u lad o
1
2,215
55,367
55,367
2
,922
23,051
78,418
3
,560
13,994
92,411
4
,304
7,589
100,000
13
Correlaciones de las variables con los factores y
coordenadas de países con los factores
C o m p o n e n te
1
2
D é fic it
,8 7 9 -5 ,2 7 1 E -0 2
Deuda
,7 6 4
,1 0 7
In fla c ió n
,6 9 8
,5 9 8
C re c im ie n to -,6 1 0
,7 4 2
P a ís e s
B é lg ic a
D in a m a rc a
A le m a n ia
G re c ia
España
F ra n c ia
Irla n d a
Ita lia
L u x e m b u rg o
H o la n d a
P o rtu g a l
R e in o U n id o
A u s tria
F in la n d ia
S u e c ia
FACTO R 1
FACTO R 2
,6 9 6 1 5
-,4 2 9 7 8
-,7 4 3 9 8
,3 7 4 2 5
,0 4 8 1 0
-,6 9 8 9 9
2 ,2 5 2 5 2
2 ,1 8 0 9 1
,3 9 5 5 8
-,0 2 5 8 2
-,0 8 0 5 4
-,8 8 5 4 8
-1 ,5 2 0 8 6
2 ,2 7 9 2 7
1 ,2 6 1 8 0
-,6 4 2 6 4
-1 ,6 0 5 5 0
-,1 3 3 3 5
-,0 5 2 4 7
,1 3 4 7 8
,0 6 5 9 2
,1 6 5 3 9
,0 0 1 5 8
-,3 7 9 2 7
,3 1 8 0 6
-,9 5 7 5 6
-1 ,0 6 3 4 7
-,0 2 6 3 8
,0 2 7 1 0
-,9 5 5 3 5
14
Rotación de los ejes: Procedimientos
Objetivo:
Obtener nuevos factores más fáciles de interpretar. Cada variable original tendrá una
correlación lo más próxima a 1 con uno de los factores y lo más próximas a 0 con el resto.
Cada factor tendrá correlación alta con un grupo de variables y baja con el resto.
1. Rotación ortogonal: Queda preservada la incorrelación entre los factores.
VARIMAX. Los ejes de los factores rotados se obtienen maximizando la suma de varianzas
de las cargas factoriales al cuadrado dentro de cada factor. Problema: Las variables con
mayores comunalidades tienen mayor influencia en la solución final. Para evitarlo:
normalización de Kaiser: Cada carga factorial al cuadrado se divide por la comunalidad de
la variable correspondiente (VARIMAX normalizado). Ventaja: queda inalterada tanto la
varianza total explicada por los factores como la comunalidad de cada una de las variables
EQUAMAX y el QUARTIMAX
2. Rotación oblicua: Factores no incorrelacionados. Se compensarse si se consigue una
asociación más nítida de cada variable con el factor correspondiente.
OBLIMIN: Se utilizan algoritmos para controlar el grado de no ortogonalidad. Tampoco se
ve modificada la comunalidad en la rotación oblicua
15
Interpretación simultanea: Rotación VARIMAX
C o m p o n en te
1
2
Inflación
,914 9,059E -0 2
D éficit
,691
-,546
D euda
,687
-,350
C recim iento -7,511E -0 2
,957
P A ÍS E S
FACTO R 1 FACTO R 2
B é lg ic a
,3 2 4 7 7
-,7 5 0 9 1
D in a m a rc a
-,3 9 5 7 7
,7 3 2 7 5
A le m a n ia
-,3 6 0 7 0
-,6 0 0 6 6
G re c ia
3 ,0 9 5 4 0
,4 9 8 7 4
España
,3 0 9 5 7
-,2 4 7 6 2
F ra n c ia
-,5 7 2 9 4
-,6 7 9 9 3
Irla n d a
,0 5 7 7 7
2 ,7 3 9 4 8
Ita lia
,6 6 6 7 1
-1 ,2 4 9 2 4
L u x e m b u rg o
-1 ,3 9 2 7 4
,8 0 9 7 4
H o la n d a
,0 3 4 1 3
,1 4 0 5 5
P o rtu g a l
,1 4 8 7 3
,0 9 7 8 7
R e in o U n id o
-,2 1 5 8 2
-,3 1 1 8 9
A u s tria
-,2 8 7 3 7
-,9 6 7 2 1
F in la n d ia
-,8 8 7 0 8
,5 8 7 1 5
S u e c ia
-,5 2 4 6 7
-,7 9 8 8 4
16
3
R E P R E S E N T A C IÓ N
Irlan
S IM U
LTÁ N EA
da
F 2
A
RECI
C 1 Lu xe m bu D inCam
a
Fin lan M IE
T
rgo
rca
d
ia
IN F L A C
O
DIÓ
EN
U
R 0
D ÉFI
Fran
S u ecc B élgi
DA
A
u
str
C
IT
iaia
ca Ita li
ia
a
2 -1
-2
-2
G reci
a
-1
0
1
2
3
4
FA CT O R 1
17
Descargar

Document