EL SPSS Y LAS TÉCNICAS
MULTIVARIANTES AL SERVICIO DE LA
INVESTIGACIÓN DE MERCADOS
Dr. D. Ángel M. Ramos Domínguez
Director-Profesor del Curso
Dra. Dña. Victoria I. Jiménez González
Profesora del Curso
1
CONTENIDO
1.
2.
3.
4.
5.
6.
Introducción al análisis multivariante y al SPSS
Análisis de componentes principales:
posicionamiento de productos
Análisis de correspondencias: mapa de
posicionamiento
Análisis cluster: segmentación de mercados
Análisis de la Varianza paramétrico y no
paramétrico
Análisis discriminante: clasificación de nuevos
clientes
2
BIBLIOGRAFÍA BÁSICA
Análisis Multivariante Aplicado. Uriel Jiménez, E. y Aidás Manzano, J.
Paraninfo Cengage Learning. 2005.
Técnicas de Análisis Multivariante. Jimenez, V. y Ramos, A. Fotocopiadora
Campus. 2007.
Técnicas estadísticas con SPSS versión 12. Aplicaciones al análisis de
datos. C.Pérez. Pearson-Prentice Hall. 2005.
Técnicas de análisis multivariantes de datos. Aplicaciones con SPSS.
López, C.Pearson-Prentice-Hall.
Técnicas de Análisis de datos en investigación de mercados. Luque
Martínez, T. Ed Piramide. 2000.
Métodos multivariantes para investigación comercial. Abascal, E. y Grande,
I. Ariel Economía. 1989.
Métodos estadíticos avanzados con SPSS. Pérez López, C. Editorial
Thomson. 2005.
3
1. Introducción
1.
2.
3.
1.
2.
3.
Definición:
Técnicas estadísticas para el análisis descriptivo o inferencial
de observaciones multivariantes.
Objetivos:
Describir
Estructurar la población creando grupos o clases.
Explicar las relaciones observadas entre caracteres
Problemas a resolver:
Dimensionalidad
Información redundante
Clasificación
4
TIPOS DE TÉCNICAS MULTIVARIANTES
1.
2.
1.
2.
Factoriales:
Análisis de Componentes Principales. Para tablas de
medidas o de escalas métricas.
Análisis de Correspondencias Simple y Múltiple. Para tablas
de contingencia o de frecuencias
Clasificación:
Análisis Cluster
Análisis Discriminante
5
FUENTES DE DATOS
Objetivo del estudio
Información disponible:
Fuentes de datos
Encuestas:
Características de la población de la que se extrae la
muestra
Diseño muestral
Presupuesto disponible
6
2. Análisis de Componentes Principales
Objetivo:
Transformar un conjunto de variables en un nuevo conjunto, componentes
principales, incorrelacionadas entre sí. Se consigue una representación
simplificada, más sencilla y fácil de ver.
Metodología:
Los datos se presentan en una tabla rectangular con n líneas (individuos) y p
columnas (variables) (matriz R, nxp). Puede ser disimétrica y con variables
heterogéneas. Hay dos espacios:
Rp : n individuos con los valores que toman para cada una de las p variables.
Rn : p variables para cada individuo.
Finalidad:
Buscar un subespacio Rq, q<p que contenga la mayor cantidad posible de
información de la nube primitiva, y que mejor se ajuste a la nube de puntos y la
deforme lo menos posible. El criterio de ajuste es el de mínimos cuadrados. Se
obtendrán nuevas variables, combinaciones lineales de las variables originales
llamadas factores o componentes.
7
Gráficamente:
ui es el vector unitario o propio y zi es la proyección de xi en Fi.
Como medida de la cantidad de información incorporada en una componente se utiliza su
varianza. Cuanto mayor sea, mayor es la información incorporada a dicha componente. La
primera componente será la de mayor varianza.
Para obtener los factores o componentes que diferencian al máximo a los individuos entre sí,
medidos a través de caracteres métricos, la extracción se realiza sobre variables tipificadas, con
matriz X, para evitar problemas de escala. La suma de las varianzas es igual a p, ya que la de
cada una de ellas es igual a 1 y habrá tantas componentes como número de variables originales.
Mientras más correlacionadas estén las variables originales entre sí, más alta será la variabilidad
que se pueda explicar con menos componentes. Si existiera incorrelación, el ACP carecería de
sentido, ya que las variables originales y las componentes o nuevas variables coincidirían.
8
MATRIZ DE DATOS
Cálculo de medias y
desviaciones típicas
X: MATRIZ DE DATOS TIPIFICADOS
R =X´X
MATRIZ DE CORRELACIONES
Diagonalización de R, cálculo de
valores propios, varianza
explicada y correlaciones
COMPONENTES PRINCIPALES
9
Resumen
Las componentes principales son combinaciones lineales de las variables
originales.
Los coeficientes de las combinaciones lineales son los elementos de los
vectores característicos asociados a la matriz de covarianzas de las variables
originales. Por tanto, la obtención de componentes principales es un caso típico
de cálculo de raíces y vectores característicos de una matriz simétrica.
La primera componente se asocia a la mayor raíz característica a que va
asociada.
Si se tipifican las variables originales, su proporción de variabilidad total captada
por una componente es igual a su raíz característica dividida por el número de
variables originales.
La correlación entre una componente y una variable original se determina con la
raíz característica de la componente y el correspondiente elemento del vector
característico asociado, si las variables originales están tipificadas
10
CASO:
Posicionamiento de turistas en Tenerife
Objetivo: Posicionamiento del producto turístico de
Tenerife según nacionalidades.
Metodología:




Cuestionario: Fichero base turistas curso.sav.
Caso de ACP: Se han elegido noches, nº visitas, nº
personas, gasto y edad
Se crea una nueva variable: Gasto/persona/noche.
Se obtienen las medianas por nacionalidad para las
variables.
11
Datos. Medianas
Nacionalidad
Alemana
Austriaca
Belga
Británica
Española
Europa exc
Finlandesa
Francesa
Holandesa
Italiana
R. América
R. Europa
R. mundo
Sueca
Suiza
Nº
Noches
14,00
7,00
7,00
14,00
7,00
7,00
32,00
7,00
14,00
7,00
29,00
7,00
6,00
7,00
7,00
Nº visitas
anteriores
,00
,00
1,00
2,00
,00
,00
50,00
,00
,00
,00
1,00
,00
,00
,00
,00
Gasto
noche/persona
76,6290
35,7452
46,2028
37,5633
85,8589
41,7811
46,9541
75,1265
18,9410
72,9800
19,1990
89,0786
117,9486
123,5552
80,3639
Edad
42,00
33,00
35,00
39,00
31,00
24,50
73,00
38,00
26,00
28,00
22,50
34,00
30,00
30,00
37,00
Fuente: Encuesta a turistas. Base turistas.sav
Tabla de datos:
Matriz con 15 filas, correspondientes a las nacionalidades, y 4
columnas, correspondientes a las 4 variables. Dentro, medianas
12
SPSS versión 14.0 para windows
Analizar Reducción de datos
Análisis Factorial
13
Elección del numero de ejes
Criterio de la media aritmética:
Se seleccionan las componentes cuya varianza (valor propio) o inercia
asociada a cada componente, exceda de la media de las raíces
características. Por tanto, se debe pverificar que
λh  λ 
 λi
i 1
p
p
Si las variables originales están tipificadas,  λ j  p , por lo que la media
de la inercia es igual a 1. Se retendrán losj 1 factores cuya inercia sea
mayor que 1.
14
Resultados ACP 1
Estadísticos descriptivos más importantes de las variables utilizadas
Estadísticos descriptivos
Media
Nº Noches
Desviación
típica
N del análisis
11,47
8,27
15
3,60
12,85
15
Edad del turista
34,87
11,92
15
Gasto por pers ona y día
64,53
32,54
15
Nº visitas anteriores
El perfil promedio de los turistas de la muestra tiene un estancia promedio
de 11 o 12 días, han visitado con anterioridad la isla entre 3 y 4 ocasiones, el
gasto persona/día de sus vacaciones ha sido de 64,53€, la edad es
aproximadamente 35 años.
La variable con mayor grado de dispersión relativa es el nº de visitas
anteriores (357%).
15
Resultados ACP 2
Matriz de correlaciones
Nº Noches
Correlación
Sig. (U nilateral)
Nº Noches
Nº visitas
anteriores
Edad del
turis ta
Gasto por
pers ona y día
1,000
,702
,509
-,508
Nº visitas anteriores
,702
1,000
,887
-,170
Edad del turista
,509
,887
1,000
-,016
Gasto por pers ona y día
-,508
-,170
-,016
1,000
,002
,026
,027
,000
,272
Nº Noches
Nº visitas anteriores
,002
Edad del turista
,026
,000
Gasto por pers ona y día
,027
,272
,478
,478
Matriz de coeficientes de correlación para todos los pares de variables
originales.
Niveles de significación unilaterales de cada uno de los coeficientes.
Para un nivel del 5% de significación, resultaron significativos 4 de los 6
(67%), porcentaje de índices de correlación adecuado para el análisis.
16
Resultados ACP 3
La adecuación de los datos al análisis factorial de componentes principales se contrasta
mediante KMO y prueba de Bartlett
KMO y prueba de Bartlett
Medida de adecuación mues tral de
Kais er-Meyer-Olkin.
Prueba de esfericidad
de Bartlett
Chi-cuadrado
aproximado
gl
Sig.
,572
32,762
6
,000
17
Resultados ACP 4
KMO:
Estadístico de prueba de la hipótesis de que las correlaciones parciales entre las
variables son pequeñas. Indica la proporción de varianza de las variables originales que
es común, y que podría ser explicada por factores subyacentes. Valores cercanos a 1: un
análisis factorial puede ser útil para los datos. Valores menores de 0,5: los resultados
probablemente no sean muy útiles.
  r ij
2
KMO 
i j
  r ij
2
i j

  a ij
2
i j
rij : coeficiente de correlación lineal de Pearson entre las variables i,j
aij: coeficiente de correlación parcial entre las variables i,j
KMO = 0,6: Los datos muestran ser adecuados para el análisis ACP.
Prueba de esferidad de Bartlett:
Indica si la matriz de correlaciones es una matriz identidad, por lo que que las variables
no están relacionadas
Hay evidencia suficiente para rechazar que la matriz de correlaciones es una matriz
identidad. Existe un cierto nivel de relación entre las variables.
18
Resultados ACP 5
Matrices anti-imagen
Nº visitas
anteriores
Nº Noches
Covarianza anti-imagen
Correlación anti-imagen
Edad del
turis ta
Gasto por
pers ona y día
Nº Noches
,333
-,117
,057
,236
Nº visitas anteriores
-,117
,128
-,130
-,013
Edad del turista
,057
-,130
,184
-,047
Gasto por pers ona y día
,236
-,013
-,047
,661
-,567
,229
,503
,556 a
-,850
a
Nº Noches
,617
Nº visitas anteriores
-,567
a
Edad del turista
,229
-,850
,569
Gasto por pers ona y día
,503
-,043
-,136
-,043
-,136
,513 a
a. Medida de adecuación mues tral
Covarianzas y correlaciones parciales negativas. Índice de las correlaciones no debidas a los
factores. Valores pequeños: las variables están relativamente libres de correlaciones no
explicadas. La mayoría de los valores fuera de la diagonal principal deberían ser muy pequeños
(próximos a cero). En nuestro caso, parece existir una parte importante de las correlaciones entre
las variables que los factores extraídos no consiguen explicar.
Elementos de la diagonal principal de la matriz de correlación anti-imagen: medida de adecuación
muestral para cada variable. Valores inferiores a 0,5: Las variables no se ajustan a la estructura
de las otras. Deberíamos eliminarlas del análisis. En nuestro caso todas las variables presentan
una medida de adecuación muestral superior a 0,5.
19
Resultados ACP 6
Comunalidades
Inicial
Extracción
Nº Noches
1,000
,835
Nº visitas anteriores
1,000
,954
Edad del turista
1,000
,918
Gasto por pers ona y día
1,000
,926
Método de extracción: Análisis de Componentes principales.
Indican la cantidad de varianza de cada variable que es explicada. En el método de
extracción Componentes Principales, las comunalidades iniciales son siempre 1.
Las comunalidades de la extracción son estimaciones de la varianza de cada variable
que es explicada por los factores incluidos en la solución factorial.
Para todas las variables la cantidad de varianza explicada por los factores de la
solución factorial es alta.
Todas las variables se ajustan bien a la solución factorial.
20
Resultados ACP 7
Varianza total explicada
Sumas de las saturaciones al cuadrado
de la extracción
Autovalores iniciales
Componente
1
Total
% de la
varianza
% acumulado
Total
% de la
varianza
% acumulado
Suma de las s aturaciones al cuadrado
de la rotación
Total
% de la
varianza
% acumulado
2,511
62,772
62,772
2,511
62,772
62,772
2,248
56,190
56,190
2
1,122
28,047
90,819
1,122
28,047
90,819
1,385
34,628
90,819
3
,291
7,265
98,084
4
,077
1,916
100,000
Método de extracción: Análisis de Componentes principales.
Las tres primeras columnas se refieren a la solución inicial, y hay tantos valores como
componentes o factores posibles.
Total: Cantidad de varianza explicada por cada componente en las variables observadas.
“% de varianza”: Porcentaje de varianza explicada por las componentes.
“% de varianza acumulado”: Porcentaje acumulado de varianza explicada por la componente
correspondiente y las anteriores.
En nuestro caso los dos primeros factores consiguen explicar prácticamente el 91% de la
varianza de las variables originales, lo que indica un buen modelo factorial.
También se muestran las cantidades de varianza explicada por cada factor extraído una vez
realizada la rotación de los mismos. En ese caso, el factor 1 explica más del 56% de la
varianza, mientras que el segundo factor explica el 34.63%.
21
Resultados ACP 8
Matriz de componentes
a
Matriz de casos
Componente
1
2
Nº visitas anteriores
,943
,254
Nº Noches
,860
-,309
Edad del turista
,848
,447
Gasto por pers ona y día
-,404
,873
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos
Cargas factoriales para cada variable
sobre las componentes no rotadas.
Cada valor representa la correlación
entre la variable y la componente.
Pueden ayudar a formular una
interpretación de los factores.
La mayoría de las variables originales
presentan una correlación alta con el
primero de los factores, lo que dificulta
la interpretación de los mismos.
Nacionalidad
F1
F2
Alemana
0,142
0,380
Austriaca
-0,201
-0,666
Belga
-0,167
-0,331
Británica
0,309
-0,619
Española
-0,505
0,466
Europa excomunista
-0,471
-0,805
3,374
0,988
Francesa
-0,254
0,443
Holandesa
-0,026
-1,534
Italiana
-0,526
0,058
Resto América
0,524
-2,126
Resto Europa
-0,436
0,643
Resto mundo
-0,734
1,234
Sueca
-0,720
1,335
Suiza
-0,308
0,535
Finlandesa
22
Resultados ACP 9
Correlaciones reproducidas y residuos
Patrón predictivo de las relaciones. Si la solución es correcta, las correlaciones
reproducidas están próximas a los valores observados, Los residuos indican la
diferencia entre valores reproducidos y observados. La mayoría de estos valores
deberán ser pequeños.
Correlaciones reproducidas
Nº Noches
Correlación reproducida
Nº Noches
Nº visitas anteriores
Residual
a
,835 b
,733
Nº visitas
anteriores
Edad del
turis ta
,733
,954
Gasto por
pers ona y día
,591
b
-,617
,913
-,159
b
Edad del turista
,591
,913
,918
Gasto por pers ona y día
-,617
-,159
,047
,926 b
-,030
-,082
,109
-,026
-,011
Nº Noches
Nº visitas anteriores
-,030
Edad del turista
-,082
-,026
Gasto por pers ona y día
,109
-,011
,047
-,063
-,063
Método de extracción: Análisis de C omponentes principales.
a. Los residuos s e calculan entre las correlaciones obs ervadas y reproducidas. Hay 3 (50,0%)
residuales no redundantes con valores absolutos mayores que 0,05.
b. Comunalidades reproducidas
a. Hay 3 (50,0%) residuales no redundantes con valores absolutos mayores que 0,05.
Los valores residuales son pequeños. La bondad del modelo factorial estimado es
bastante alta
23
Resultados ACP 10
Matriz de coeficientes para el cálculo de las
puntuaciones en las componentes
Componente
1
2
Nº Noches
,189
-,397
Nº visitas anteriores
,437
,040
Edad del turista
,477
,211
Gasto por pers ona y día
,194
,771
Método de extracción: Análisis de componentes principales.
Método de rotación: Normalización Varimax con Kaiser.
Valores utilizados para el cálculo de las puntuaciones para cada caso. Para cada
nacionalidad, la puntuación factorial se calcula multiplicado los valores de la variable
por los coeficientes de la puntuación factorial.
24
Gráfico ACP: Diagrama de dispersión
25
Rotación de los ejes: Procedimientos
Objetivo:
Obtener nuevos factores más fáciles de interpretar. Cada variable original
tendrá una correlación lo más próxima a 1 con uno de los factores y lo más
próximas a 0 con el resto. Cada factor tendrá correlación alta con un grupo de
variables y baja con el resto.
1. Rotación ortogonal: Queda preservada la incorrelación entre los factores.
VARIMAX. Los ejes de los factores rotados se obtienen maximizando la suma
de varianzas de las cargas factoriales al cuadrado dentro de cada factor.
Problema: Las variables con mayores comunalidades tienen mayor influencia
en la solución final. Para evitarlo: normalización de Kaiser: Cada carga factorial
al cuadrado se divide por la comunalidad de la variable correspondiente
(VARIMAX normalizado). Ventaja: queda inalterada tanto la varianza total
explicada por los factores como la comunalidad de cada una de las variables
EQUAMAX y el QUARTIMAX
2. Rotación oblicua: Factores no incorrelacionados. Se compensarse si se
consigue una asociación más nítida de cada variable con el factor
correspondiente.
OBLIMIN: Se utilizan algoritmos para controlar el grado de no ortogonalidad.
Tampoco se ve modificada la comunalidad en la rotación oblicua
26
Resultados Rotación VARIMAX 1
Matriz de componentes rotados
a
Componente
1
2
Nº visitas anteriores
,960
-,182
Edad del turista
,958
,033
Gasto por pers ona y día
,017
,962
Nº Noches
,640
-,652
Método de extracción: Análisis de componentes principales.
Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 3 iteraciones.
Las cargas factoriales quedan más repartidas
Para la componente 1 las variables con mayores cargas factoriales son: “nº de
visitas anteriores” (+), “edad del turista” (+) y “nº de noches” (+), aunque ésta
última, también presenta una alta carga factorial con la componente 2.
Con la componente 2 además de el “nº de noches” (-), se da una alta
correlación con : “gasto por persona y día” (+).
Explicación:
Componente 1: Los turistas de más edad son los que más veces han repetido
visita a Tenerife, y los que más alargan su estancia durante sus vacaciones.
Componente 2: Los que más gastan por persona y día son los que menor
tiempo de estancia tienen.
27
Resultados Rotación VARIMAX 2
Factor 1:
MATRIZ DE CASOS ROTADOS
Nacionalidad
F1
F2
Alemana
0,293
0,280
Austriaca
-0,471
-0,512
Belga
-0,294
-0,226
Británica
0,008
-0,692
Española
-0,252
0,640
Europa excomunista
-0,775
-0,520
Finlandesa
3,467
-0,580
Francesa
-0,036
0,510
Holandesa
-0,691
-1,370
Italiana
-0,449
0,281
Resto América
-0,454
-2,142
Resto Europa
-0,112
0,769
Cuadrante positivo:
Nacionalidades: Alemana, Española, Francesa,
Italiana, Resto de Europa, Resto del Mundo,
Sueca y Suirza.
Gasto noche persona
Cuadrante negativo:
Nacionalidades: Resto.
Resto mundo
-0,123
1,430
Nº noches
Sueca
-0,067
1,515
Suiza
-0,044
0,616
Cuadrante positivo:
Nacionalidades:
Finlandesa,
Alemana
Británica.
Nº visitas anteriores, edad, nº noches
Cuadrante negativo:
Nacionalidades: Resto
y
Factor 2:
28
Gráfico ACP rotado: Diagrama de dispersión
29
Caso a resolver:
Imagen de fabricantes de modas para
penetración en un mercado extranjero
La marca de ropas St. John no es muy conocida en Europa. Procede de EEUU.
Allí es adquirida por mujeres de nivel socioeconómico alto. St. John fabrica
primordialmente trajes de chaqueta, empleando fibras naturales que mezcla con
una pequeña parte de un polímero sintético que impide que la ropa se arrugue.
Muchas mujeres compran ropa de este fabricante, especialmente si realizan un
trabajo en el que la imagen sea importante, pues los trajes presentan un aspecto
impecable después de muchas horas de llevarlos puestos. Se puede llegar al
final de la jornada casi sin que sea necesario tener que plancharlos.
En 1991 se realizó un estudio sobre el posicionamiento de marcas de fabricantes
de ropa (Dishener y Grande, 1991) para detectar cómo era percibida esta marca
y encontrar el segmento en el que podría ser incluida y decidir sobre la
oportunidad de penetrar en el mercado español.
Fase cualitativa:
Como la marca no era conocida en España, no tenía mucho sentido obtener
información en el mercado. Se optó por consultar con expertos del mundo de la
moda para que posicionaran las marcas. Tras una serie de entrevistas con
directores de escuelas de diseño de moda se consideraron las variables más
importantes para juzgar una serie de marcas. En un principio se pensó que,
debido al perfil socioeconómico de las compradoras de St. John en EEUU, el
segmento dentro del cual podría penetrar la marca podría ser el de Loewe o
Chanel.
30
Objetivo del estudio:
Averiguar en qué medida se situaba cada una de las marcas respecto a una
marca media. Se intenta obtener las valoraciones de cada marca; no sólo
estudiar qué aspectos destacan en su imagen, sino si se encuentran por debajo
o por encima de la media.
Metodología:
Se consideró que la técnica más adecuada para este caso era el Análisis de
Componentes Principales, que trabaja con datos métricos. Se diseñó un
cuestionario en el que debían valorarse de 0 a 100 las características citadas
para cada una de las marcas.
La valoración que debía darse era en términos positivos: cuanto más cara fuera
la marca, mayor su calidad, prestigio, exclusividad, etc., mayor tenía que ser la
puntuación asignada. La aparente dificultad de las valoraciones - obliga a pensar
y fatiga - quedó mitigada por el reducido número de atributos a valorar y la gran
cualificación de los encuestados, todos ellos expertos en moda.
Muestra:
El cuestionario se distribuyó a 256 directores de centros de diseño de moda, 30
distribuidores y 10 importadores. La información se recogió a lo largo de mayo y
junio de 1991. Los valores medios de cada marca en cada atributo son los
siguientes:
31
CASAS
P1 P2 P3 P4 P5 P6 P7
ÚNGARO
79
87
87
87
82
72
62
ARMANI
69
89
96
92
91
72
75
GENNY
63
77
73
91
72
73
90
VERINO
64
72
68
56
55
69
62
ESCADA
70
91
82
76
82
75
72
FERRAUD
60
78
70
71
72
59
53
VERSACE
78
83
92
91
66
87
79
ST. JOHN
72
87
54
75
85
59
81
DIOR
69
83
85
81
74
53
77
KENZO
68
78
82
79
65
81
65
A. DOMINGUEZ
65
76
75
77
72
68
44
BURBERRYS
69
77
74
63
72
30
48
MOSCHINO
71
81
89
87
44
92
91
YVES ST.LAURENT
62
82
79
80
81
63
72
P.CARDIN
66
71
75
69
72
37
53
RODIER
65
62
60
58
48
30
28
LOEWE
74
91
97
92
91
48
90
CHANEL
73
92
99
97
97
64
94
ESCORPION
71
63
52
48
52
32
27
BENETTON
70
53
77
64
30
62
51
P1
P2
P3
P4
P5
P6
P7
PRECIO
CALIDAD
PRESTIGIO
EXCLUSIVIDAD
ELEGANCIA
VANGUARDIA
COMPLEMENTOS
32
3. Análisis de Correspondencias Simples
Estudio de tablas de contingencia, para juzgar objetos según un
cierto número de criterios.
Matriz de datos de orden (n*p):Tabla de doble entrada.



Filas: n modalidades de la variable A.
Columnas: p modalidades de la variable B.
Intersección kij: frecuencia conjunta entre las modalidades i y j.
Método:


Simétrico con relación a líneas y columnas.
Deberá permitir comparar las distribuciones de frecuencias.
33
Caso:
Lugar de residencia de turistas y su edad
Estudio sobre la posible asociación entre la zona o lugar de residencia de los
turistas en Tenerife y su edad agrupada en intervalos
Datos: base turistas curso.sav. Información sobre 796 turistas a los que se ha
realizado la encuesta. Se han elegido la edad en intervalos y lugar de residencia
de los turistas en Tenerife.
Se elaboró una tabla de contingencia. Como algunos pares de modalidades se
repetían un número muy pequeño de veces, se agruparon:

Los ocho intervalos de edad de la base de datos se redujeron a seis:
* < de 24 anos
* 24 a 30 años
* 31 a 40 años
* 41 a 50 años
* 51 a 60 años
* > 60 años

El lugar de residencia se reduce a tres modalidades:
* Puerto de la Cruz
* Las Américas-Los Cristianos
* Resto
34
Metodología:
Análisis de correspondencias simple
Objetivo:
Conocer el lugar de residencia de los turistas que se asocia con un
intervalo de edad en mayor proporción que los demás.
Detectar las características que más destacan en cada intervalo de
edad y en cada lugar de residencia de los turistas.
Reducir nº de caracteres relacionados a dimensiones independientes.
Método:
Obtener ejes factoriales que reducen la información original mediante
nuevas variables estudiando la asociación entre modalidades fila y
columna. Se parte de frecuencias relativas para comparar.
En el espacio de las columnas: nube de n puntos i con coordenadas
kij/ki. para j = 1, 2, .....p
En el espacio de las filas: nube de p puntos j con coordenadas kij/k.j
para i = 1, 2, ......n
35
Transformaciones en la matriz de datos
Perfil de líneas en Rp
F
1.............j..............p
1
.
i
.
n
Kij
fij
fij/fi
Perfil de líneas en Rn
fij/fj
Iguales en ambos subespacios, llevando a transformaciones analíticas diferentes.
p y n puntos de las nubes, situados en subespacios de p-1 y n-1 dimensiones.
Centro de gravedad: media de perfiles de frecuencias afectados por sus masas
n
f ij
i 1
f i.
 f i.
 f .j
36
Tabla de contingencia
Tabla de correspondencias
Lugar de Residencia
Intervalos de Edad
< de 24 años
Pto. de la
Cruz
AméricasCristianos
Resto
Lugares
Margen activo
33
95
16
144
[24 - 30)
41
85
26
152
[30 - 40)
50
82
51
183
[40 - 50)
35
71
45
151
[50 - 60)
25
46
27
98
> de 60 años
26
32
11
69
Margen activo
210
411
176
797
Intervalo de edad: Los turistas de < 24 años se alojaron mayoritariamente en Las
Américas-Los Cristianos. El menor número de turistas tienen una edad > 60 años y
que se alojaron en el Resto de Lugares. La edad más frecuente es [30-40).
Lugar de Residencia: Las Américas-los Cristianos alojan los 95 turistas de menos de
24 años, que representan la mayor frecuencia conjunta de la muestra. Los 11 turistas
alojados en el Resto de Lugares tienen una edad >60 años los que representan el
grupo de menor frecuencia conjunta. En cuanto a la frecuencia marginal, Las
Américas-Los Cristianos es la zona más frecuente de residencia.
37
SPSS: Introducir los datos
Poner en las dos primeras columnas los pares de rangos posibles para las
columnas (Lugar de residencia: 1 a 3) y las filas (Intervalos de edad: 1 a 6) y,
en la tercera, la frecuencia de cada par de rangos. Se puede poner etiquetas
al valor de cada rango.
Utilizar como variable de ponderación las frecuencias mediante los comandos
del menú: Datos, Ponderar casos
38
Distancia Chi-cuadrado
d (i,i  ) =  (
2
f
1
f
)(
j
f
ij
f
-
i
i j
f
i
)
2
d (j, j  ) =  (
2
f
1
f
)(
i
f
ij
j
f
-
f
ij 
)
2
j
Propiedades:
 Equivalencia distribucional
Permite agregar dos modalidades de idénticas frecuencias de una
variable, en una nueva modalidad afectada por la suma de sus masas,
sin cambiar nada, ni en las distancias entre modalidades de esta
variable o de la otra.
 Relaciones de transición
Ligan gráficamente las dos variables representadas en líneas y
columnas.
39
Obtención de los ejes factoriales
Analizar Reducción de datos
Análisis de correspondencias
Dos transformaciones: en el perfil de líneas y de las columnas.
Se toma como columnas la dimensión más pequeña.
Maximizar la suma ponderada de los cuadrados de las proyecciones sobre el eje:




2
Max   f i. d (i, O) 

u 
i

n f f
Matriz a diagonalizar s jj   ij ij´
i  1 f i f .j´
Descartado
el valor propio trivial igual a 1 y su vector propio asociado, retenemos
los p-1 valores propios no nulos y sus vectores propios asociados. Obtendremos
40
como máximo p-1 ejes factoriales.
Normalización
Canónica:
Para
examinar
conjuntamente las diferencias o
similitudes entre dos variables.
Principal: Examinar las diferencias
o similitudes entre categorías de
variables, pero por separado.
Principal por filas: Averiguar cómo
difieren entre sí las distintas
categorías de la variable fila.
Principal por columnas: Averiguar
cómo difieren entre sí las distintas
categorías de la variable columna.
Las soluciones son equivalentes en términos de ajuste (valores singulares), inercia
y contribuciones, pero las puntuaciones por filas y columnas son diferentes.
41
Estadísticos
Dependiendo de la opción elegida en la normalización se podrá
demandar el gráfico conjunto o no.
Si se ha elegido la normalización canónica: Gráfico conjunto.
Si se ha elegido la principal: Gráficos por separado de filas y columnas.
42
Análisis
Valores propios. Inercia total
p 1
I   λα
2
χ  kI
Contraste
de independen
α 1
cia

I
χ
2
k
Coordenadas: Proyecciones de los puntos filas en los ejes factoriales
Contribuciones a la inercia de puntos a varianza explicada en cada eje
2
Cr α (i) 
f i. ψ αi
λα
Correlaciones: Contribución de dimensiones a la inercia de cada punto
2
Cos (i) 
2
α
d α (i, G)
2
d (i, G)
2

ψ αi
2
d (i, G)
43
Interpretación de representación simultánea
Filas (columnas) con estructura similar, situación próxima en el plano.
Cercanía punto fila i y columna j: interpretar si están alejados del origen.
Línea con perfil próximo al medio, se encontrará próxima al origen.
Buscar los puntos de mayor Contribución absoluta de las inercias. Se
separa los que se proyectan del lado positivo de los del lado negativo.
Estudiar la calidad de representación (correlación) de los puntos.
Correlación pequeña: tiene un papel importante sobre otro eje.
Se buscan aquellos puntos i(j) que si bien no contribuyen a la formación
del factor, sí se encuentran bien representados (correlación alta).
44
Resultados AC 1
Perfil fila
Proporción de modalidades de la variable fila en cada modalidad de
la variable columna. Proporción de edades en cada zona. El 66%
de los turistas de < 24 años se alojaron en Las Américas-Los
Cristianos, mayoritaria en cada estrato de edad, con un 51,6% de
turistas de la muestra alojados en ella.
Perfiles de fila
Lugar de Residencia
Intervalos de Edad
< de 24 años
Pto. de la
Cruz
AméricasCristianos
Resto
Lugares
Margen activo
,229
,660
,111
1,000
[24 - 30)
,270
,559
,171
1,000
[30 - 40)
,273
,448
,279
1,000
[40 - 50)
,232
,470
,298
1,000
[50 - 60)
,255
,469
,276
1,000
> de 60 años
,377
,464
,159
1,000
Masa
,263
,516
,221
45
Resultados AC 2
Perfil columna
De 30 a 40 años es la edad más frecuente (23%), repitiéndose esta
situación entre los turistas alojados en el Puerto de la Cruz (23.8%) y
los alojados en el Resto de Lugares (29%). Sin embargo, entre los
turistas alojados en Las Américas-Los Cristianos, el intervalo de edad
modal es los jóvenes de menos de 24 años (23.1%).
Perfiles de columna
Lugar de Residencia
Intervalos de Edad
< de 24 años
Pto. de la
Cruz
AméricasCristianos
Resto
Lugares
Masa
,157
,231
,091
,181
[24 - 30)
,195
,207
,148
,191
[30 - 40)
,238
,200
,290
,230
[40 - 50)
,167
,173
,256
,189
[50 - 60)
,119
,112
,153
,123
> de 60 años
,124
,078
,063
,087
Margen activo
1,000
1,000
1,000
46
Resultados AC 3
Resumen
Proporción de inercia
Dimensión
1
2
Valor propio
Inercia
Chi-cuadrado
,183
,033
,089
,008
Total
,041
Sig.
32,953
Explicada
,000
a
Acumulada
Confianza para el Valor
propio
Desviación
típica
,807
,807
,032
,193
1,000
,038
1,000
1,000
Correlación
2
,050
a. 10 grados de libertad
Valor propio o singular: medida de asociación para cada una de las dimensiones
entre las variables fila y columna, donde valores altos indican la existencia de una
fuerte relación
 Inercia: Cuadrado del valor propio. Varianza explicada
 Inercia global
p 1
I   λα
α 1
Chi cuadrado: Prueba de independencia.
χ
2
 kI

I
χ
2
k
2 = 796*0,041 = 32,953. Se rechaza la hipótesis de independencia entre 47
las
modalidades.
ANÁLISIS
Analisis en Rp: Examen de los puntos fila

COORDENADAS :Puntos fila
Proyecciones de los puntos filas en los ejes factoriales. Mientras más alejados
del origen sean los valores, mejor representadas estarán las filas en cada uno
de los ejes.

CONTRIBUCIÓN A LA INERCIA O ABSOLUTAS:
Las de cada uno de los puntos filas a la inercia explicada en cada eje. Se
busca conocer los elementos responsables de la construcción de cada eje.
2
Cr α (i) 

fi. ψ αi
λα
CORRELACIÓN O CONTRIBUCIÓN RELATIVA:
La contribución de las dimensiones a la inercia de cada punto fila es la
correlación existente entre cada uno de los caracteres y los nuevos ejes.
Coseno del ángulo entre el eje y el vector uniendo el centro de gravedad de la
nube al punto i.
2
2
2
Cos α (i) 
d α (i, G)
2
d (i, G)

ψ αi
2
d (i, G)
Analisis en Rp: Examen de los puntos columna. Igual
48
Resultados AC 3
 Analisis en Rp: Examen de los puntos fila
Examen de los puntos de fila
a
Puntuación en la
dimensión
Contribución
De los puntos a la
inercia de la
dimensión
Intervalos de Edad
< de 24 años
Masa
1
2
Inercia
1
2
De la dimensión a la inercia del
punto
1
2
Total
,181
,718
-,239
,018
,510
,115
,949
,051
1,000
[24 - 30)
,191
,284
,056
,003
,084
,007
,981
,019
1,000
[30 - 40)
,230
-,363
,063
,006
,165
,010
,985
,015
1,000
[40 - 50)
,189
-,399
-,253
,007
,165
,136
,836
,164
1,000
[50 - 60)
,123
-,309
-,073
,002
,064
,007
,973
,027
1,000
> de 60 años
,087
,150
,865
,006
,011
,725
,058
,942
1,000
,041
1,000
1,000
Total activo
1,000
a. Normalización Simétrica
49
Resultados AC 4
Analisis en Rn: Examen de los puntos columna
Examen de los puntos columna
a
Puntuación en la
dimensión
Contribución
De los puntos a la
inercia de la
dimensión
Lugar de R esidencia
Pto. de la Cruz
Masa
1
2
Inercia
1
2
De la dimensión a la inercia del
punto
1
2
Total
,263
-,015
,500
,006
,000
,736
,002
,998
1,000
Américas-Cristianos
,516
,331
-,174
,012
,310
,175
,881
,119
1,000
Resto Lugares
,221
-,755
-,190
,024
,690
,089
,970
,030
1,000
,041
1,000
1,000
Total activo
1,000
a. Normalización Simétrica
50
GRÁFICO
51
Interpretación de resultados
INTERPRETACIÓN:
• Eje 1
Puntuación: Lado positivo: < 24 años, 24-30 años, > 60 años. Américas-Cristianos.
Lado negativo: 31 a 40 años, 41 a 50 y 51 a 60. Resto de Lugares y Puerto de la Cruz
muy ligeramente.
Contribución a la inercia: < 24 años, 31-40 y 41-50 años. Américas-Cristianos y Resto
de Lugares.
Correlaciones: Todas las edades. Américas-Cristianos y Resto de Lugares.
• Eje 2
Puntuación: Lado positivo: > de 60 años, 25 a 30 y 31 a 40 años. Puerto de la Cruz.
Lado negativo: < 24 años, 41-50 y 51-60 años. Américas-Cristianos y Resto de Lugares.
Contribución de puntos a la inercia de la dimensión: 41-50 años y < 24 años. Puerto de
la Cruz.
Contribución de la dimensión a la inercia del punto: 41-50 años. Puerto de la Cruz.
52
CONCLUSIONES
Existe asociación entre las dos variables, por lo
que será posible el hacer corresponder las
modalidades de una con las de la otra.
Los turistas con una edad mayor de los 60 años se
alojan preferentemente en la zona del Puerto de la
Cruz, mientras que los menores de 30 años lo
hacen en Las Américas-Los Cristianos.
Los turistas con una edad entre los 30 y 50 años
tienen una tendencia a alojarse en el grupo de
zonas etiquetadas con el nombre de Resto de
Lugares.
53
Caso a resolver:
Forma jurídica de las empresas exportadoras
canarias y su propensión a exportar
Se quiere realizar un estudio sobre la relación existente entre las
distintas formas jurídicas de las empresas exportadoras canarias
y su propensión a exportar, definida ésta como el cociente entre el
volumen de exportaciones y el volumen de negocios de cada una
de ellas.
Los datos con los que se cuenta provienen de una Base de Datos
elaborada por la empresa CAMERDATA en 1990 que contiene
información sobre 36020 empresas exportadoras españolas, de
las cuales 693 pertenecen a la Comunidad Autónoma de
Canarias.
Una vez depurada la Base de Datos, el número de empresas
exportadoras canarias se redujo a 394 realizándose
transformaciones sobre las variables con las que cuenta la Base
de Datos
54
Las siete formas jurídicas de las
empresas, se redujeron a cuatro
mediante la agregación de algunas
de ellas. Así, las formas jurídicas
resultantes fueron:
Sociedades Anónimas
Sociedades Limitadas
Autónomos
Otros
A partir del volumen de exportación y
volumen de negocios se obtuvo la
propensión a exportar de cada empresa
de la Base de datos depurada. Hecho
esto, se agregaron los resultados. Así, la
propensión a exportar presentara tres
modalidades:
Propensión a exportar baja: 0 a 10%.
Propensión a exportar media:10 a 50% .
Propensión a exportar alta: 50 a 100%.
Tabla de correspondencias
Lugar de Residencia
Intervalos de Edad
< de 24 años
Pto. de la
Cruz
AméricasCristianos
Resto
Lugares
Margen activo
33
95
16
144
[24 - 30)
41
85
26
152
[30 - 40)
50
82
51
183
[40 - 50)
35
71
45
151
[50 - 60)
25
46
27
98
> de 60 años
26
32
11
69
Margen activo
210
411
176
797
55
4. Análisis de Correspondencias Múltiples
Generalización del ACS. Permite describir grandes tablas binarias,
referidas por ejemplo a ficheros de encuestas socio-económicas.
Líneas: individuos u observaciones.
Columnas: Modalidades de variables nominales.
El ACM es un Análisis de Correspondencias Simple aplicado, no a
tablas de contingencia sino a una tabla disyuntiva completa Z, en la
que para cada modalidad de cada variable hay sólo dos valores
posibles: 0 = el encuestado no contesta esa modalidad. 1= es la
respuesta elegida por él. Las propiedades de Z son interesantes y los
procedimientos de cálculo y sus reglas de interpretación de las
representaciones obtenidas son simples y específicas.
La mayoría de los ficheros de encuestas presentan las respuestas a
las preguntas bajo la forma de una tabla disyuntiva completa.
56
La tabla disyuntiva completa
La forma de la matriz Z (Tabla disyuntiva completa) será:
p
Z  (n, p)
0
1
0
0 0
1
0
00
0
1
0
0
0
1
0 0
0
1
01
0
0
0
0
0
0
1 1
0
0
10
1
0
0
1
0
0
0 0
0
0
00
0
0
1
Si hay alguna variable
continua, debe transformarse
en nominal, ordenándose en
intervalos a los que se da un
rango de valores.
Las frecuencias marginales de las líneas de la tabla disyuntiva
completa son iguales al número de preguntas, s, y las frecuencias
marginales de las columnas corresponden al número de sujetos que
han elegido la modalidad j de la pregunta q, por lo que para cada
subtabla, el número total de individuos es n.
En consecuencia, si para n individuos se dispone de respuestas
respecto a, por ejemplo, dos variables nominales que tienen
respectivamente p1 y p2 modalidades, entonces es equivalente
someter a un Análisis de Correspondencias Simples la tabla de
contingencia (p1, p2) y analizar la tabla binaria de n líneas y (p1 + p2)
columnas que describe las respuestas.
57
La tabla de Burt
A partir de la tabla disyuntiva completa se puede construir la tabla de
contingencia de Burt, B, que es una tabla simétrica de orden (p, p):
B = Z´Z
B es una yuxtaposición de tablas de contingencia y está formada de s2
bloques de la forma:
Cada bloque es una
p1
p2
ps
submatriz
formada
por
tablas
de
0
p1
0
contingencia de las
p2
variables dos a dos,
0
p
0
salvo los bloques
B = Z´Z =
que se están en la
0
ps
diagonal que son las
tablas
de
0
contingencia de cada
variable
consigo
misma.
p
58
Principios del análisis de correspondencias múltiples
Es el análisis de correspondencias de una tabla disyuntiva completa,
estudiándose la nube de los individuos y la nube de las modalidades.
Sus principios son, por tanto, los del análisis de correspondencias:
Iguales transformaciones de la tabla en los perfiles líneas y columnas
Igual criterio de ajuste con ponderación de los puntos por sus
frecuencias marginales
Igual distancia, la chi-cuadrado
Presenta propiedades particulares debido a la naturaleza misma de la
tabla disyuntiva completa.
La Tabla disyuntiva completa es equivalente a la tabla de Burt y
ambos producen los mismos factores
59
Caso:
Estudio de los turistas en función del lugar
de residencia, sexo y alojamiento
A partir de la base de
datos referida a los
turistas que vienen a
Tenerife, se quiere
estudiar la asociación
existente entre el
lugar donde residen
en la isla, el sexo y el
tipo de alojamiento en
el que se quedan, con
sus
respectivas
modalidades.
Residencia
Sexo
Alojamiento
Puerto Cruz
Hombre
Hotel 1 y 2 *
Sur
Mujer
Hotel 3 *
Hotel 4 *
Hotel 5 *
Aparthotel 1 y 2 *
Aparthotel 3 *
Aparthotel 4 y 5 *
Apartamento 1 ll
Apartamento 2 ll
Apartamento 3 ll
Apartamento 4 o 5 ll
T. sharing y Propiedad
60
Con estas tres variables se ha construido la tabla de Burt.
A partir de ella se ha creado una hoja de cálculo en spss (corres
multiple turismo.sav).
Residencia
TABLA DE BURT
Sexo
Alojamiento
Hotel
P. Cruz Sur Hombre Mujer
1y2*
Residencia
Puerto Cruz
Sur
Sexo
3*
4*
99
Apartamento
T. sh y Prop.
5* 1* y 2* 3* 4* y 5* 1 ll 2 ll 3 ll 4 o 5 ll
0
108
102
7
33
3
5 26
7
4
7
4
5
10
0 587
291
296
5
84 162 20
15 73
56
27
26
50
29
40
Hombre
108 291
399
0
7
51 133 12
11 51
31
18
12
32
20
21
Mujer
102 296
0
398
5
66 128 11
9 48
32
13
21
22
14
29
12
Hotel 1 y 2 *
Alojamiento
210
Aparthotel
7
5
7
5
Hotel 3 *
33
84
51
66
Hotel 4 *
99 162
0
0
0
0
0
0
0
0
0
0
0
0 117
0
0
0
0
0
0
0
0
0
0
133
128
0
0 261
0
0
0
0
0
0
0
0
0
Hotel 5 *
3
20
12
11
0
0
0 23
0
0
0
0
0
0
0
0
Aparthotel 1 y 2 *
5
15
11
9
0
0
0
0
20
0
0
0
0
0
0
0
26
73
51
48
0
0
0
0
0 99
0
0
0
0
0
0
Aparthotel 4 y 5 *
7
56
31
32
0
0
0
0
0
0
63
0
0
0
0
0
Apartamento 1 ll
4
27
18
13
0
0
0
0
0
0
0
31
0
0
0
0
Apartamento 2 ll
7
26
12
21
0
0
0
0
0
0
0
0
33
0
0
0
Apartamento 3 ll
4
50
32
22
0
0
0
0
0
0
0
0
0
54
0
0
5
29
20
14
0
0
0
0
0
0
0
0
0
0
34
0
10
40
21
29
0
0
0
0
0
0
0
0
0
0
0
50
Aparthotel 3 *
Apartamento 4 o 5 ll
T. sharing y Propiedad
61
Resultados
Utilizaremos una tabla de Burt.
Con ella se podrán obtener las puntuaciones (distancias al
centro de gravedad), contribuciones absolutas de cada
modalidad y variable a los ejes o factores obtenidos
(contribución de cada modalidad o variable a la inercia de los
nuevos ejes) y contribuciones relativas o correlaciones de cada
modalidad con los nuevos ejes.
El número de ejes considerado fue de 2.
Como en la Tabla de Burt las filas y las columnas representan
las mismas modalidades, el estudio de ambas ofrece iguales
resultados, por lo que sólo presentaremos los de las filas.
Para la resolución en el SPSS, en primer lugar hay que
introducir los datos de la misma forma que en el análisis de
correspondencias simples, creando por tanto tres variables. Las
dos primeras corresponden a los rangos de todas las
modalidades y, en la tercera, se incluirán las frecuencias
conjuntas de los pares de modalidades, las cuales funcionarán
como ponderaciones.
62
Los valores singulares, inercia, porcentajes de varianza explicada y sus
acumulados fueron:
Proporción de inercia
Dimensión
1
2
3
4
5
6
7
8
9
10
11
12
13
Total
Valor propio
0,4176
0,3708
0,3333
0,3333
0,3333
0,3333
0,3333
0,3333
0,3333
0,3333
0,3333
0,2966
0,2482
Inercia
0,1744
0,1375
0,1111
0,1111
0,1111
0,1111
0,1111
0,1111
0,1111
0,1111
0,1111
0,0880
0,0616
1,4615
Chi-cuadrado
10483,6594
Sig.
0,0000
Explicada
0,1193
0,0941
0,0760
0,0760
0,0760
0,0760
0,0760
0,0760
0,0760
0,0760
0,0760
0,0602
0,0422
1,0000
Acumulada
0,1193
0,2134
0,2894
0,3655
0,4415
0,5175
0,5935
0,6696
0,7456
0,8216
0,8976
0,9578
1,0000
1,0000
Confianza para el Valor propio
Correlación
Desviación típica
2
0,0112
0,1794
0,0117
Los valores singulares son los valores propios que se obtendrían si
hubiéramos partido de una tabla disyuntiva completa, cuyo cuadrado es igual a
la Inercia o valores propios resultantes de la matriz de Burt.
En el Análisis de Correspondencias Múltiples, los porcentajes de varianza
explicada suelen ser pequeños para cada eje y no se pueden explicar de igual
forma que en el análisis de correspondencias simples.
63
Examen de los puntos
Las distancias de las modalidades, mientras más alejadas se
encuentren del origen, mejor representados estarán. Mientras
más alejadas estén las modalidades entre sí en el gráfico
menos asociación existirá entre ellas y cuanto más cercanas,
más asociación existirá entre ellas.
La contribución de los puntos a la inercia de cada dimensión o
contribución de cada una de las filas a la inercia o varianza
explicada en cada uno de los ejes considerados
La contribución de las dimensiones a la inercia de cada punto.
Se refiere a la correlación existente entre cada uno de los
caracteres y los nuevos ejes.
A continuación se presentan los resultados y el diagrama de
dispersión de los dos ejes obtenidos.
64
Examen de los puntos de fila(a)
Puntuación
Contribución
dimensión
Modalidades
Masa
Inercia De puntos a inercia De dimensión a inercia
1
2
de la dimensión
del punto
1
2
1
2
Total
Puerto Cruz
0,0878
1,3235 -0,0499 0,0871
0,3684
0,0006 0,7377 0,0009 0,7386
Sur
0,2455
-0,4735 0,0179 0,0312
0,1318
0,0002 0,7377 0,0009 0,7386
Hombre
0,1669
0,0038 -0,7465 0,0562
0,0000
0,2507 0,0000 0,6135 0,6135
Mujer
0,1665
-0,0038 0,7483 0,0563
0,0000
0,2514 0,0000 0,6135 0,6135
Hotel 1 y 2*
0,0050
2,2753 -1,2916 0,1104
0,0622
0,0226 0,0983 0,0281 0,1264
Hotel 3
0,0489
0,1300 0,8489 0,0951
0,0020
0,0951 0,0036 0,1375 0,1411
Hotel 4*
0,1092
0,8233 -0,1887 0,0773
0,1772
0,0105 0,4000 0,0187 0,4187
Hotel 5*
0,0096
-0,9448 -0,2004 0,1082
0,0206
0,0010 0,0331 0,0013 0,0345
Aparh 1 y 2*
0,0084
-0,0944 -0,6479 0,1084
0,0002
0,0095 0,0003 0,0120 0,0123
Aparh 3*
0,0414
-0,0057 -0,1925 0,0973
0,0000
0,0041 0,0000 0,0058 0,0058
Aparh 4 y 5*
0,0263
-1,0830 0,2056 0,1034
0,0740
0,0030 0,1249 0,0040 0,1288
Apart 1 ll
0,0130
-0,9530 -0,9822 0,1073
0,0282
0,0337 0,0458 0,0432 0,0891
Apart 2 ll
0,0138
-0,3691 1,8511 0,1069
0,0045
0,1275 0,0073 0,1640 0,1714
Apart 3 ll
0,0226
-1,3432 -1,1078 0,1052
0,0976
0,0747 0,1617 0,0977 0,2594
Apart 4 o 5 ll
0,0142
-0,8247 -1,0939 0,1068
0,0232
0,0459 0,0378 0,0591 0,0969
T. sh y prop
0,0209
-0,4536 1,1095 0,1045
0,0103
0,0694 0,0172 0,0914 0,1086
Total activo
1,0000
1,4615
1,0000
1,0000
a
Normalización Simétrica
65
66
Eje 1:
Se contraponen los turistas que se quedan en el Puerto de la Cruz y que destacan por
alojarse en hoteles de 1, 2 y 4*, todos ellos en el lado positivo, a los turistas que van al
Sur y que se alojan en hoteles de 5*, aparthoteles de 4 y 5* y apartamentos de 1, 3, 4 y 5
llaves, todos ellos en el lado negativo.
Las variables con mayor contribución absoluta a la inercia del eje 1 son Puerto de la
Cruz, Sur y Hoteles de 4*.
Las variables más correlacionadas con el eje 1 son Puerto Cruz, Sur y Hoteles de 4*.
Eje 2:
Sobresalen en el lado positivo los turistas mujeres, que se alojan en hoteles de 3*,
apartamentos de dos llaves y Time sharing y propiedad, contraponiéndose a los turistas
hombres que se alojan en hoteles de 1 y 2*, apartamentos de 1, 3, 4 y 5 llaves, todas
ellas en el lado negativo.
Las variables con mayor contribución absoluta a la inercia del eje 2 son:
Hombres, mujeres y apartamentos de 2 llaves.
Las variables más correlacionadas con el eje 2 son hombre y mujer.
Por tanto, podemos decir que el eje 1 viene afectado por la variable lugar de
67
residencia, mientras que en el eje 2 influye la variable sexo.
CONCLUSIONES
En cuanto al lugar de residencia y al sexo de los turistas, éstos residen
en el Puerto de La Cruz y en el Sur, independientemente del sexo.
Las diferencias se encuentran en el tipo de alojamiento que utilizan. Así,
en el Puerto de la Cruz se caracterizan los que se quedan en hoteles de
4*, frente al Sur, que se caracterizan por alojarse en aparthoteles de 4 y
5* y en hoteles de 5*.En cuanto al tipo de alojamiento por sexo, las
mujeres se caracterizan por preferir especialmente los apartamentos de
2 llaves y el Time sharing y propiedad, frente a los hombres, que
prefieren especialmente los apartamentos de 1, 3, 4 y 5 llaves.
Nos referimos a que en esos tipos de alojamientos se diferencian
hombres y mujeres o Puerto de la Cruz y Sur.
68
Caso a resolver:
Estudio de la conducta del consumidor en Centros
Comerciales en Tenerife
Se realizaron encuestas en los Municipios de Santa Cruz de Tenerife,
Puerto de la Cruz y Adeje en la isla de Tenerife para estudiar el
comportamiento de los consumidores en Centros Comerciales de la
isla de Tenerife. El tamaño de la muestra fue de 456 elementos. (datos
acm consumidores.sav)
El objetivo es analizar el comportamiento de los consumidores en los
Centros Comerciales de Tenerife estudiando la asociación existente
entre una serie de variables y entre sus respectivas modalidades.
Se partió de las preguntas sobre la edad, el sexo, los estudios, los
ingresos y el gasto, al ser consideradas como básicas. A ellas se
añadieron las que tenían un alto grado de asociación con aquellas,
como son tipo de transporte al centro comercial, lugar de residencia,
frecuencia de las visitas o compras y razón de la visita.
La técnica adecuada será el Análisis de Correspondencias Multiples
69
5. Análisis Cluster
Conjunto de técnicas multivariantes de clasificación que ante un
conjunto de datos derivados de una muestra de entidades, tratan de
reorganizarlas en clases, tipos o grupos, internamente los más
homogéneos posible y heterogéneos entre sí.
Etapas:
 Elección de las entidades (objetos, variables, individuos, etc..) que se
van a clasificar.
 Elección de las características que permiten la definición de las
entidades y sobre las que se basará la clasificación final.
 Elección de una medida que defina la proximidad entre entidades.
 Selección de un método de clasificación.
 Interpretación de los grupos resultantes.
70
Método

Objetivo: condiciona en buena medida los criterios empleados en la
agrupación, por lo que no existe una metodología cluster única.
Describiremos aquí la clasificación jerárquica que es la más utilizada.

Puede aplicarse a variables cuantitativas o cualitativas.

Procedimiento de agrupamiento: Formar los conglomerados en
distintas etapas.

Representación gráfica: Dendograma.

Medida de homogeneidad entre dos elementos, viene dada por la
distancia entre ellos. Hemos utilizado la distancia euclídea, ya que
trabajaremos con valores y no con frecuencias:
 p
d(X i , X j )    x ik  x jk
 k 1

2



1/2
71
Caso:
Resultados de la rotación varimax en el ACP para el
posicionamiento de turistas en Tenerife
MATRIZ DE CASOS ROTADOS
El objetivo es clasificar a
las distintas nacionalidades
de turistas de la muestra en
grupos homogéneos, en
función de las dos nuevas
variables creadas en el
Análisis de Componentes
Principales.
Los resultados obtenidos
fueron:
Nacionalidad
F1
F2
Alemana
0,293
0,280
Austriaca
-0,471
-0,512
Belga
-0,294
-0,226
Británica
0,008
-0,692
Española
-0,252
0,640
Europa excomunista
-0,775
-0,520
3,467
-0,580
Francesa
-0,036
0,510
Holandesa
-0,691
-1,370
Italiana
-0,449
0,281
Resto América
-0,454
-2,142
Resto Europa
-0,112
0,769
Resto mundo
-0,123
1,430
Sueca
-0,067
1,515
Suiza
-0,044
72
0,616
Finlandesa
Clasificación jerárquica
Procedimiento de clasificación: Análisis cluster jerárquico.
Identifica grupos relativamente homogéneos de casos (o de variables)
basándose en las características seleccionadas, mediante un algoritmo que
comienza con cada caso (o variable) en un conglomerado diferente y combina
los conglomerados hasta que sólo queda uno. Es posible analizar las variables
brutas o elegir de entre una variedad de transformaciones de estandarización.
Medidas de distancia o similitud: Proximidades. Los estadísticos se muestran en
cada etapa para ayudar a seleccionar la mejor solución.
Propósito: Unir los objetos (nacionalidades) en clusters sucesivamente más
grandes, usando una cierta medida de semejanza o de distancia. Un resultado
típico de este tipo de agrupación es el árbol jerárquico.
Método:
Transformación de matriz de datos originales en matriz de distancias euclídeas.
1ª etapa: agrupar los elementos con distancias más pequeñas.
A continuación, atender a la menor de las distancias entre cada elemento
agrupado con anterioridad y los que quedan en conglomerados individuales.
El procedimiento continuará hasta llegar a alcanzar el número de
conglomerados que se hayan fijado con anterioridad.
73
Ventanas de SPSS
Analizar Clasificar
Conglomerados jerárquicos
74
Resultados:
Matriz distancias euclídeas al cuadrado
Casos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1:Alemana
0,000
1,211
0,601
1,027
0,426
1,781
10,813
0,161
3,693
0,550
6,427
0,403
1,495
1,654
0,227
2:Austriaca
1,211
0,000
0,113
0,262
1,374
0,093
15,510
1,233
0,785
0,630
2,658
1,769
3,892
4,270
1,454
3:Belga
0,601
0,113
0,000
0,309
0,750
0,318
14,272
0,607
1,467
0,281
3,699
1,022
2,770
3,081
0,771
4:Británica
1,027
0,262
0,309
0,000
1,841
0,643
11,977
1,446
0,949
1,156
2,317
2,149
4,520
4,875
1,713
5:Española
0,426
1,374
0,750
1,841
0,000
1,618
15,317
0,064
4,231
0,167
7,779
0,036
0,641
0,800
0,044
6:Eur. Exc.
1,781
0,093
0,318
0,643
1,618
0,000
17,998
1,606
0,730
0,748
2,735
2,100
4,226
4,640
1,823
10,813
15,510
14,272
11,977
15,317
17,998
0,000
13,454
17,918
16,075
17,818
14,632
16,929
16,877
13,759
8:Francesa
0,161
1,233
0,607
1,446
0,064
1,606
13,454
0,000
3,962
0,223
7,207
0,073
0,855
1,012
0,011
9:Holandesa
3,693
0,785
1,467
0,949
4,231
0,730
17,918
3,962
0,000
2,786
0,653
4,910
8,162
8,711
4,362
10:Italiana
0,550
0,630
0,281
1,156
0,167
0,748
16,075
0,223
2,786
0,000
5,874
0,351
1,425
1,667
0,275
11:R.América
6,427
2,658
3,699
2,317
7,779
2,735
17,818
7,207
0,653
5,874
0,000
8,592
12,870
13,523
7,775
12:R.Europa
0,403
1,769
1,022
2,149
0,036
2,100
14,632
0,073
4,910
0,351
8,592
0,000
0,437
0,558
0,028
13:R.mundo
1,495
3,892
2,770
4,520
0,641
4,226
16,929
0,855
8,162
1,425
12,870
0,437
0,000
0,010
0,669
14:Sueca
1,654
4,270
3,081
4,875
0,800
4,640
16,877
1,012
8,711
1,667
13,523
0,558
0,010
0,000
0,809
15:Suiza
0,227
1,454
0,771
1,713
0,044
1,823
13,759
0,011
4,362
0,275
7,775
0,028
0,669
0,809
0,000
7:Finlandesa
•
Están resaltados en negrilla, las distancias más pequeñas como son la
existente entre la nacionalidad sueca y resto del mundo con una distancia de
0.010, francesa y suiza con una distancia de 0.011 y suiza y resto de Europa
con una distancia euclídea al cuadrado de 0.028 y española y resto de Europa
con una distancia de 0.036.
75
Resultados: Historial de conglomeración
Historial de conglomeración
Etapa en la que el
conglomerado
aparece por primera
vez
Conglomerado que se
combina
Etapa
1
Conglom
erado 1
Conglom
erado 2
Coeficientes
Conglom
erado 1
Conglom
erado 2
Próxima
etapa
13
14
,010
0
0
11
2
8
15
,011
0
0
4
3
5
12
,036
0
0
4
4
5
8
,052
3
2
7
5
2
6
,093
0
0
6
6
2
3
,215
5
0
9
7
5
10
,254
4
0
8
8
1
5
,353
0
7
11
9
2
4
,404
6
0
12
10
9
11
,653
0
0
12
11
1
13
1,002
8
1
13
12
2
9
1,917
9
10
13
13
1
2
3,622
11
12
14
14
1
7
15,239
13
0
0
76
Diagrama de Témpanos
Diagrama de témpanos vertical
1:Alem an a
5:Esp año la
12 :R e sto Eur opa
8:F ran ces a
15 :Su iza
10 :Ita lian a
13 :R e sto mun do
14 :Su eca
2:Aus triac a
6:Euro pa exc om unis ta
3:Belg a
4:Britá nic a
9:H ola nd esa
7:F inl and esa
11 :R e sto Am éric a
Caso
Número de
conglomerados
1
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
3
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
4
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
5
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
6
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
7
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
8
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
9
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
10
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
11
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
12
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
13
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
14
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
77
Resultados: Dendograma

* * * * * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E
Label
Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
Resto mundo
13

Sueca
14
 
Francesa
Suiza
8
  
15
 

5
 

Resto Europa
12


Italiana
10

 
Española
Alemana
1



Austriaca
2



Europa excomunista
6



Belga
3



Británica
4

 

9




Holandesa
Resto América
Finlandesa
11
7



78
CONCLUSIONES
Cluster 1:
Resto del Mundo, suecos, franceses, suizos, españoles, resto
de Europa, italianos y Alemanes.
Cluster 2:
Austriacos, Europa excomunista, belgas, británicos, holandeses
y resto de América.
Cluster 3:
Finlandeses.
79
Caso a resolver:
Resultados de la rotación varimax en el ACP
para el posicionamiento de casas de moda
Clasificar a las casas de moda del caso
resuelto
en
ACP
en
grupos
homogéneos, a partir de los resultados
obtenidos en dicho análisis una vez
rotado.
80
6. Análisis de la Varianza Paramétrico y no
Paramétrico
El Analisis de la Varianza es una prueba estadística de homogeneidad de los
comportamientos medios de una determinada característica o variable
respuesta, para k poblaciones independientes, correspondientes a k condiciones
distintas de un determinado factor.
H0: 1 = 2 = … = k
H1:  (i,j) / i ≠ j
Esta prueba paramétrica puede considerarse como una extensión del contraste
paramétrico de igualdad de medias para dos poblaciones independientes, ya
estudiado anteriormente. Al igual que éste, el Análisis de la Varianza requiere la
verificación de una serie de supuestos, como puede ser la normalidad,
homocedasticidad, etc.
En caso de que no se cumpla algunos de estos supuestos, hemos estudiado
algunos procedimientos alternativos, encuadrados dentro de los contrastes no
paramétricos que podríamos llamar análisis de la varianza no paramétrico.. 81
CONCEPTOS
A continuación se van a definir los principales términos que intervienen en el
análisis de la varianza:
VARIABLE RESPUESTA
Es la variable dependiente o característica objeto de nuestro estudio y que
cuantifica el efecto de una serie de condiciones que influyen sobre ella. Por tanto,
se necesita que dicha variable pueda medirse en escala cuantitativa.
FACTOR
Es cada una de las variables independientes o explicativas que influyen en la
característica de estudio o variable respuesta. Cada factor debe incluir las
diferentes condiciones a las que se somete a los individuos para analizar el efecto
diferencial de las mismas.
NIVELES
A las distintas modalidades que presenta un factor se les denomina niveles.
Estos suelen diferenciarse en tratamientos (cuando se pueden manipular las
condiciones del factor) o modos de clasificación (cuando las condiciones del
factor no son susceptibles de manipulación).
82
SUPUESTOS BÁSICOS
(1)
(2)
(3)
(4)
(5)
Las muestras han de ser extraídas de forma aleatoria.
Las puntuaciones u observaciones han de ser independientes entre sí.
Las observaciones del j-ésimo grupo (Xij, i=1,…,nj) deben tener distribución
Normal de media j.
Todos los grupos deben tener la misma varianza poblacional 2, lo que se
conoce como homocedasticidad.
La variable respuesta debe ser cuantitativa, mientras que la variable
independiente o factor se establece a modo de categorías, pudiendo ser
cuantitativa o cuantitativa.
DISEÑOS SEGÚN TIPO DE FACTORES
Factor fijo
Factor aleatorio
Modelo de efectos fijos
Los niveles observados incluyen
todos los posibles, o bien, todos los
que interesan
Modelo de efectos aleatorios
Modelo de efectos mixtos
Intervienen factores
fijos y aleatorios
El número de posibles
niveles del factor es
elevado y se seleccionan
aleatoriamente algunos
para realizar el estudio.
83
VARIABILIDAD
El Análisis de la Varianza permite separar el efecto que sobre la variable
respuesta ejerce uno o varios factores controlados del de otros no controlados,
contrastando la influencia de los factores controlados sobre los resultados.
La variabilidad total de la variable respuesta se puede dividir en dos partes. La
causada por el factor controlable y sus niveles; y la originada por el resto de
factores, conocidos o no, que influyen sobre ella, llamada variabilidad debida al
error experimental. Esta división daría lugar a dos tipos de varianzas:
(1) Varianza dentro de los grupos: Representa la variabilidad debida al error
experimental, causante de las posibles diferencias existentes entre los elementos
de cada grupo.
(2) Varianza entre grupos: Representa la variabilidad existente entre los grupos
debida al efecto de los diferentes niveles del factor.
Para decidir si existen diferencias entre o no como consecuencia de los diferentes
niveles del factor, esta técnica se basará en la comparación de los estimadores de
las dos varianzas definidas.
84
PLANTEAMIENTO INICIAL
Este modelo se caracteriza porque la variable respuesta considerada depende de
un único factor con k niveles, quedando el resto de las causas de variación
englobadas en el error experimental.
El objetivo del mismo será contrastar la homogeneidad de promedios de la variable
respuesta para k poblaciones independientes, pudiendo expresarse de la siguiente
manera:
H0: 1 = 2 = … = k
H1:  (i,j) / i ≠ j
Si rechazamos la hipótesis nula, concluiremos que existen diferencias significativas
entre los comportamientos promedio, ya que, al menos uno de ellos es diferente a
los demás.
85
CONTRASTE PARAMÉTRICO:
MODELO FACTORIAL SIMPLE. ANOVA I
Xij  Valor de la variable respuesta para el i-ésimo individuo del j-ésimo
grupo.
  Constante común para todas las observaciones que representa a la
media poblacional.
Aj  Es la aportación cuantitativa del j-ésimo nivel del factor a la puntuación
total, que refleja la diferencia entre la puntuación esperada del j-ésimo grupo
j y la puntuación esperada para toda la población, .
ij  Error experimental de cada puntuación, que indica la parte de Xij no
explicada por las otras dos componentes. Se verifica que ij  N (0, 2)
Al ser los valores de , Aj y ij desconocidos, habrá que estimarlos, por
ejemplo, utilizando el método de los mínimos cuadrados, dando lugar a:
ˆ 
1
k
nj
X
n
ij
Aˆ j  X j  X
ˆij  X ij  X
j
j 1 i 1
Por tanto, el modelo quedaría:
X ij  X  ( X j  X )  ( X ij  X j )  X ij  X  ( X j  X )  ( X ij  X j )
86
Así pues:
k
nj
  (X
k
k
 X )  n j ( X j  X ) 
2
ij
j 1 i 1
2
j 1
nj
 (X
nj
 X j ) ya que
2
ij
j 1 i 1
 (X
ij
 X j)  0
i 1
SCT = SCF + SCE
En términos de las sumas de cuadrados se tiene que:
A partir de SCT se obtienen los estimadores de las varianzas:
Cuasivarianza
Total
k
2
SˆT 
Debida al factor
(entre grupos)
nj
  (X
ij
 X)
j 1 i 1
n 1
Debida al error (dentro
de los grupos)
k
k
2

SC T
n 1
2
Sˆ F 
 (X
j
X)
2
j 1

k 1
SC F
k 1
2
Sˆ E 
nj
  (X
ij
 X j)
j 1 i 1
nk
2

SC E
nk
Se puede demostrar que S2T, S2F y S2E son estimadores insesgados de 2.
Además
2
( k  1) Sˆ F

2
2
( n  k ) Sˆ E

2
 k 1
2
 nk
2
2
Sˆ F
2
Sˆ
E
Fk  1, n  k
87
La región crítica asociada al contraste será:

R  ( x11, ..., x n1 1 ), ( x12 , ..., x n 2 2 ), ..., ( x1 k , ..., x n k k )  E / F  Fk 1, n  k , 1  

siendo el estadístico de contraste:
2
Sˆ F
F  2
Sˆ
E
El cuadro resumen de todo el proceso vendrá dado por:
Variabilidad
Suma de
cuadrados
g. l.
Estimador
Estadístico
Punto
crítico
FACTOR
ERROR
SCF
SCE
k-1
n-k
SF2 = SCF/(k-1)
SE2 = SCF/(n-k)
F = SF2 / SE2
Fk-1,n-k,1-
TOTAL
SCT
n-1
ST2 = SCT/(n-1)
Contraste unilateral a la derecha: A mayor numerador respecto al
denominador, mayor posibilidad de rechazar la hipótesis nula. Mientras más
pequeño, mayor posibilidad de no rechazarla.
88
Caso:
Comparación del precio de pan de molde
Se ha realizado un experimento con el fin de comparar los precios de
la barra de pan de molde en cuatro ciudades diferentes. La muestra
está formada por ocho almacenes para las tres primeras ciudades,
mientras que para la cuarta está formada por siete almacenes, todos
ellos seleccionados aleatoriamente.
1
139
143
145
141
144
138
140
141
2
138
141
144
143
137
140
143
140
3
134
139
135
138
139
136
140
135
4
149
150
148
150
146
151
149
89
Comandos SPSS
o
Introducir datos en columna: Variable ciudad, variable precios
o
Analizar

Dependiente: precios

Factor: ciudad


Opciones:
Estadísticos:
Descriptivos
Homogeneidad de varianzas
Gráfico de medias

Post hoc: Tukey

Comparar medias
ANOVA de un factor
90
Planteamiento
Modelo factorial simple con efectos fijos, ya que las conclusiones
se referirán exclusivamente a esas cuatro ciudades.
X ij μ  A
j
 ε ij
Variable independiente: Ciudad, con cuatro niveles.
Variable respuesta (dependiente): precio de la barra de pan.
Objetivo: determinar si hay diferencias significativas entre los precios
medios de la barra de pan en las cuatro ciudades.
Hipótesis
Ho :μ 1 μ 2  μ 3 μ 4
H 1 :μ 1 μ 2  μ 3  μ 4
Estadístico del contraste: será una F de Snedecor:
F(k 1), (n  k); (1 α) 
2
Sˆ F
2
Sˆ E
Contraste unilateral a la derecha: A mayor numerador respecto al
denominador, mayor posibilidad de rechazar la hipótesis nula. Mientras
más pequeño, mayor posibilidad de no rechazarla.
91
Ejemplo de ANOVA I. Resultados SPSS
Descriptivos
PRECIO
Intervalo de confianza para
la media al 95%
N
Desviación
típica
Media
Error típico
Límite inferior
Límite
superior
Mínimo
Máximo
1
8
141,38
2,45
,86
139,33
143,42
138
145
2
8
140,75
2,49
,88
138,67
142,83
137
144
3
8
137,00
2,27
,80
135,10
138,90
134
140
4
7
149,00
1,63
,62
147,49
150,51
146
151
31
141,81
4,81
,86
140,04
143,57
134
151
Total
Prueba de homogeneidad de varianzas
PRECIO
Es tadístico
de Levene
1,054
gl1
gl2
3
Sig.
27
,385
92
Resultados ANOVA I SPSS
ANOVA
PRECIO
Suma de
cuadrados
Media
cuadrática
gl
Inter-grupos
557,464
3
185,821
Intra-grupos
137,375
27
5,088
Total
694,839
30
F
36,522
Sig.
,000
Conclusión:
A nivel de significación del
5%, se rechaza la hipótesis
nula
de
igualdad
de
medias. Hay diferencias
significativas
entre
los
precios medios del pan de
las cuatro ciudades.
,00
,60
1,20
1,80
P.C.: 2,97
3,00
3,60
4,20
F (3,27)
93
Resultados SPSS. Pruebas dos a dos
Comparaciones múltiples
Variable dependiente: PRECIO
HSD de Tukey
Intervalo de confianza al
95%
(I) CIUDAD
1
2
3
4
(J) CIUDAD
2
Diferencia de
medias (I-J)
Error típico
Sig.
Límite inferior
Límite
superior
,63
1,13
,945
-2,46
3,71
3
4,38*
1,13
,003
1,29
7,46
4
-7,63*
1,17
,000
-10,82
-4,43
1
-3,71
2,46
-,63
1,13
,945
3
3,75*
1,13
,013
,66
6,84
4
-8,25*
1,17
,000
-11,44
-5,06
1
-4,38*
1,13
,003
-7,46
-1,29
2
-3,75*
1,13
,013
-6,84
-,66
4
-12,00*
1,17
,000
-15,19
-8,81
1
7,63*
1,17
,000
4,43
10,82
2
8,25*
1,17
,000
5,06
11,44
3
12,00*
1,17
,000
8,81
15,19
*. La diferencia entre las medias es significativa al nivel .05.
Los promedios de precios son significativamente
distintos, salvo entre las ciudades 1 y 2.
94
CONTRASTES NO PARAMÉTRICOS DE
IGUALDAD DE PROMEDIOS
Pruebas de hipótesis de características poblacionales si no se
conoce la distribución de probabilidad de la variable de la que
procede la muestra.
Si hay razones para presuponer una determinada distribución,
hay que hacer una prueba paramétrica. Es estadísticamente
mejores.
De gran utilidad en economía y empresa, en las que es difícil
que se cumpla la hipótesis de normalidad de la distribución de
probabilidad de las variables que se están estudiando.
95
Test U de Mann-Whitney
Objetivo:
Contrastación de promedios de dos poblaciones a partir de dos
muestras independientes.


Supuestos:
Observaciones extraídas de muestras aleatorias.
Valores ordenables (escala no nominal)
Hipótesis nula:
Los datos muestrales proceden de dos poblaciones con la
misma medida de tendencia central, la mediana, para poderlo
aplicar a datos ordinales.
Metodología:
Combinación de las n y m observaciones procedentes de dos
poblaciones ordenadas en orden creciente de magnitud,
asignando a cada una un rango de 1 a n+m.
96
Caso:
Dietas alternativas de engorde de cerdos
Se quiere comparar dos dietas distintas para engorde de
cerdos. Para ello se seleccionan 8 cerdos de 6 meses de edad
de la granja A que los alimenta con la primera dieta, y a 12
cerdos de la misma edad de la granja B que usa la segunda,
obteniéndose el incremento de peso en el último mes. Los
resultados se reflejan en la tabla adjunta. Comprobar, con un
5% de significación, que existen diferencias significativas en el
promedio de incremento de peso de los cerdos en el último mes
entre las dos dietas. (Se ha comprobado previamente la no
normalidad de los incrementos de peso en ambas granjas).
GRANJA A 22 18 15 19 22 23 22 19
GRANJA B 15 18 15 15 18 16 25 12 21 14 15 13
Hipótesis:
H0: 1 = 2
Ha: 1  2
97
Ejemplo Test de Mann-Whitney.
Comandos SPSS
Introducir datos: Igual que ANOVA
Analizar





Pruebas no paramétricas
Dos muestras independientes
Contrastar variables: Incremento peso
Variable de agrupación: Granjas
Definir grupos: (1 2)
Tipo de prueba: U de Mann-Whitney
Opciones: Estadísticos descriptivos
98
Ejemplo Test de Mann-Whitney.
Resultados SPSS
Estadísticos descriptivos
N
Desviación
típica
Media
Mínimo
Máximo
Incremento de precios
20
17,85
3,69
12
25
GRANJAS
20
1,60
,50
1
2
Estadísticos de contraste
Rangos
Incremento de precios
GRANJAS
Granja A
Rango
promedio
N
Increm ento
de precios
Suma de
rangos
8
14,25
114,00
Granja B
12
8,00
96,00
Total
20
Las dos dietas no producen por
término
medio
los
mismos
resultados en cuanto al engorde
de los animales. Aparentemente,
el engorde es mayor en la dieta
aplicada en la granja B que en la
aplicada en la granja A.
b
U de Mann-Whitney
18,000
W de Wilcoxon
96,000
Z
-2,340
Sig. as intót. (bilateral)
,019
Sig. exacta [2*(Sig.
unilateral)]
,020
a
a. No corregidos para los em pates.
b. Variable de agrupación: GRANJAS
99
Test de Wilcoxon
Objetivo:
Contrastar si los dos promedios de variables relacionadas
procedentes de una misma población o son diferentes.


Supuestos:
Observaciones extraídas de muestras aleatorias relacionadas.
Valores ordenables (escala no nominal)
Hipótesis nula:
Los datos muestrales proceden de dos poblaciones con la
misma medida de tendencia central.
Metodología:
Diferencias de los n pares de observaciones procedentes de
dos
poblaciones
ordenadas
en
orden
creciente,
independientemente del signo, asignando a cada una un rango
de 1 a n.
100
Caso:
Comparación de dos materiales para fabricación de
tacones de zapatos de caballero
En un experimento para comparar dos materiales distintos, A y B,
que se deben utilizar para fabricar tacones de zapatos de
caballero, se seleccionó a 15 hombres y se les proporcionó un par
de zapatos nuevos de los cuales un tacón estaba hecho con el
material A y el otro con el material B. Al principio del experimento,
cada tacón tenía un grosor de 10 mm. Después de usar los
zapatos durante un mes, se midió el grosor restante, resultando
PAR
MATERIAL A
MATERIAL B
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
6,6 7,0 8,3 8,2 5,2 9,3 7,9 8,5 7,8 7,5 6,1 8,9 6,1 9,4 9,1
7,4 5,4 8,8 8,0 6,8 9,1 6,3 7,5 7,0 6,6 4,4 7,7 4,2 9,4 9,1
Verificar que no existen diferencias significativas en el el grosor
resultante de los tacones entre ambos materiales, usando un
α=0,05.
Hipótesis de partida serán:
H0: 1 = 2
Ha: 1  2
101
Ejemplo Test de Wilcoxon. Resultados
SPSS
Estadísticos descriptivos
N
Media
Desviación
típica
Mínimo
Máximo
Material A
15
7,727
1,289
5,2
9,4
Material B
15
7,180
1,628
4,2
9,4
Rangos
Estadísticos de contraste
Rango
promedio
N
Material B - Material A
Rangos negativos
Rangos positivos
Empates
Total
a. Material B < Material A
b. Material B > Material A
Suma de
rangos
a
7,35
73,50
3b
5,83
17,50
10
c
2
15
b
Material B Material A
-1,960 a
Z
Sig. as intót. (bilateral)
,050
a. Basado en los rangos pos itivos.
b. Prueba de los rangos con signo de Wilcoxon
c. Material A = Material B
El estadístico es igual a –1,96. Está en el límite de (-1,96; 1,96), por lo que se
concluye que, a un nivel de significación del 5%, no estamos seguros de
aceptar o rechazar la hipótesis nula. En este caso se debería recomendar
aumentar el tamaño de la muestra para estar más seguros si existen
diferencias significativas en el grosor resultante de los tacones entre ambos
102
materiales.
Test de Kruskall-Wallis
Objetivo:
Decidir si varias muestras independientes (más de dos) puede
considerarse que provienen de poblaciones con la misma
distribución, desde el punto de vista de su promedio.


Supuestos:
Observaciones extraídas de muestras aleatorias relacionadas.
Valores ordenables (escala no nominal)
Hipótesis nula:
Los datos muestrales proceden de dos poblaciones con la
misma medida de tendencia central.
Metodología:
Se asignan rangos, de 1 a n (n = n1 + n2 + .... + nk).
103
Caso:
Influencia de la renta familiar en el nivel cultural de
los hijos
Se desea saber si la renta familiar influye en el grado de cultura de los hijos.
Para verificarlo se toman cuatro niveles de renta y en cada uno un cierto
número de familias con niños comprendidos entre ciertas edades. Se somete
a los niños a tests cuyos resultados, expresados en la tabla adjunta, reflejan
el grado de cultura. Usar un 5% de significación.
N IV E L R E N T A 1 N IV E L R E N T A 2 N IV E L R E N T A 3 N IV E L R E N T A 4
171
121
108
121
146
144
108
108
117
164
108
96
191
196
178
72
164
125
149
121
137
155
117
96
126
137
119
72
182
191
89
155
155
121
129
98
98
Hipótesis:
H0: 1 = 2= 3 = 4
Ha: 1  2 3  4
104
Ejemplo Test de Kruskall-Wallis.
Comandos SPSS
Introducir datos: Columna para cada variable
Analizar





Pruebas no paramétricas
k muestras independientes
Contrastar Variables: Puntuaciones
Variable de agrupación
Definir rango (1 4)
Tipo de prueba: H de Kruskall-Wallis
Opciones: Estadísticos descriptivos
105
Ejemplo Test de Kruskall-Wallis.
Resultados SPSS
Rangos
Estadísticos descriptivos
N
Puntuaciones
Niveles renta
Media
37
132,03
37
2,43
Desviación
típica
32,90
1,09
Mínimo
10
Rango
promedio
25,65
196
Nivel renta 2
8
26,63
4
Nivel renta 3
12
14,92
Nivel renta 4
7
7,79
Puntuaciones
Máximo
72
1
Niveles renta
Nivel renta 1
Total
a,b
Estadísticos de contraste
N
37
Puntuaciones
Chi-cuadrado
17,028
gl
3
Sig. as intót.
,001
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: Niveles renta
Con un nivel de significación del 5%, se rechaza la hipótesis nula de
igualdad de promedios poblacionales. Al menos uno de los
promedios es diferente al del resto. Efectivamente, hay diferencias
significativas en el grado de cultura de los hijos según el nivel de
renta de los padres.
106
Test de Friedman
Objetivo:
Comparar en términos promedio el comportamiento de los
mismos individuos bajo k (> 2) condiciones diferentes.


Supuestos:
Observaciones de muestras aleatorias independientes.
Valores ordenables (escala no nominal)
Hipótesis nula:
Los datos muestrales proceden de k poblaciones con la misma
medida de tendencia central.
Metodología:
De forma independiente, en los datos o puntuaciones de cada
fila se asignan rangos, correspondiendo el 1 a la puntuación
menor de la fila y el k a la mayor puntuación
107
Caso:
Comparación de calificaciones en una prueba de
salto
Cuatro jueces se encargan de calificar en una competencia de salto que
incluye a 10 finalistas. Los datos que figuran en la tabla siguiente son
calificaciones, donde un 10 indica un salto perfecto. Para una
significación del 1%, determinar si existe diferencia significativa en las
calificaciones que otorgan cada uno de los cuatro jueces.
JUEZ
COMPETIDOR
1
2
3
4
5
6
7
8
9
10
H0: 1 = 2= 3 = 4
Ha: 1  2 3  4
1
8,5
9,8
7,9
9,7
6,2
8,9
9,2
8,4
9,2
8,8
2
8,6
9,7
8,1
9,8
6,8
9,2
9,2
8,5
9,6
9,2
3
8,2
9,4
7,5
9,6
6,9
8,1
8,7
8,4
8,9
8,6
4
8,4
9,6
8,2
9,6
6,5
8,7
8,9
8,6
9,5
9,3
108
Ejemplo Test de Friedman. Comandos
SPSS
Introducir datos: Columna para cada variable
Analizar
Pruebas no paramétricas
k muestras independientes
 Contrastar Variables: Calificaciones
 Tipo de prueba: Friedman
 Opciones: Estadísticos descriptivos
109
Ejemplo Test de Friedman. Resultados
SPSS
Estadísticos descriptivos
N
Desviación
típica
Media
Rangos
Mínimo
Rango
promedio
Máximo
A
10
8,660
1,042
6,2
9,8
A
2,50
B
10
8,870
,913
6,8
9,8
B
3,45
C
10
8,430
,817
6,9
9,6
C
1,40
D
10
8,730
,933
6,5
9,6
D
2,65
Estadísticos de contraste
N
a
10
Chi-cuadrado
13,206
gl
3
Sig. as intót.
,004
a. Prueba de Friedman
Con un nivel de significación del
1%, hay diferencias significativas
en al menos una de las
calificaciones que otorgan cada
uno de los cuatro jueces.
110
7. Análisis Discriminante
Técnica multivariante de clasificación de individuos en grupos sistemáticamente
distintos, utilizando también técnicas factoriales. Se parte de dos o más grupos
de objetos o individuos, de los que conocemos los valores de p variables.
Objetivo:
Explicar la pertenencia de cada individuo a un grupo (variable categórica) según
la variable aleatoria p-dimensional del objeto (variable explicativa).
Predecir a qué grupo pertenece un individuo nuevo, del que conocemos el valor
de la variable p dimensional clasificadora o explicativa.
Puede aplicarse para:
Describir: Explicar la diferencia entre los distintos tipos de objetos.
Hacer Inferencia: Contrastar diferencias significativas entre poblaciones.
Tomar de decisiones: Decidir donde clasificar un objeto.
111
SUPUESTOS

Existen K poblaciones o grupos G1, G2,....Gk.

Cada grupo está formado por n1, n2,...nk objetos: .

Sobre cada objeto han sido medidas p variables x1, x2,.xp,

Se quiere buscar una regla de decisión que permita asignar un objeto a
uno de los grupos partiendo de la información anterior.

Los datos se presentan en matriz de n objetos pertenecientes a K
grupos, medidos por una variable aleatoria p dimensional y una
variable discreta que indica el grupo al que pertenece cada objeto.
112
CLASIFICACIÓN
Funciones discriminantes lineales de Fisher:
Permiten diferenciar los grupos para el proceso de clasificación. Son
combinación lineal de las P variables, interviniendo cada una con un peso
diferente que indica las que más discriminan. Problema descriptivo.
Funciones discriminantes canónicas:
Sirven para la predicción óptima del grupo a que pertenece un individuo.
Problema de inferencia.
M A T R IZ D E D A T O S
G X 1 X 2 .... X p
1
1
DATOS
....
2
2
3
113
CLASIFICACIÓN CON DOS GRUPOS Y UNA
VARIABLE CLASIFICADORA, X
Problema:
Clasificar a cada individuo en el grupo correcto, según la variable clasificadora.
Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la
variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la
varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar:
pueden haber errores de clasificación.
GRÁFICO 1
eI
Xi<C, clasificar al individuo i en grupo I.
Xi>C, clasificar al individuo i en grupo II
C
X
e II
Punto de corte discrimina nte : C 
X I  X II
2
Los errores de clasificación están en :
•Área a la derecha de C : Casos del
grupo I donde Xi>C: casos del grupo I
mal clasificados en el grupo II.
•Área a la izquierda de C : Casos del
grupo II donde Xi<C,: casos del grupo II
mal clasificados en el grupo I.
114
CLASIFICACIÓN CON DOS GRUPOS Y UNA
VARIABLE CLASIFICADORA, X
Problema:
Clasificar a cada individuo en el grupo correcto, según la variable clasificadora.
Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la
variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la
varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar:
pueden haber errores de clasificación.
GRÁFICO 1
eI
Xi<C, clasificar al individuo i en grupo I.
Xi>C, clasificar al individuo i en grupo II
C
X
e II
Punto de corte discrimina nte : C 
X I  X II
2
Los errores de clasificación están en :
•Área a la derecha de C : Casos del
grupo I donde Xi>C: casos del grupo I
mal clasificados en el grupo II.
•Área a la izquierda de C : Casos del
grupo II donde Xi<C,: casos del grupo II
mal clasificados en el grupo I.
115
Caso:
Situación de las Comunidades Autónomas
españolas en cuanto a indicadores de bienestar
En el periódico “El País” del día 17 de enero de 2002 se publicó un resumen de un estudio
incluido en el Anuario social de España 2001 de la Caixa, elaborado por la Universidad
Autónoma de Madrid, sobre el mapa de bienestar de las provincias españolas para el año
2001, clasificándolas a partir de las 12 variables siguientes:
1
2
3
4
5
6
Renta
Salud
Servicios sanitarios
Nivel educativo y culturañ
Oferta educativa, cultura y ocio
Empleo
7
8
9
10
11
12
Condiciones de trabajo
Vivienda y equipamiento del hogar
Accesibilidad económica y seguridad vial
Convivencia y participación social
Seguridad ciudadana
Entorno natural y clima
El estudio establece una clasificación según el bienestar de las provincias. Queremos hacer
un estudio similar, pero considerando el mapa de las autonomías y los datos
correspondientes al Anuario social de España de 2004. Tras la aplicación de un análisis
cluster jerárquico a los indicadores según autonomía, conseguimos formar cuatro grupos.
116
DATOS
CC.AA
Grupo
p1
p2
p3
p4
p5
p6
p7
p8
p9
p10
p11
p12
Andalucía
1
2
6
4
4
3
3
5
6
6
5
5
5
Castilla-La Mancha
1
3
7
3
2
4
5
3
5
5
8
7
3
Extremadura
1
1
7
5
3
4
3
8
5
4
7
6
5
Murcia
1
3
3
3
4
3
7
9
7
9
6
5
3
Aragón
2
7
5
9
7
7
7
4
7
5
6
5
3
Castilla-León
2
5
6
6
6
7
5
5
5
4
7
7
4
La Rioja
2
8
6
4
7
6
8
5
6
5
6
6
5
Asturias
2
5
2
9
6
5
4
4
5
4
4
8
9
Canarias
2
5
5
6
7
6
5
6
4
9
4
6
8
Cantabria
2
6
7
8
9
6
6
3
6
5
5
8
9
Galicia
2
3
3
5
5
3
5
5
2
6
5
7
9
Valencia
2
5
4
6
5
4
6
6
6
8
5
4
6
Baleares
3
8
3
7
5
10
8
5
6
6
3
4
10
Cataluña
4
8
4
9
9
6
7
6
9
8
3
5
7
Madrid
4
9
7
9
9
5
7
10
9
10
4
4
3
Navarra
4
10
8
10
10
6
10
6
10
7
4
2
5
Euskadi
4
10
6
9
9
5
8
4
9
8
2
1
9
117
Objetivo y metodología del estudio
Objetivo:
Contrastar si la clasificación que realizamos de las
Comunidades Autónomas españolas es correcta,
dependiendo de las 12 variables consideradas.
Metodología:
La técnica adecuada es el Análisis Discriminante. En
él, la variable grupo de bienestar es la variable
dependiente, mientras que el resto son las variables
independientes que, previsiblemente, discriminan.
118
Obtención de las funciones discriminantes
Criterio:
Maximizar variabilidad entre grupos respecto a la de dentro de ellos.
Sea un eje definido por el vector unitario U, de dimensión p*1. La proyección del
individuo i-ésimo sobre él es el peso zi:
zi =
p
 uj
j =1
x ij
(i = 1,2,.....n )
Proyección de los n individuos: Vector Z (nx1), (Z=XU), función discriminante de
Fisher. Es una combinación lineal de las k variables explicativas originales.
Z  X 1u 1  X 2 u 2  ...... X n u n
Problema:Obtener los coeficientes de ponderación uj.
Hay que tener en cuenta que :
1. La matriz a diagonalizar no es simétrica: los vectores propios no son
necesariamente ortogonales.
2. El número de ejes discriminantes, F es como máximo el mínimo de [(K-1), p].
119
Métodos iterativos de selección de variables
Método de inclusión iterativa
En cada paso se selecciona la variable que más contribuye a la separación de
los grupos. El proceso se detiene si ninguna variable separa los grupos
significativamente más de lo que ya estaban.
Método de exclusión iterativa
Se incluyen todas las variables y en cada paso se elimina la que menos
contribuye a la separación de los grupos. El proceso se detiene cuando la
exclusión de cualquiera de las variables hace disminuir significativamente la
separación entre los grupos.
Método mixto de inclusión-exclusión: Stepwise
En cada etapa se evalúa la posibilidad de incluir o excluir una variable, según
criterios prefijados. Su aplicación requiere definir previamente una regla de
decisión, Landa de Wilks, cociente entre el determinante de la matriz de
variación dentro de los grupos y el de la matriz de variación total.
120
Stepwise
Con el landa de Wilks se calcula un estadístico F. Cuanto mayor sea F, más
significativa será la variable para la que se calcula. Hay que fijar:
F mínimo para entrar (F-min-to-enter).
F máximo para salir (Fmax-to-go) (F to enter > F de salida).
Nivel de tolerancia: Medida del grado de asociación lineal entre las variables
clasificadoras.
Si la tolerancia de la variable i es muy pequeña, significa que dicha variable está
muy correlacionada con el resto, lo que puede provocar problemas en la
estimación. Generalmente, se fija un nivel mínimo de tolerancia.
121
Cómo saber si los datos son apropiados
Si las poblaciones son normales, pero con matrices de covarianzas distintas, la
regla de clasificación óptima se obtiene con funciones lineales cuadráticas.
Excepto en el caso de dos variables, las funciones cuadráticas son difíciles de
obtener, por su complejidad analítica. Sin embargo, los resultados prácticos no
suelen diferir sustancialmente. Conviene, no obstante, contrastar la igualdad de
matrices de covarianzas.
Si las distribuciones de probabilidad poblacionales de los grupos son normales
multivariantes con matrices de covarianzas iguales, y se fijan probabilidades a
priori y costes idénticos para todos los grupos, la predicción con todas las
funciones lineales discriminantes coincide con la clasificación óptima obtenida
con la regla de decisión.
Cuando las poblaciones no son normales, las probabilidades o verosimilitud de
la muestra no se conocen, al no conocer la forma de la distribución
probabilística de cada grupo. En este caso, puede sustituirse el cociente de
verosimilitudes por el de distancias de Mahalanobis. Si las poblaciones son
normales, ambos coinciden.
122
Ventanas SPSS 1
Analizar Clasificar
Análisis discriminante
En la variable de agrupación pondremos
la variable categórica que es la que
indica el grupo de pertenencia de cada
individuo en la matriz inicial. En nuestro
caso se han considerado cuatro grupos.
De 1 a 4
Pediremos las medias y los ANOVAS
univariados. Además, pediremos los
coeficientes de la función de Fisher, la
correlación y la covarianza intra-grupos.
123
Ventanas SPSS 2
Si elegimos usar método de
inclusión por pasos, debemos
definir el que deseamos y los
criterios. Utilizaremos la distancia
de
Mahalanobis.
Además,
indicaremos que el resultado
muestre un resumen de los pasos y
el valor de la F de Snedecor para
las distancias por parejas.
La distancia de Mahalanobis D² es una medida generalizada de distancia entre dos
grupos que tiene en cuenta la posición central (centro de gravedad) y las dispersiones
(matrices de productos cruzados o de covarianzas intragrupos) de los grupos.
2
1
D i , j  ( x i  x j ) D I , II ( x i  x j )
DI,II: matriz de productos cruzados (matriz de covarianzas intragrupos).
Se asignará cada individuo al grupo para el que D² es menor.
124
Ventanas SPSS 3
Probabilidades previas:
Se puede elegir todos los grupos iguales
calcular según tamaño de grupos.
Mostrar:
Resultados para cada grupo y tabla resumen.
Usar matriz de covarianzas intragrupos.
Gráficos de los grupos combinados.
125
Resultados: Estadísticos descriptivos
GRUPO 1
Índice
Media
Desv. típ.
Renta
2,25
0,957
Salud
5,75
Ss.sanitarios
N.educativo y
cultural
Of.educativa,
cultural/ocio
GRUPO 2
Media
Desv. típ.
0,426
5,5
1,512
0,275
1,893
0,329
4,75
1,669
3,75
0,957
0,255
6,625
3,25
0,957
0,295
3,5
0,577
4,5
Condiciones trabajo
Vivienda
Acces.ec.y
seguridad vial
Empleo
Conv.y partic.social
Seguridad
ciudadana
Entorno natural y
clima
Nº CASOS
Desv. típ.
Media
8
9,25
0,351
3
1,847
0,279
6,5
1,309
0,165
5,5
1,915
0,426
6,25
2,754
5,75
TOTAL
CVP
Media
Desv. típ.
0,957
0,104
5,765
2,796
0,485
6,25
1,708
0,273
5,235
1,786
0,341
7
9,25
0,500
0,054
6,588
2,347
0,356
0,201
5
9,25
0,500
0,054
6,294
2,365
0,376
1,414
0,257
10
5,5
0,577
0,105
5,294
1,795
0,339
5,75
1,282
0,223
8
8
1,414
0,177
6,118
1,900
0,311
0,441
4,75
1,035
0,218
5
6,5
2,517
0,387
5,529
1,940
0,351
0,957
0,167
5,125
1,553
0,303
6
9,25
0,500
0,054
6,294
2,054
0,326
6
2,160
0,360
5,75
1,832
0,319
6
8,25
1,258
0,153
6,412
1,938
0,302
6,5
1,291
0,199
5,25
1,035
0,197
3
3,25
0,957
0,295
4,941
1,600
0,324
5,75
0,957
0,167
6,375
1,408
0,221
4
3
1,826
0,609
5,294
1,929
0,364
4
1,155
0,289
6,625
2,446
0,369
10
6
2,582
0,430
6,059
2,512
0,415
8
CVP
GRUPO 4
Media
4
CVP
GRUPO 3
1
4
17
126
CVP
Pruebas de igualdad de medias de los grupos
Índice de renta
Lambda
de Wilks
,172
F
20,872
Índice de salud
,764
Índice de servicios
sanitarios
gl1
3
gl2
13
Sig.
,000
1,340
3
13
,304
,311
9,615
3
13
,001
Índice de nivel educativo y
cultural
,173
20,696
3
13
,000
Índice de oferta educativa,
cultural y de ocio
,311
9,623
3
13
,001
Índice de empleo
,493
4,450
3
13
,023
Índice decondiciones
trabajo (calidad del
empleo)
,818
,967
3
13
,438
Índice de vivienda y
equipamiento del hogar
,302
10,029
3
13
,001
Índice de accesibilidad
económica y seguridad
vial
,703
1,833
3
13
,191
Índice de convivencia y
participación social
,372
7,300
3
13
,004
Índice de seguridad
ciudadana
,447
5,355
3
13
,013
Índice de entorno natural
y clima
,653
2,307
3
13
,125
Variables con niveles superiores de lambda:
Condiciones de trabajo, sanidad, convivencia y
participación social, entorno y clima y seguridad y
medio ambiente, que no muestran diferencias
significativas entre los grupos de bienestar, con
niveles de significación de la F superiores al 10%.
La lambda de Wilk oscila entre 0 y
1. Valores pequeños indican fuertes
diferencias de grupo y los cercanos
a 1 no diferencias de grupo.
F es una proporción de variabilidad
entre-grupos y variabilidad intragrupos.
Variables con los menores valores
de lambda: Nivel de instrucción,
vivienda, riqueza, servicios sanitarios
y educación, cultura y ocio, Empleo y
accesibilidad económico-comercial
con F significativos a menos de un
10%.
127
Matriz de correlaciones
Correlación
renta
salud
Ss.Sanitarios
N.Educativo
Oferta Educativa
Empleo
Cond.Trabajo
Vivienda
Acc.Ec.y Seg.Vial
Conv.y Part.Social
Seg.Ciudadana
Entorno y clima
1
1
0,38
-0,02
0,47
0,49
0,75
-0,24
0,74
-0,07
0,23
-0,34
-0,44
2
0,38
1
0,02
0,37
0,52
0,15
-0,2
0,17
-0,34
0,52
-0,05
-0,29
3
4
5
6
7
8
9
-0,02 0,47 0,49 0,75 -0,24 0,74 -0,07
0,02 0,37 0,52 0,15 -0,2 0,17 -0,34
1 0,32 0,31 -0,26 -0,19 0,33 -0,38
0,32
1 0,44 0,31 -0,06 0,53 -0,01
0,31 0,44
1 0,19 -0,2 0,47 -0,4
-0,26 0,31 0,19
1
0 0,57 0,16
-0,19 -0,06
-0,2
0
1
0 0,55
0,33 0,53 0,47 0,57
0
1
0
-0,38 -0,01
-0,4 0,16 0,55
0
1
-0,15 -0,18 0,48 0,31 0,05 0,11 -0,38
0,11 0,04 0,15 -0,43 -0,08 -0,37 -0,34
0,09 0,05 -0,45 -0,43 -0,35 -0,48 -0,05
10
0,23
0,52
-0,15
-0,18
0,48
0,31
0,05
0,11
-0,38
1
0,19
-0,73
Las matrices intra-grupos combinadas muestran una matriz de covarianzas y una
matriz de correlaciones. Son diferentes de las matrices usuales donde todos los
casos son tratados como una muestra individual. Las covarianzas intra-grupos
combinadas se obtienen promediando las matrices de covarianzas separadas
para todos los grupos. Las correlaciones intra-grupos combinadas se calculan a
partir de las covarianzas y varianzas.
128
Variables introducidas/eliminadas en el análisis
Paso
Introducidas
Eliminadas
Mín. D cuadrado
Estadístico
1
N.Educativo
2
3
Entre grupos
F exacta
Estadístico
gl1
gl2
Sig.
1,887
2y3
1,677
1
13
0,218
Renta
10,223
2y4
12,582
2
12
0,001
Of.Educativa
10,530
1y2
7,920
3
11
0,004
7,905
2y4
9,729
2
12
0,003
4
Renta
5
Vivienda
15,903
2y4
11,961
3
11
0,001
6
Conv.y Part.Social
16,958
2y4
8,697
4
10
0,003
Distancia de Mahalanobis grande: Casos con valores extremos en una o más
variables independientes. En cada paso se introduce la variable que maximiza
la distancia de Mahalanobis entre los grupos más cercanos.
Paso 1: la variable que maximiza la distancia de Mahalanobis entre los dos
grupos más cercanos (2 y 3) es el Nivel educativo y cultural.
Paso 2: Renta entre los grupos 2 y 4.
Paso 3: Oferta educativa entre los grupos 1 y 2.
Paso 4: Se elimina la variable Renta, puesto el estadístico desciende respecto
a los anteriores entre los grupos 2 y 4.
Paso 5: Se introduce la variable Vivienda puesto que maximinza la distancia
entre los grupos 2 y 4 que son los más cercanos.
Paso 6: Convivencia y participación social entre los grupos 2 y 4.
129
Estadísticos para las variables en el análisis
Paso
1
2
Variables
Tolerancia
F para
Mín. D
Entre
eliminar
cuadrado
grupos
20,696
4,547
,945 3 y 4
4,607
1,887 2 y 3
4,207
6,821 1 y 2
2,678
7,905 2 y 4
6,495
10,223 2 y 4
20,726
,000 2 y 4
9,786
1,887 2 y 3
13,130
5,584 1 y 2
10,242
3,173 1 y 3
7,461
7,905 2 y 4
12,235
12,096 1 y 2
16,481
11,528 1 y 3
6,778
8,560 2 y 4
5,761
15,903 2 y 4
Nivel Educativo
1,000
Nivel Educativo
,783
Renta
,783
3 Nivel Educativo
,721
Renta
,687
Oferta Educativa
,704
4 Nivel Educativo
,802
Oferta Educativa
,802
5 Nivel Educativo
,666
Oferta Educativa
,726
Vivienda
,646
2
1 - ri
6 Nivel Educativo
,508
Oferta Educativa
,460
Vivienda
,643
Convivencia y
,574
participación social
Tolerancia: Proporción de la varianza de la variable que no es explicada por las otras
variables independientes. Se utiliza para determinar cuantas variables independientes
están linealmente relacionadas con las otras (multicolinealidad). Una variable con muy
baja tolerancia contribuye con poca información al modelo y puede causar problemas de
cálculo.
F para eliminar: Útil para describir qué ocurre si la variable es eliminada del modelo
presente. Es la misma que la F para entrar en la etapa anterior. Dependiendo del método
por pasos elegido, podemos ver otros estadísticos tales como la lambda de Wilks.
130
Número de variables en cada etapa
Número
F exacta
Lambda gl1 gl2 gl3
de
Paso
Estadístico gl1 gl2
variables
1
1
,173 1 3 13
20,696
3 13
2
2
,080 2 3 13
10,102
6 24
3
3
,029 3 3 13
4
2
,050 2 3 13
13,847
6 24
5
3
,017 3 3 13
6
4
,006 4 3 13
F aproximada
Sig. Estadístico gl1
gl2
Sig.
,000
,000
9,816 9 26,922 ,000
,000
13,142 9 26,922 ,000
13,121 12 26,749 ,000
Lambda: Contraste multivariante de significación. Contraste de hipótesis de
igualdad de medias entre los grupos para cada uno de los pasos. Oscila entre 0
y 1. Valores cercanos a 0: las medias de los grupos son diferentes. Valores
cercanos a 1: las medias de los grupos no son diferentes.
Lambda y sus grados de libertad son transformados en un estadístico F. Si el
valor de significación es pequeño (menor que 0,10) indica que las medias de los
grupos difieren. Si el valor de significación es grande (mayor que 0,10) indica
que las medias de los grupos no difieren.
Como el nivel de significación o área que deja a la derecha el estadístico es,
como máximo 0,012, a un nivel de significación del 5%, no se puede concluir
que las medias de los grupos sean iguales. Es decir, se rechaza la igualdad de
131
medias entre grupos de cada una de las variables incluidas en el análisis.
Comparaciones de grupos por pares:
Última etapa
Paso GRUPOS
1
2
3
4
1
F
9,200 17,478 13,471
Sig.
,002 ,000 ,000
2
F
9,200
14,243 8,697
Sig. ,002
,000 ,003
6
3
F 17,478 14,243
16,082
Sig. ,000 ,000
,000
4
F 13,471 8,697 16,082
Sig. ,000 ,003 ,000
Los dos grupos con mayores F y menores niveles de significación son los
que difieren más.
Los dos grupos con menores F y mayores niveles de significación son los
que difieren menos.
Si el valor de significación es pequeño, la diferencia entre los grupos es
significativa. Si el valor de significación es grande (mayor que el 5%)
entonces la diferencia entre los grupos no es significativa.
132
Funciones canónicas discriminantes
Función Autovalor % de varianza % acumulado Correlación canónica
1
7,007
48,1
48,1
,935
2
5,255
36,1
84,3
,917
3
2,291
15,7
100,0
,834
Valor propio: Cociente entre la suma de cuadrados intra-grupos e Inter.-grupos. El mayor
valor propio corresponde al vector propio en la dirección de la máxima dispersión de las
medias de los grupos. El segundo, al vector propio en la dirección que tiene la siguiente
mayor dispersión, y así sucesivamente. La raíz cuadrada de cada valor propio proporciona
un índice de la longitud del correspondiente vector propio. Valores propios pequeños
explican muy poco de la dispersión total.
% de varianza: Evalúa la dispersión de cada variable canónica.
% acumulado: Porcentaje de la dispersión total explicada por las variables canónicas. Las
dos primeras variables canónicas explican el 100% de la dispersión total.
Correlación canónica: mide la asociación entre las puntuaciones discriminantes y los
grupos. Valores cercanos a 1 indican una fuerte correlación entre las puntuaciones
discriminantes y los grupos.
Número de variables canónicas: Cuando hay más de dos grupos, es k-1 (donde k es el
número de grupos) o p (el número de variables), el que sea menor de los dos.
133
Prueba de hipótesis igualdad de medias entre grupos
de las funciones
Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig.
1 a la 3
,006
61,260 12 ,000
2 a la 3
,049
36,297 6 ,000
3
,304
14,296 2 ,001
La lambda de Wilks varía entre 0 y 1. Valores cercanos a 0 indican que las medias de
los grupos son diferentes. Valores cercanos a 1 indican que las medias de los grupos
no son diferentes (igual a 1 indica que todas las medias son la misma).
Chi-cuadrado de la lambda de Wilks determina la significación. Si es pequeña (menor
que el 10%) indica que las medias de grupo difieren. Si es grande, indica que las
medias de los grupos no difieren.
134
Matriz de estructura
Oferta Educativa
Empleo (a)
Servicios Sanitarios (a)
Condiciones de Trabajo (a)
Nivel Educativo
Convivencia y participación social
Renta (a)
Vivienda
Seguridad ciudadana (a)
Salud (a)
Entorno y clima (a)
Accesibilidad económica y seguridad vial (a)
Función
1
2
-,548 ,139
,381 ,279
-,325 ,286
,298 -,014
-,120 ,937
,281 -,442
,013 ,382
,019 ,508
-,097 -,088
,046 ,149
-,229 ,212
,171 ,163
3
,088
-,245
-,184
-,032
,159
,212
-,341
-,646
,560
,386
,236
-,205
Correlaciones intra-grupos de cada variable predictora con la función canónica.
Proporciona otra forma de estudiar la utilidad de cada variable en la función
discriminante. Para cada variable, en negrilla se marca su mayor correlación absoluta
con una de las funciones canónicas, ordenándose luego por tamaño de correlación.
Función 1: Oferta educativa, Empleo, Servicios sanitarios y Condiciones de trabajo.
Función 2: Nivel educativo, Convivencia y participación social y Renta.
Función 3: Vivienda, Seguridad ciudadana, Salud, Entorno y clima y Accesibilidad
135
económica y seguridad vial.
Coeficientes de funciones canónicas
Función
Coeficientes
Variable canónica
1
2
3
Nivel educativo
,542 ,957 ,864
Oferta educativa
-1,410 -,283 ,021
Vivienda
,277 ,147 -1,173
Convivencia y Part. social 1,023 -,152 ,490
Se utilizan para calcular las puntuaciones de la
variable canónica en cada caso. Si las variables son
medidas en unidades diferentes, la magnitud de un
coeficiente no estandarizado proporciona poca
indicación de la contribución relativa de la variable a la
discriminación global.
Función
1
2
3
4
Nivel educativo
4,573 7,679
-,603 8,604
Oferta educativa
-4,335 -2,048
9,092 -3,400
Vivienda
2,544 -,132
,522 2,756
Convivencia y part.social 8,164 6,884 -2,091 5,632
(Constante)
-35,138 -37,812 -45,214 -53,788
Función
GRUPOS 1
2
3
1
2,123 -2,494 -1,228
2
-,127 -,052 1,402
3
-8,524 -2,096 -1,536
4
,261 3,123 -1,191
Los coeficientes no tipificados de las funciones
canónicas discriminantes son estrictamente
proporcionales a los coeficientes tipificados de
dichas funciones para cada una de las
variables. Si sustituimos los valores de las
variables para cada una de las Autonomías,
obtendremos las puntuaciones discriminantes.
Medias de las variables canónicas por grupos. Las
medias intra-grupos se calculan para cada variable
canónica. Funciones discriminantes canónicas no
tipificadas evaluadas en las medias de los grupos. La
estimación de la función de clasificación para las
Comunidades Autónomas del grupo 1 es
2,123 G 1  0 . 127 G 2  8 . 524 G 3  0 . 261 G 4
136
Estimación del grupo con los coeficientes de las
Funciones discriminantes lineales de Fisher
GRUPO DE PERTENENCIA
1
2
3
4
Nivel educativo
4,573 7,679
-,603 8,604
Oferta educativa
-4,335 -2,048
9,092 -3,400
Vivienda
2,544 -,132
,522 2,756
Convivencia y part.social 8,164 6,884 -2,091 5,632
(Constante)
-35,138 -37,812 -45,214 -53,788
El programa SPSS no ofrece la función discriminante de Fisher, sino tantas
funciones como grupos se hayan considerado para los casos. A partir de
estas funciones se podría obtener la Función discriminante lineal de Fisher.
Con ellas se podrá predecir en qué grupo debe estar un individuo. Para ello,
habrá que sustituir en cada una de las funciones los valores originales de las
tres variables para cada una de las Comunidades Autónomas.
En nuestro caso, se clasificará la Comunidad Autónoma en aquel grupo cuyo
valor sea mayor en una de las cuatro funciones discriminantes anteriores.
137
Resultados
Comunidad
Autónoma
Andalucía
Castilla-La Mancha
Extremadura
Murcia
Aragón
Castilla-León
La Rioja
Asturias
Canarias
Cantabria
Galicia
Valencia
Baleares
Cataluña
Madrid
Navarra
Euskadi
Función Discriminante
1
1,76874
2,11870
1,66988
2,93504
-,66163
-,65555
,38824
-,94784
-1,94436
,43552
1,37935
,99360
-8,52374
-,79022
1,42596
,87219
-,46390
2
-1,46939
-4,01632
-2,99912
-1,49257
,11811
-1,13349
,25586
-,20245
,30223
2,14989
-1,06135
-,84751
-2,09642
2,78225
2,89681
3,63588
3,17757
3
-1,55655
-,82647
-,48748
-2,04129
,40840
1,94311
1,32614
,54859
2,29563
2,45621
2,98193
-,74635
-1,53590
-1,25852
-,82553
-,95218
-1,72973
Grupo
Grupo
pronosticado inicial
1
1
1
1
2
2
2
2
2
2
2
1
3
4
4
4
4
1
1
1
1
2
2
2
2
2
2
2
2
3
4
4
4
4
Con la función discriminante de Fisher todas las C.A. se clasifican en el mismo
grupo inicial, salvo Valencia, que se estaba en el segundo grupo y, según la
138
función discriminante de Fisher, hay que incluirla en el primer grupo.
Estadísticos de clasificación por casos
Nº
casos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Grupo
real
1
1
1
1
2
2
2
2
2
2
2
2
3
4
4
4
4
Grupo mayor
P(D>d/ P(G=g/
Grupo
G=g)
D=d)
pronost
p gl
1
,733 3 ,997
1
,479 3 1,000
1
,799 3 ,999
1
,508 3 1,000
2
,729 3 ,998
2
,628 3 1,000
2
,947 3 ,999
2
,700 3 ,999
2
,238 3 1,000
2
,099 3 ,991
2
,123 3 1,000
1**
,239 3 ,609
3
1,000 3 1,000
4
,747 3 ,998
4
,673 3 ,999
4
,875 3 1,000
4
,845 3 1,000
Puntuaciones
discriminantes
2º grupo mayor
D
2
Grupo P(G=g|/D=d)
1,284 2
2,478 2
1,008 2
2,324 2
1,302 4
1,742 1
,366 4
1,425 4
4,229 4
6,278 4
5,783 1
4,220 2
,000 2
1,226 2
1,542 2
,694 2
,818 2
,003
,000
,001
,000
,002
,000
,000
,000
,000
,009
,000
,389
,000
,002
,001
,000
,000
D
2
14,352
25,719
15,480
23,302
12,441
19,628
14,576
15,549
24,981
14,283
20,330
6,501
83,320
15,552
16,068
20,141
20,352
F. 1
F. 2
F. 3
1,769 -1,469 -1,557
2,119 -4,016 -,826
1,670 -2,999 -,487
2,935 -1,493 -2,041
-,662 ,118 ,408
-,656 -1,133 1,943
,388 ,256 1,326
-,948 -,202 ,549
-1,944 ,302 2,296
,436 2,150 2,456
1,379 -1,061 2,982
,994 -,848 -,746
-8,524 -2,096 -1,536
-,790 2,782 -1,259
1,426 2,897 -,826
,872 3,636 -,952
-,464 3,178 -1,730
 Grupo real: el que se asignó a cada caso en la clasificación inicial.
 Grupo mayor: En el que debe estar incluido cada caso, según las funciones
discriminantes y con probabilidad a posteriori de pertenencia a él, P(G=g/ D=d), mayor,
(teorema de Bayes), utilizando la Distancia de Mahalanobis, D2, y la probabilidad
condicionada P(D>d/ G=g)
 Segundo grupo mayor: en cuanto al valor de la probabilidad a posteriori.
 Puntuaciones discriminantes: las obtenidas al sustituir los valores en las funciones
139
discriminantes canónicas.
Gráfico
Grupo 1:
Andalucía, Castilla-La Mancha,
Extremadura,
Valencia
y
Murcia.
Grupo 2:
Canarias, Aragón, CastillaLeón,
Asturias,
Cantabria,
Galicia y La Rioja.
Grupo 3:
Baleares
Grupo 4:
Cataluña, Madrid, Euskadi y
Navarra.
La única Comunidad Autónoma
reclasificada, pasándola del
grupo 2 al 1 Valencia.
140
Conclusiones




Las variables independientes que más discriminan
entre los cuatro grupos iniciales referidos al bienestar
de las autonomías son:
Nivel educativo
Oferta educativa
Vivienda
Convivencia y participación social
Con las funciones discriminantes obtenidas, todas
las comunidades autónomas se encuentran
clasificadas en los mismos grupos inicialmente
considerados, salvo Valencia que se había incluido
en el grupo 2 y, a partir del Análisis Discriminante,
parece mejor situada en el grupo 1.
141
Caso a resolver:
Lugar previsible de residencia de los turistas en
Tenerife
Objetivo:
Lugar de residencia previsible de los turistas que
vienen a Tenerife.



Metodología:
Cuestionario: Fichero: base turistas curso.sav
Se han elegido: nacionalidad, noches, nº visitas, nº
personas, edad, sexo y gasto/persona/noche.
Se elige como variable dependiente de clasificación
el lugar de residencia con tres posibilidades: Puerto
de la Cruz, Las Américas-Los Cristianos, Resto.
142
Descargar

ANÁLISIS MULTIVARIANTE