ANÁLISIS EXPLORATORIO
DE DATOS
Ángel M. Ramos Domínguez
Análisis Exploratorio de Datos
La exploración de los datos puede ayudar a determinar si las
técnicas estadísticas que estamos considerando utilizar en
el análisis son apropiadas. El procedimiento EXPLORAR de
SPSS proporciona una variedad de resúmenes númericos y
visuales de los datos, tanto para todos los datos en su
conjunto, como para grupos de casos separadamente. La
variable dependiente debe estar medida en una escala
cuantitativa, mienstras que las variables de grupo pueden
ser ordinales o nominales.
Con el procedimiento EXPLORAR de SPSS podemos:
Escrutar los datos
Identificar casos atípicos (outliers)
Revisar los supuestos
Caracterizar las diferencias entre grupos de casos
Análisis Exploratorio de Datos
Queremos explorar la variable gasto por turista y
día, para el conjunto de la muestra, cumple los
supuestos exigidos para la mayoría de las
técnicas estadísticas, así como, para cada uno de
los grupos de turistas definidos según sexo.
Haremos uso de la base de datos Base
Turistas.sav que se encuentra en la carpeta
\\Escritorio\Asignaturas\Empresariales\Métodos\
de nuestro PC.
El fichero recoge la información referida a una
muestra de 797 turistas entrevistados al término
de sus vacaciones en Tenerife.
Análisis Exploratorio de Datos
Para empezar el
análisis, de la barra
de menús
elegimos:
Analizar
Estadísticos
Descriptivos
Explorar
Análisis Exploratorio de Datos
Elegimos como variable
dependiente el gasto por
turista y día, y como factor la
variable sexo.
Elegimos los estadísticos:
descriptivos, intervalo de
confianza para la media al
95%, estimadores robustos
centrales, valores atípicos y
percentiles.
Elegimos los gráficos:
diagrama de cajas, tallos y
hojas, histograma, y gráficos
con prueba de normalidad
Estimación de la potencia
Elegimos que nos muestre los
valores perdidos.
Resultados del AED
Resumen del procesamiento de los casos
Casos
Válidos
GAsto por turis ta y día
Sexo del turista
femenino
mas culino
N
Perdidos
Porcentaje
N
Total
Porcentaje
N
Porcentaje
360
90,2%
39
9,8%
399
100,0%
351
88,2%
47
11,8%
398
100,0%
La tabla de resumen del procesamiento de los
casos muestra tres secciones: la primera recoge
el número de casos válidos según sexo, la
segunda muestra el número de casos perdidos
según sexo, y por último, el número total de
casos, también según sexo.
Resultados del AED
Descriptivos
GAsto por turis ta y día
Sexo del turista
femenino
Es tadístico
Media
Intervalo de confianza
para la media al 95%
102,8162
Límite inferior
Límite superior
Media recortada al 5%
113,7027
91,3787
76,9510
Varianza
11031,778
Desv. típ.
105,03227
Mínimo
4,11
Máximo
1252,11
Rango
1248,00
101,10
As imetría
4,730
Curtos is
Media
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Límite inferior
Límite superior
,256
94,3822
4,50935
85,5133
103,2510
85,3265
74,2679
Varianza
7137,326
Desv. típ.
84,48269
Mínimo
,32
Máximo
750,06
Rango
749,74
As imetría
Curtos is
,129
41,907
Mediana
Amplitud intercuartil
5,53569
91,9298
Mediana
Amplitud intercuartil
mas culino
Error típ.
92,30
2,859
,130
14,334
,260
Resultados del AED
Prueba de Kolmogorov-Smirnov para una muestra
LN gtd
N
Parámetros normales
a,b
711
711
4,2243
98,6526
,91246
95,46856
Absoluta
,062
,162
Positiva
,040
,143
Negativa
-,062
-,162
1,659
4,327
,008
,000
Media
Desviación típica
Diferencias más
extremas
GAsto por
turis ta y día
Z de Kolmogorov-Smirnov
Sig. as intót. (bilateral)
a. La distribución de contraste es la N ormal.
b. Se han calculado a partir de los datos.
Resultados del AED
Los estimadores-M son medidas robustas
de tendencia central que se pueden usar
como alternativas a la media y la mediana.
Estimadores-M
GAsto por turis ta y día
Sexo del turista
femenino
mas culino
Es timador-M
a
de H uber
Es timador-M
c
de H ampel
Onda de
Andrews
d
81,6353
76,5716
82,9658
76,3414
77,2255
72,7408
77,7357
72,5968
a. La constante de ponderación es 1,339.
b. La constante de ponderación es 4,685.
c. Las constantes de ponderación son 1,700, 3,400 y 8,500.
d. La constante de ponderación es 1,340*pi.
Biponderado
b
de Tukey
Resultados del AED
Los percentiles indican el porcentaje de
casos que están por debajo de los valores
mostrados.
Percentiles
Percentiles
Promedio
ponderado(definición 1)
GAsto por turis ta y día
Bisagras de Tukey
GAsto por turis ta y día
Sexo del turista
femenino
5
10
25
14,5960
21,4647
37,5633
76,9510
50
138,6621
75
214,6472
255,4301
mas culino
13,9091
21,4647
185,0259
216,8151
36,4900
74,2679
128,7883
femenino
37,5633
76,9510
137,0880
mas culino
36,7377
74,2679
128,2517
90
95
Resultados del AED
La tabla de valores extremos muestra los casos
con los 5 valores mayores y menores.
Valores extremos
GAsto por turis ta y día
Sexo del turista
femenino
Número
del caso
Mayores
Menores
mas culino
Mayores
Menores
Nacionalidad
del turista
Valor
1
593
Británica
2
276
Italiana
601,01
3
501
Es pañola
601,01
4
768
Belga
450,76
5
701
Alemana
425,72
1
46
2
1252,11
Holandesa
4,11
440
Alemana
7,30
3
103
Francesa
7,51
4
68
Británica
7,51
5
12
Británica
1
467
Suiza
750,06
2
331
Británica
536,62
3
2
Es pañola
515,15
4
767
Belga
450,76
5
698
Alemana
415,07
8,59
1
7
2
86
Británica
1,50
3
19
Británica
4,65
4
24
Británica
6,26
5
441
Alemana
7,30
Holandesa
,32
Resultados del AED
El estadístico de Kolmogorov-Smirnov contrasta la
hipótesis de que los datos se distribuyen
normalmente.
Pruebas de normalidad
a
Kolmogorov-Smirnov
GAsto por turis ta y día
Sexo del turista
femenino
Es tadístico
mas culino
gl
Shapiro-Wilk
Sig.
Es tadístico
gl
Sig.
,179
360
,000
,672
360
,000
,141
351
,000
,772
351
,000
a. Corrección de la significación de Lilliefors
Pruebas de normalidad
Kolmogorov-Smirnov
LN gtd
Sexo del turista
femenino
mas culino
Es tadístico
gl
a
Shapiro-Wilk
Sig.
Es tadístico
gl
Sig.
,061
360
,003
,990
360
,015
,071
351
,000
,959
351
,000
a. Corrección de la significación de Lilliefors
Resultados del AED
El estadístico de Levene contrasta la hipótesis
de igualdad de varianzas de la variable
dependiente para los grupos definidos por la
variable factor categórica.
Prueba de homogeneidad de la varianza
Es tadístico
de Levene
GAsto por turis ta y día
gl1
gl2
Sig.
Basándos e en la media
2,821
1
709
,094
Basándos e en la
mediana.
2,110
1
709
,147
Basándos e en la
mediana y con gl
corregido
2,110
1
663,860
,147
Basándos e en la media
recortada
2,430
1
709
,119
Resultados del AED
Histograma
Histograma
para Sexo= masculino
para Sexo= femenino
80
140
120
60
Frecuencia
Frecuencia
100
40
80
60
40
20
20
Mean = 94,3822
Std. Dev. = 84,48269
N = 351
0
0,00
100,00 200,00 300,00 400,00 500,00 600,00 700,00
GAsto por turista y día
Mean = 102,8162
Std. Dev. = 105,03227
N = 360
0
0,00
200,00
400,00
600,00
800,00
1000,00 1200,00
GAsto por turista y día
Resultados del AED
Histograma
Histograma
para Sexo= femenino
para Sexo= masculino
50
60
50
Frecuencia
Frecuencia
40
30
20
40
30
20
10
10
Mean = 4,256
Std. Dev. = 0,90132
N = 360
0
2,00
3,00
4,00
LNgtd
5,00
6,00
7,00
Mean = 4,1919
Std. Dev. = 0,9239
N = 351
0
0,00
2,00
LNgtd
4,00
6,00
Resultados del AED
GAsto por turista y día Stem-and-Leaf Plot for
Sexo= femenino
LNgtd Stem-and-Leaf Plot for
Sexo= masculino
Frequency
Frequency
Stem & Leaf
Stem & Leaf
3,00 Extremes (=<1,5)
32,00
0 . 000011111111111
1. &
61,00
0 . 222222222222222333333333333333 2,00
11,00
2 . 1333&
59,00
0 . 44444444444444444444555555555
13,00
2 . 7899&
31,00
0 . 666666666777777
46,00
3 . 000000001222334444444
34,00
0 . 8888888888999999
63,00
3 . 555555666666777777788889999999
30,00
1 . 00000000001111
73,00
4 . 00001122222222222333333344444444444
23,00
1 . 22222222222&
75,00
4 . 555555666666666666677788888888889999
13,00
1 . 444445
52,00
5 . 000111111122222333333334
22,00
1 . 6667777777
8,00
5
. 557&
15,00
1 . 8888889
4,00
6 . 2&
12,00
2 . 01111
1,00
6. &
2,00
2. 3
12,00
2 . 445555
Stem width:
1,00
,00
2.
Each
leaf:
2
case(s)
1,00
2. &
13,00 Extremes (>=292)
Stem width:
Each leaf:
100,00
2 case(s)
& denotes fractional leaves.
Gráfico Q-Q normal de GAsto por turista y día
Gráfico Q-Q normal de GAsto por turista y día
para Sexo= femenino
para Sexo= masculino
3
3
2
2
Normal esperado
Normal esperado
Resultados del AED
1
0
-1
1
0
-1
-2
-2
-3
-3
0
500
Valor observado
1.000
-200
0
200
400
Valor observado
600
800
Gráfico Q-Q normal de LNgtd
Gráfico Q-Q normal de LNgtd
para Sexo= femenino
para Sexo= masculino
3
3
2
2
Normal esperado
Normal esperado
Resultados del AED
1
0
-1
1
0
-1
-2
-2
-3
-3
0
2
4
Valor observado
6
8
0
1
2
3
4
Valor observado
5
6
7
Resultados del AED
1400,00
Británica
GAsto por turista y día
1200,00
1000,00
800,00
Suiza
600,00
Española
400,00
Belga
Británica
Francesa
Española
Alemana
Alemana
Francesa
Española
Francesa
200,00
0,00
femenino
masculino
Sexo del turista
El diagrama de cajas nos permite comparar
cada grupo utilizando cinco valores resumen:
la mediana, los percentiles 25 y 75, y los
valores mínimo y máximo que no son
estadísticamente atípicos. Los valores
atípicos y extremos se les da una atención
especial.
La línea negra que está dentro de la caja
marca el percentil 50 o mediana dicha
distribución. Nótese que las medianas varían
muy poco entre grupos de turistas según su
sexo.
Los bordes de las cajas marcan los
percentiles 25 y 75 de cada distribución.
Los bigotes que aparecen por encima y por
debajo de cada caja, señalan los valores
mínimo y máximo no considerados
estadísticamente atípicos.
Los valores atípicos se representan con un
círculo y los extremos con un asterisco.
Descargar

ANÁLISIS EXPLORATORIO DE DATOS