Tema 3. El estadístico
Chi-cuadrado y
contrastes asociados
RONALD AYLMER FISHER
¿Qué vamos hacer ahora?
Hay variables
{
- Muy relacionadas
- Muy poco relacionadas
Veamos un estadístico para ver si dos variables están
o no asociadas

El estadístico Chi-cuadrado
El estadístico Chi-cuadrado
Las hipótesis son:
H0: Las variables en filas y columnas no están asociadas
H1: Las variables en filas y columnas están asociadas
Necesitamos “frecuencias esperadas”
ei , j 
f i.  f. j
n
EJEMPLO (supervivencia en el Titanic)
Sobrevive No sobrevive
Total
Primera clase
194
128
322
Segunda clase
119
161
280
Tercera clase
138
573
711
Total
451
862
1313
Frecuencias esperadas
f1.  f.1 322 x 451
e11 

 110 ,6
n
1313
f 2.  f.1 280 x 451
e21 

 96,2
n
1313
Frecuencias esperadas
Sobrevive
No sobrevive
Total
Primera clase
110,6
211,4
322
Segunda clase
96,2
183,8
280
Tercera clase
244,2
466,8
711
451
862
1313
Total
Calculemos Chi-cuadrado

2
exp
 
i
j
( f ij  eij )
2
eij

Ya vuelven los matemáticos a complicar las cosas
Traducción
Tenemos dos tablas (sin totales):
Frecuencias absolutas
Frecuencias esperadas
Sobrevive No sobrevive
Sobrevive
No sobrevive
Primera clase
194
128
Primera clase
110,6
211,4
Segunda clase
119
161
Segunda clase
96,2
183,8
Tercera clase
138
573
Tercera clase
244,2
466,8
1) Hagamos otra tabla, donde restamos a la primera la
segunda
Sobrevive
No sobrevive
Primera clase
(194-110,6)
(128-211,4)
Segunda clase
(119-96,2)
(161-183,8)
Tercera clase
(138-244,2)
(573-466,8)
2) Este valor elevado al cuadrado
Sobrevive
No sobrevive
Primera clase
(194-110,6)^2
(128-211,4)^2
Segunda clase
(119-96,2)^2
(161-183,8)^2
Tercera clase
(138-244,2)^2
(573-466,8)^2
3) Dividido por el valor que tengamos en la segunda tabla
Sobrevive
No sobrevive
Primera clase
(194-110,6)^2/110,6
(128-211,4)^2/211,4
Segunda clase
(119-96,2)^2/96,2
(161-183,8)^2/183,8
Tercera clase
(138-244,2)^2/244,2
(573-466,8)^2/466,8
Obtenemos la siguiente tabla en nuestro ejemplo
Sobrevive
Primera clase
(194  110,6) 2
 62,9
110,6
(128  211,4) 2
 32,9
211,4
Segunda clase
(119  96,2) 2
 5,4
96,2
(181 183,8) 2
 2,8
183,8
Tercera clase
2
 exp
 
i
No sobrevive
j
( f ij  eij ) 2
eij
(573 466,8) 2
(138  244,2) 2
 24,2
 46,2
466,8
244,2
 62,9  32,9  5,4  2,8  46,2  24,2  174,4
Probabilidad de un valor superior
- Alfa (α)
Grados libertad
1
2
3
4
5
6
0,1
2,71
4,61
6,25
0,05
3,84
5,99
7,81
0,025 0,01 0,005
5,02 6,63 7,88
7,38 9,21 10,60
9,35 11,34 12,84
7,78 9,49 11,14 13,28 14,86
9,24 11,07 12,83 15,09 16,75
10,64 12,59 14,45 16,81 18,55
Tenemos:
2
exp
 174,4
Ahora calculemos el valor de la tabla Chi-cuadrado
1) grados de libertad, son:
K = (número de fila-1)x(número de columnas-1)
= (3-1)x(2-1) = 2
2) El valor alfa (0,05 si no se dice).
3) El valor que buscamos

2
g .l .;

2
2;0, 05
 5,99
SIGNIFICADO: La probabilidad de obtener
un valor mayor que 5,99 es 0,05
Tenemos:
2
exp
 174,4
 g2.l.;  22;0,05  5,99
Por tanto:
2
exp
 22;0,05

SIGNIFICADO: Las variables no son
independientes

SIGNIFICADO en el ejemplo: El salvamento de los viajeros
en el Titanic no fue independiente de su clase social.
Hemos hecho un contraste de hipótesis
Los pasos en un contraste son:
1) Fijar las hipótesis que se quieren contrastar:
2) Fijar el nivel de significación:

H0
H1
3) Elegir un estadístico de contraste:
2
 exp
 
i
j
( f ij  eij ) 2
eij
  k2( filas1) x ( columnas 1);
4) Se toma la decisión de rechazar o no la hipótesis:
2
2
exp  k ;  Aceptar H 0  Independientes
2
exp
 k2;  Rechazar H 0 
Dependientes
Contraste de homogeneidad
1) Fijar las hipótesis que se quieren contrastar:
H0

H1

Las subpoblaciones tienen idéntica
distribución para la variable Y.
la distribución de la variable Y en alguna
de estas subpoblaciones es diferente
2) Fijar el nivel de significación:

3) Elegir un estadístico de contraste:
2
 exp
 
i
( f ij  eij ) 2
j
eij
  k2( filas1) x ( columnas 1);
4) Se toma la decisión de rechazar o no la hipótesis:

2
exp

2
k ;

2
exp
 k2; 
Aceptar
H0
Rechazar
H0
EJEMPLO
Se desea saber si la distribución de los grupos
sanguíneos es similar en los individuos de dos
poblaciones. Para ello se elige una muestra aleatoria
de cada una de ellas, obteniéndose los siguientes
datos ¿Qué decisión se debe tomar?
Muestra 1
A
90
B
80
AB
110
0
20
Total
300
Muestra 2
Total
200
290
180
260
240
350
30
50
650
950
Calculamos las frecuencias esperadas: ei , j

f i.  f. j
n
A
B
AB
0
Muestra 1 91.5789 82.105 110.53 15.789
Muestra 2 198.421 177.89 239.47 34.211
Componentes de la Chi-cuadrado
(90 91,5789) 2
 0,0272
91,5789
Estadístico de contraste:
2
 exp
 
i
j
( f ij  eij ) 2
eij
 0,0272 ...  1,76
Calculemos el valor
k2( filas1) x(columnas 1);
Los grados de libertad:
k  ( filas  1) x(columnas  1)  (2  1) x(4  1)  3
Entonces:

2
k ( filas1) x ( columnas 1);

2
3;0, 05
 7,81
La decisión de rechazar o no la hipótesis:
2
exp
 k2;  Aceptar
H0
¿Cuando podemos aplicar el
estadístico Chi-cuadrado?
1) Siempre hacemos un contraste unilateral.
2) No debe usarse si hay frecuencias esperadas
inferiores a 1.
3) Como máximo el 20% de las frecuencias esperadas
pueden ser menores que el valor 5.
RESUMEN
- El estadístico Chi-cuadrado
- Fijar hipótesis
- Fijar nivel de significación
- Grados de libertad
- Valores del estadístico
- Contraste de independencia
- Contraste de homogeneidad
- Condiciones de aplicar el Chi-cuadrado
GRACIAS POR
LA ATENCIÓN
Descargar

Tema 1. Tablas de contingencia: Lectura e