Tema 5: Contrastes de Hipótesis no-paramétricos
PRELIMINARES:
Test de hipótesis
Paramétricos: hipótesis sobre los
parámetros que definen la población (por ej., pobl. Normales, y
tests sobre la media o la desv.
típica).
Primer cuatrimestre
No paramétricos: no se
refieren a parámetros de
la población; se aplican
típicamente cuando no
conocemos la distribución
de la población, o cuando su
distribución es no normal.
PRELIMINARES:
Media versus Mediana
¿Diferencias/Semejanzas?
PRELIMINARES:
Media versus Mediana
• Ambas sirven para estimar el valor o tamaño medio de una variable,
que debe entenderse como el “valor esperable” o “normal”.
• Si la distribución es normal, media y mediana coinciden.
• Si hay discrepancia entre ambas, es preferible la mediana.
• La razón es que la mediana es robusta, es decir, poco sensible a
datos atípicos. La media, en cambio, es muy sensible.
En particular, en ausencia de normalidad son relevantes
los contrastes no sobre la media, sino sobre la mediana
Ejemplo: La biblioteca de un museo recibe en un día 9 peticiones de
distintas instituciones para consultar volúmenes de la biblioteca; cada
uno de los peticionarios solicita consultar el siguiente número de
volúmenes:
6, 3, 10, 3, 3, 120, 3, 11, 2
Media: 17’89
Mediana: 3
PRELIMINARES:
Simetría
Media
Media
- Normalidad implica simetría; sin embargo, simetría no implica
necesariamente normalidad.
- Se mide con el coeficiente de asimetría (debe estar entre -2 y 2).
- Si hay simetría, media y mediana coinciden.
1. Tests sobre la mediana.
Ho: M = Mo
H1: M ≠ Mo; M>Mo; M<Mo
(A) t-test (t de Student): requiere normalidad
(B) Test de los signos: requiere var. continua.
(C) Test de los rangos signados o test de Wilcoxon: requiere simetría.
(IMPORTANTE: los tests no-param. Son intrínsecamente robustos,
i.e. funcionan relativamente bien incluso si no se cumplen sus requisitos)
Pizarra + Statgraphics
2. Tests de bondad de ajuste.
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
(A) Test chi-cuadrado:
general (todas las variables,
todas las distribuciones.
(B) Test de Kolmogorov-Smirnov : requiere var. continua.
(C) Tests de normalidad: sólo para contrastar normalidad
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
(A) Test Chi-cuadrado:
Por ejemplo, Ho: X=N(10,2.85)
1.- Tomamos muestra de tamaño n (por ej., n=32)
2.- Establecemos regiones en el intervalo donde puede tomar
valores la variable:
7’15
1
12’85
10
2
3
4
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
(A) Test Chi-cuadrado:
Por ejemplo, Ho: X=N(10,2.85)
3.- Establecemos los valores esperados: (n=32)
E1: 16% de 32 = 5 (aprox.)
E2: 34% de 32 = 11 (aprox.)
0,34
34%
0,16
7’15
1
12’85
10
2
3
4
16%
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
(A) Test Chi-cuadrado:
Por ejemplo, Ho: X=N(10,2.85)
4.- Contabilizamos los valores observados, en la muestra,
en cada intervalo:
E1: 5; E2: 11; E3: 11; E4: 5
O1: 4; O2: 9; O3: 13; O4: 6
7’15
1
12’85
10
2
3
4
(A) Test Chi-cuadrado:
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
Por ejemplo, Ho: X=N(10,2.85)
5.- La idea es RECHAZAR la hipótesis, si los valores observados
difieren demasiado de los observados. Concretamente, se utiliza
el estadístico:
k
D 

i 1
O i
 Ei 
2
Ei
Requisitos: n suficientemente grande; Ei mayores o iguales de 5
(B) Test de Kolmogorov-Smirnov:
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
El test anterior, en realidad, compara las frecuencias “obtenidas”,
con las esperadas; es decir, compara el polígono de frecuencias
(muestra), con la curva correspondiente a la distribución que
conjeturamos:
%
muestra
población
(B) Test de Kolmogorov-Smirnov:
Ho: X sigue cierta distribución
H1: X no sigue cierta distribución
El test de Kolmogorov-Smirnov, que requiere variable continua,
compara el polígono de frecuencias acumuladas, con la función de
distribución.
%
muestra
población
(C) Test de normalidad:
Ho: X es normal
H1: X no es normal
Sólo sirven para contrastar la normalidad, y no otro tipo de
distribuciones.
3. Tests de comparación de poblaciones.
(A) Comparación de medianas:
(I) Datos no pareados:
Si las poblaciones que queremos comparar son normales,
podemos comparamos las medias (mediante el t-test, o test
de la t de Student)
Ho: µ1 = µ2
H1: µ1 ≠ µ2; µ1 > µ2; µ1< µ2
Si alguna de las poblaciones es no normal, entonces
comparamos medianas:
Ho: M1 = M2
H1: M1 ≠ M2; M1 >M2; M1<M2
Para comparar medianas, se utiliza el test de Mann-Whitney
Test de Mann-Whitney : La idea es similar a la del test de los rangos
signados:
1. tomamos muestras en ambas poblaciones (x1…xn, y1… ym)
2. mezclamos los datos, y los ordenamos: x6<y4<x1<x5<y1< …
3. Asignamos rangos (1 a x6, 2 a y4, etc.)
4. Si la mediana es similar, la media de los rangos de las x’s y
de las y’s será parecida; rechazamos si esas medias son muy
diferentes.
(II) Datos pareados: trabajamos con la diferencia (D) de las variables.
Si D es normal comprobamos si la media de D es 0, o no.
Ho: µD = 0
H1: µD ≠ 0; µD > 0; µD< 0
Si D no es normal, entonces comprobamos si la mediana de D es 0,
o no, utilizando el test de los signos y, si D es simétrica, el de los
rangos signados.
Ho: MD = 0
H1: MD ≠ 0; MD >0; MD<0
IMPORTANTE: como la media (resp. la mediana) de D es igual a la
diferencia de las medias (resp. de las medianas), aceptar la hipótesis
nula equivale a aceptar que ambas medias (resp. medianas ) son iguales.
¿Mis datos son pareados?
SI
NO
¿La diferencia D
es normal?
¿Las variables son
normales?
SI
SI
NO
H0: µD=0
(t-test)
H0: µ1=µ2
H0: M1=M2
(t-test)
(test de Mann-Whitney)
(Ojo, primero
hay que comprobar
si las desviaciones típicas
son iguales, o no…)
NO
H0: MD=0
(test signos,
etc.)
(B) Comparación de distribuciones:
Ho: X e Y tienen la misma distribución
H1: X e Y no tienen la misma distribución
Test de Kolmogorov-Smirnov (comparación de
distribuciones): idea similar a la del test de bondad
de ajuste (comparamos funciones de distribución de
X e Y). Requiere variable continua.
Statgraphics
4. Tests de aleatoriedad.
Una secuencia de datos es aleatoria si no exhibe ninguna tendencia
concreta, es decir, si se entiende que las fluctuaciones en los datos
se deben al AZAR.
ALEATORIEDAD/NO ALEATORIEDAD
Gráfico de Series Temporales para Empresa B
12,5
8,3
11,5
7,9
E m presa B
E m p re sa A
Gráfico de Series Temporales para Empresa A
10,5
9,5
8,5
7,1
6,7
6,3
7,5
5,9
0
2
4
6
8
10
12
0
Gráfico de Series Temporales para Empresa C
2
4
6
8
10
12
Gráfico de Series Temporales para Empresa D
11,1
11,1
10,1
E m p re sa D
E m p re sa C
7,5
9,1
8,1
7,1
6,1
10,1
9,1
8,1
7,1
0
2
4
6
8
10
12
0
2
4
6
8
10
12
Tests de aleatoriedad: tests de RACHAS
Ho: Los datos son aleatorios
H1: Los datos no son aleatorios
-Test 1: ejecuciones por encima y debajo de la mediana.
- Test 2: ejecuciones “arriba” y “abajo”.
- Test 3: test de Box-Pierce (autocorrelaciones). Busca “ciclos”.
5. Test de independencia chi-cuadrado.
Se trata de contrastar si dos variables CUALITATIVAS son independientes (es decir, si existe relación entre ellas), o no. Por ejemplo:
- ¿Ser hombre o mujer predispone, de algún modo, a fumar o no fumar?
- ¿Los hábitos de lectura de los padres influyen en los hábitos de lectura
de los hijos?
- ¿Los gustos literarios son los mismos en las distintas comunidades
españolas?
- ¿La proporción de textos de ficción/no ficción es la misma en todas las
bibliotecas de Alcalá?
Ho: X e Y son independientes
H1: X e Y no son independientes
X e Y están relacionadas, una de ellas influye
en la otra, hay diferencias significativas,
determinadas proporciones cambian…
EJEMPLO: Hemos preguntado a un grupo de 20 hombres y 20 mujeres
si fumaban o no. ¿Crees que hay diferencias significativas entre ambos
sexos?
Hombres
Mujeres
TOTAL:
Fuma
5
7
12
No fuma
15
13
28
TOTAL:
20
20
40
X: sexo; Y: Fumador (S/N)
Ho: X e Y son independientes
H1: X e Y no son independientes
¿Qué debería salir, si fueran “perfectamente” independientes?
Hombres
Mujeres
TOTAL:
Fuma
12
No fuma
28
TOTAL:
20
20
40
¿Qué debería salir, si fueran “perfectamente” independientes?
Hombres
Mujeres
TOTAL:
Fuma
6
6
12
No fuma
14
14
28
TOTAL:
20
20
40
50%
50%
Comparamos frecuencias observadas (Oi) y esperadas (Ei)
La idea es RECHAZAR la hipótesis, si los valores observados
difieren demasiado de los observados. Concretamente, se utiliza
el estadístico:
k
D 

i 1
O i
 Ei 
2
Ei
(Igual que en tests de bondad de ajuste)
Statgraphics
Descargar

Tests no paramétricos