PRUEBA DE SIGNIFICANCIA
CHI CUADRADO
¿Qué es la Chi Cuadrada?
• Es una prueba estadística para evaluar hipótesis acerca de
la relación entre dos variables categóricas
• Se simboliza por χ2
• Hipótesis a probar : Correlaciónales
( H0 : no hay asociación y H1 hay asociación)
• Variables involucradas: Dos, esta prueba no considera
relaciones causales
• Nivel de medición de las variables: Nominal u ordinal
Otras características
• Es una distribución asimétrica
• Sólo toma valores positivos y es asintótica con respecto al
eje de las x positivas ( 0 < χ2 < +∞)
• Está caracterizada por un único parámetro “ n” llamado
“grados de libertad” adoptando formas distintas según el
valor de “n”
• El área comprendida entre la curva y el eje de las x es 1 ó
100%
Aplicaciones
Entre las aplicaciones más frecuentes de
distribución en el área de salud, podemos señalar:
esta
1.
La prueba de asociación, la cual permite al investigador
determinar si existe asociación entre dos variables en
escala de medición nominal u ordinal. También aparece
en la literatura con el nombre de “tablas de
contingencia”
2.
La prueba de “bondad de ajuste”
PROCEDIMIENTO
• Se calcula a través de una tabla de contingencia o
tabulación cruzada.
• Es una tabla de dos dimensiones y cada dimensión
contienen una variable
• Cada variable se subdivide en dos o más categorías.
• Ejemplo: tabla 2x2 => cada dígito indica una variable y el
valor de este indica el número de categorías de la variable
Ejemplo de una Tabla de Contingencia
Dos variables : voto y sexo
Cada variable con dos categorías
VOTO
CANDIDATO “A”
MASCULINO
SEXO
FEMENINO
CANDIDATO “ B”
Ejemplo Tabla 2x3
•
Identificación
politica
Norte
Sur
Partido 1
180
100
Partido 2
190
280
Partido 3
170
120
Zona Distrito electoral
En esencia la prueba de Chi Cuadrado es .......

“ es una prueba que parte del supuesto de “no relación
entre las variables”

“ una comparación entre la “tabla de frecuencias
observadas” y la denominada “tabla de frecuencias
esperadas”

La lógica es “Si no hay relación entre las variables debe
tenerse una tabla como la de frecuencias esperadas, si la
hay la tabla que obtengamos como resultado de nuestra
investigación debe ser muy diferente respecto de la tabla
de frecuencias esperadas”
Paso a paso....................
1.
En la tabla de contingencia se anotan las frecuencias
observadas en la muestra de la investigación.
2.
Se calculan las frecuencias esperadas para cada celda
fe = (total marginal de renglón)*(total marginal de columna)
N
donde N= ´número total de frecuencias observadas
Paso a paso....................
3.
Se aplica la siguiente fórmula de Chi Cuadrada:
χ2 = Σ(O – E)² / E
donde O = frecuencia observada en cada celda
E = frecuencia esperada en cada celda
Es decir:
“ Se calcula la diferencia entre la frecuencia observada y la
esperada, esta diferencia se eleva al cuadrado y se divide entre
la frecuencia esperada. Finalmente, se suman estos resultados y
la sumatoria es el valor de la χ2 obtenida “
Otra forma de calcular Chi Cuadrado es.............
•
Procedimiento para calcular la Chi Cuadrada
O
E
O–E
( O – E )²
( O – E )² / E
Zona Norte / P 1
180
145,4
34,6
1.197,16
8,23
Zona Norte / P 2
190
244,4
-54,4
2.959,36
12,11
Zona Norte / P3
170
150,6
19,4
376,36
2,50
Zona Sur / P 1
100
134,6
-34,6
1.197,16
8,89
Zona Sur / P 2
280
226,0
54,0
2.916,00
12,90
Zona Sur/ P 3
120
139,4
-19,4
376,33
2,7
Celda
χ2 = 47,33
Paso a paso.................
4.
Cálculo del Ji cuadrada crítico: el cual se obtiene de una
tabla específica, en donde se busca la intersección entre
los grados de libertad y el nivel de significación α
gl = ( r-1)*(c-1)
donde r = nº de renglones de la tabla de contingencia
c = nº de columnas
Ejemplo => gl = ( 3 – 1 ) * ( 2 – 1 ) = 2
Con un nivel de confianza de 0,05 ó 0,01 y con los
grados de libertad vamos a la tabla y obtenemos el valor
χ2
Paso a paso....................
5.
Región de rechazo R: está constituida por todos los valores del
Ji cuadrado iguales o mayores que el Ji Cuadrado crítico
Si nuestro valor calculado de χ2 es igual o superior al de la
tabla, decimos que las variables están relacionadas ( χ2 fue
significativa
En nuestro ejemplo => χ2 tabla es 5,991
χ2 calculado es 47,33
El valor calculado por nosotros es muy superior al de la tabla :
χ2 es significativa, es decir están relacionadas .
Observaciones
• Mientras mayor sea la diferencia entre los valores
observados y los esperados, mayor será el valor de χ2 y
aumentará por tanto la probabilidad de rechazar la
hipótesis de nulidad
• No se puede usar la prueba de χ2 cuando el valor esperado
en alguna celda es menor que 5, en ese caso debe usarse la
probabilidad exacta de Fisher
• La suma de las frecuencias observadas debe coincidir con
la suma de las frecuencias esperadas.
TABLAS DE CONTINGENCIAS
OTRO
USO
¿Qué otra utilización tienen las tablas
de contingencia?
• Son útiles para describir conjuntamente a dos o más
variables.
• Esto se hace convirtiendo las frecuencias observadas en
frecuencias relativas o porcentajes
¿Qué otra utilización tienen las tablas
de contingencia?
En una tabulación cruzada puede haber tres tipos de porcentajes
respecto a cada celda:
 Porcentaje en relación al total de frecuencias observadas (N)
 Porcentaje en relación al total marginal de la columna
 Porcentaje en relación al total marginal del renglón
Veamos un ejemplo:
sexo
Preferencia
por el
conductor
Masc
Fem
A
25
25
B
40
60
Frecuencias observadas
25
En relación a N
25,00%
En relación a “a + b”
38,46%
En relación a “a + c”
a
c
a + c = 50
50,00%
b
b+d
d
a + b = 65
c+d
N=100
Tabla Nº 1.- Tabla de contingencia para describir
conjuntamente dos variables
Sexo
Masculino
A
Preferencia
por el
conductor
B
Femenino
25
25,0%
38,5%
50,0%
25
25,0%
71,4%
,50,0%
40
40,0%
61,5%
80,0%
10
10,0%
28,6%
20,0%
65
35
50
50
Comentario final
Una cuarta parte de la
muestra está constituida por
hombres que prefieren al
conductor “A”, el 10 % son
mujeres que prefieren al
conductor “B”. Más del 60%
de los hombres pprefieren a
“B”, etc..
EL TEST EXACTO DE FISHER
• El test exacto de Fisher permite analizar si dos variables
dicotómicas están asociadas cuando la muestra a estudiar es
demasiado pequeña.
• El test exacto de Fisher se basa en evaluar la probabilidad
asociada a cada una de las tablas 2 x 2 que se pueden formar
manteniendo los mismos totales de filas y columnas que los
de la tabla observada.
•
Cada una de estas probabilidades se obtiene bajo la
hipótesis nula de independencia de las dos variables que se
están considerando.
• La probabilidad exacta de observar un conjunto concreto
de frecuencias a, b, c y d en una tabla 2 x 2 cuando se
asume independencia y los totales de filas y columnas se
consideran fijos viene dada por la distribución
hipergeométrica:
p 
 a  b ! c  d !  a  c ! b  d !
n! a ! b! c! d !
• Esta fórmula se obtiene calculando todas las posibles
formas en las que podemos disponer n sujetos en una
tabla 2 x 2 de modo que los totales de filas y columnas
sean siempre los mismos, (a+b), (c+d), (a+c) y (b+d).
• La probabilidad anterior deberá calcularse para todas las
tablas de contingencia que puedan formarse con los
mismos totales marginales que la tabla observada.
Posteriormente, estas probabilidades se usan para calcular
valor de la p asociado al test exacto de Fisher.
•
Este valor de p indicará la probabilidad de obtener una
diferencia entre los grupos mayor o igual a la observada,
bajo la hipótesis nula de independencia.
• Si esta probabilidad es pequeña (p<0.05) se deberá
rechazar la hipótesis de partida y deberemos asumir que las
dos variables no son independientes, sino que están
asociadas. En caso contrario, se dirá que no existe
evidencia estadística de asociación entre ambas variables.
Supongamos que el suceso investigado es, si una enfermedad es más
frecuente en el grupo de expuestos que en el de los no expuestos a un
posible factor causal .tendremos la siguiente tabla
Grupo
Si
No
Expuesto
A
B
A+B
No expuesto C
D
C+D
Total
A+C
B+D
Total
N
El test exacto de Fisher
Ejemplo:
Supóngase que un grupo de 16
personas se reunió a comer en un
restaurante. Diez comieron pastel
de mariscos y 6 comieron carne. Al
día siguiente, 11 de los comensales
amanecieron
enfermos
de
gastroenteritis
La tabla adjunta muestra las
frecuencia de enfermos en los que
comieron mariscos y en los que
comieron carne.
Lo que se quiere averiguar, es si la
asociación entre el tipo de comida
y enfermar, es estadísticamente
significativa
Enfermos
Comida
Si
No
Total
Mariscos
Carne
9
2
1
4
10
6
Total
11
5
16
Procedimiento
• La Ho = frecuencia de enfermos entre los que comieron mariscos es la
misma que la de los que enfermaron después de comer carne
11/16 =0,6875, la frecuencia de enfermos en el grupo total.
• Las probabilidades se pueden obtener en forma aproximada de la Tabla
de Valores Críticos de D o C en la prueba de Fisher *,†
• Se busca la sección de la tabla en que los totales del margen derecho
son A + B ( 10) y C + D = 6.
• Buscamos en la columna B o (A) si aparece 1, que es el valor de B en
nuestro ejemplo. Dado que no se encuentra, se debe utilizar el valor de
A=9
Procedimiento
• Dado que tuvimos que buscar la fila del valor A = 9, lo que
corresponde es buscar el valor de C en la tabla , que corresponde
al valor 2.
• Valor observado es mayor o igual que el valor crítico indica
asociación => 2 ≥ 2 para 5% de significancia. => se declara
significativa la asociación
• Si es valor observado es menor que el crítico , entonces no existe
asociación y se acepta la Ho
• Un valor 2 es suficiente para declarar significativa la asociación
entre el consumo de alimentos y la enfermedad a nivel de 5% pero
no a nivel 2,5% o 1%
COEFICIENTES
DE
C O R R E LA C I O N
¿Qué son los coeficientes de correlación e
independencia para tabulaciones cruzadas?
• Son coeficientes que también sirven para evaluar si las
variables incluidas en la tabla de contingencia o
tabulación cruzada están correlacionadas
• Algunos de estos coeficientes se pueden observar en la
siguiente tabla resumen:
Coeficiente
Para tablas
de
contingencia
Nivel de
medición
de las
variables
Interpretación
Phi (Φ)
2x2
Nominal
Varía de 0 a +1, donde “0” implica
ausencia de correlación entre las
variables
y
“+1”
significa
correlación de manera perfecta
Coef. de
Pearson
Cualquier
tamaño
Nominal
Su valor mínimo es 0 ( ausencia de
correlación). Su valor máximo
depende del tamaño de la tabla de
contingencia = > 2x2 ( 0 y 0,707)
3x3 ( 0 y 0,816)
V de Cramer
Mayores de
2x2
Nominal
Varía de 0 a +1 ; donde “0” es nula
correlación y +1 es perfecta
correlación.
Lambda (λb)
Cualquier
tamaño
Nominal
Varía de 0 a +1 ; +1 significa que
puede predecirse sin error a la
variable dependiente definida en la
tabla, sobre la base de la
independiente
Coeficiente
Gamma ( r)
Tau-b de
Kendall
(Tau-b)
D. De Somers
Para tablas
de
contingencia
Nivel de
medición
de las
variables
Interpretación
Cualquier
tamaño
Ordinal
Varía de –1 a +1 , donde –1 es una
relación negativa perfecta y +1 una
relación positiva perfecta)
Ordinal
Varía de –1 a +1
Cualquier
tamaño,
pero
más
apropiado
para tablas
con
igual
número de
renglones y
columnas
Cualquier
tamaño
Ordinal
Varía de –1 a +1
Descargar

ANALISIS PARAMETRICO