Análisis de Varianza
ANOVA
(Analysis of Variation)
ANOVA – Asunto básico
• Dos Variables:
– Categórica (los grupos)
– Cuantitativa (lo medido)
• ¿Los promedios de la variable cuantitativa
varían entre los grupos (categorías)?
•
Nota: si se trata solamente de dos grupos se hace test – t no pareado. Anova,
para más de dos grupos.
ANOVA
1. Muestras provienen de población con
distribución normal y con similares DS
(para hablar de similitud de DS siga la regla 2:1).
2. La varianza de cada grupo es un
estimativo de la varianza de la población.
3. La varianza mezclada (pooled) de los
grupos puede utilizarse para calcular IC
de la diferencia de pares de promedios.
Anova
• Cuando tenemos más de dos
grupos.
• Hipótesis nula:
x a  x b  x c ...
• Calcular valor de F (de Fisher).
• Distribución de F tiene sesgo
cuando se acepta hipótesis nula.
Que hace el ANOVA?
En su forma más simple ANOVA:
H0: Los promedios de todos los grupos son
iguales.
Ha: No todos los promedios son iguales
• No dice cómo o cuáles son diferentes.
• Puede continuar con “múltiples comparaciones”
.
Ejemplos de utilización de ANOVA en odontología
1. Cinco tratamientos diferentes para
pacientes con herpes recurrente
2. Variación de ángulo goníaco en pctes
con ADM clase I, II, III
3. Resistencia al desgaste de tres
resinas diferentes
4. Grosor de la capa híbrida utilizando
tres adhesivos diferentes
Least Squares Means
Factor
Level
LS Mean
Standard Error
N
POSTGRADO
Endo
6.100
0.127
10.000
POSTGRADO
Orto
6.143
0.121
11.000
POSTGRADO
Perio
6.286
0.107
14.000
Analysis of Variance
Source
Type III SS
df
Mean
Squares
F-ratio
p-value
POSTGRADO
0.234
2
0.117
0.726
0.492
Error
5.145
32
0.161
Case
11 is an Outlier
(Studentized
Residual
:-3.466)
Test de ANOVA, se asume que:
• Cada muestra debe ser independiente
de las otras.
• Cada muestra debe haber sido
seleccionada al azar de la pob de
donde proviene.
• Las pob de donde provienen las muestras
debe tener dist normal.
• Las varianzas de cada pob deben ser iguales,
aunque los promedios sean diferentes, es
decir cuando los tratamientos tengan efecto.
Nota: si esto no se cumple, deberá ocupar otro
test, generalmente test de Kruskal-Wallis.
Cómo seleccionar muestra al azar?
• Asignando con la moneda (cara / sello)
(fácil solamente para dos grupos).
• Tablas de números aleatorios (ver libros
de bioestadística)
• Generar números aleatorios (función
random o aleatorio.entre en excel), u
otro software.
Anotación en ANOVA
• N: número de individuos en total
ANOVA – ANALISIS DE VARIANZA DE UNA VIA
Datos: 5 tratamientos con antivirales en 6 pctes (replicas)
(P)
(2)
(3)
(4)
(5)
5
4
6
7
9
8
6
4
4
3
7
6
4
6
5
7
3
5
6
7
10
5
4
3
7
8
6
3
5
6
f = 6, k = 5, N = 30
5 trat para infección herpética (valores indican días de
duración de las lesiones)
(P)
(2)
(3)
(4)
(5)
5
4
6
7
9
8
6
4
4
3
7
6
4
6
5
7
3
5
6
7
10
5
4
3
7
8
6
3
5
6
5 trat para infección herpética (valores indican días de
duración de las lesiones)

X
(P)
(2)
(3)
(4)
(5)
5
4
6
7
9
8
6
4
4
3
7
6
4
6
5
7
3
5
6
7
10
5
4
3
7
8
6
3
5
6
45
30
26
31
37
5 trat para infección herpética (valores indican días de
duración de las lesiones)
X
X
X
2
2
(P)
(2)
(3)
(4)
(5)
25
16
36
49
81
64
36
16
16
9
49
36
16
36
25
49
9
25
36
49
100
25
16
9
49
64
36
9
25
36
351
158
118
171
249
Suma total de cuadrados
Suma total de los cuadrados (SSC):

X


2
TSS 
TSS
TSS
X
2
n
Factor
de corrección (CF):
(x)2/n
= (351+158+118+171+249) – (45+3026+31+37)2 /30
= 1047 – 28561/30
= 1047 – 952,03
Factor de corrección
= 94,97
Suma total de los cuadrados
• Está basada en la suma de los cuadrados de
las diferencias de cada una de las
observaciones del promedio general. Se
divide en:
– Suma de Cuadrados Entre los grupos basado en
la suma de los cuadrados de la diferencia entre el
promedio de cada grupo y el promedio general
(SSB)
– Suma de Cuadrados Dentro de los grupos:
calculado como la suma de los cuadrados para la
diferencia entre cada observación y el promedio
de su grupo (SSw)
SSB
• Variabilidad entre los grupos:
Variabilidad de los promedios de los
diferentes grupos alrededor del gran
promedio (calculado sin tomar en
cuenta la estructura del grupo)
SSw
• Variabilidad dentro del grupo: También
llamada variación NO explicada o
residual y se refiere a la variación al
azar entre los individuos dentro de cada
grupo.
Cuadrados dentro de los grupos
(Error)
Suma de cuadrados dentro de los grupos (Within Sum of Squareds)
(Donde k: número de grupos; f: número de individuos en cada grupo)
SS W 

X
2

X
 k
 n
 f
2
SSW = 1047 – ( 452/6 +302/6 +262/6 +312/6 + 372/6 )
= 1047 – 988,51
SSW = 58,49




SUMA DE CUADRADOS ENTRE LOS GRUPOS
Between sum of squares
Suma de cuadrados entre los grupos (between)
SS B 

X
 k
 n
 f
2

  CF


SSB = ( 452/6 +302/6 +262/6 +312/6 + 372/6 ) – 952,03
SSB = 988,51 – 952,03
SSB = 36,48
Cuadrados medios
• Cada suma de cuadrados se convierte en una
varianza estimada (Cuadrados Medios)
dividiendo por sus grados de libertad.
• GL entre los grupos: k – 1
• Dentro de los grupos: (n1 – 1 + n2 – 1 + n3 – 1)
De la hipótesis nula:
• Todos los grupos tienen el mismo
promedio y la misma varianza, por lo
tanto la relación de las varianzas sería 1.
• Mediante el valor de F comparamos las
varianzas y obtenemos la relación de
ellas
GAUSS
Tabla de ANOVA
Construcción de la tabla de Análisis de Varianza:
F
Fuente de
Variación
SC
gl
MS
Between
Within
36,48
58,49
4
25
9,12 3,897
2,339
Total
94,97
29
4 ; 25
0 , 05
= 2,75
F
Por lo tanto existen dif. signif. (P<0,05)
Fcrítico
depende de
los gl de
CMentre y
CM dentro, y
elegir el
valor de 
Por lo tanto
P<0,05
P>0,01
0,05>P>0,01
Valores de F críticos según tabla
Valor de F obtenido = 3,897
F
4 ; 25
0 , 05
= 2,75
4 ; 25
0 , 025
= 3,35
4 ; 25
0 , 01
= 4,18
F
F
Por lo tanto:
0,05> P > 0,01
Valor de F
varianza
F 
de la población
estimada
de la medias de las muestras
varianza
promedio
de la población
de varianzas
estimada
como
de las muestras
GRADOS DE LIBERTAD EN TABLA DE ANOVA
Entre los grupos (between) (k-1):
n(úmero de grupos) – 1: (5 - 1) = 4
Dentro de los grupos (within)
k(n-1): 5(6-1) = 25
Total = n – 1; 30 - 1 = 29
VALOR DE F
2
F 
S between
2
S within
Si F es un número grande,
la variabilidad entre las
medias de las muestras
es mayor que la
esperada a la
variabilidad dentro de
las muestras, y rechaza
la hipótesis nula de que
todas las muestras son
de la misma población.
Least Squares Means
Factor
Level
LS Mean
Standard
Error
N
Medicamento Placebo
7.500
0.624
6.000
Medicamento a
5.000
0.624
6.000
Medicamento b
4.333
0.624
6.000
Medicamento c
5.167
0.624
6.000
Medicamento d
6.167
0.624
6.000
Analysis of Variance
Source
Type III
SS
df
Mean
Squares
F-ratio
p-value
Medicame 36.467
nto
4
9.117
3.896
0.014
Error
25
2.340
58.500
Gráficos para ANOVA
• Promedios y DS de cada grupo.
• Cajas.
• Puntos.
Tests para comparar medias
• Scheffé
– Si tamaño de los grupos es diferente
– Interesa además contrastes (Ej: grupo 1 y 2 vs 3)
• Tukey
– Si tamaño de los grupos es igual
– Interés prinicipal es comparar solo promedios de
grupos
• Bonferroni
– No se había previsto comparar grupos
Utilizar solamente si resultado en ANOVA es p<0,05
Test de Scheffé
• Dos promedios presentan diferencias
significativas si su diferencia excede el
valor calculado por:
( k  1) F0 .05 *
 1
1 


 n  n  * MSE
2 
 1
k = número de promedios.
F3,8;0.05 = 4,0662
MSE = 0,917 (de cuadrado medio, within)
Test de Scheffé
• Dos promedios presentan diferencias
significativas si su diferencia excede el
valor calculado por:
[(k-1)F0,05]1/2 [(1/n1 + 1/n2)*MSE]1/2
k = número de promedios.
F3,8;0,05 = 4,0662
MSE = 0,917 (de cuadrado medio, within)
Cálculo de Scheffé
 k  1 ( F

4 , 25 1 / 2
0 , 05
 4 * 2 , 75 
1/ 2
 1

1 
 * MSE 

 

n
n
2 
 1

 1

1
    * 2 , 339 
6
 6

1/ 2
1/ 2
( 3 , 316 )( 0 ,8829 )  2 , 928
Existe diferencia entre dos grupos, si la diferencia de
sus promedios supera a 2,928
5 trat para infección herpética (valores indican días de
duración de las lesiones), última fila sus promedios
x
(P)
(2)
(3)
(4)
(5)
5
4
6
7
9
8
6
4
4
3
7
6
4
6
5
7
3
5
6
7
10
5
4
3
7
8
6
3
5
6
7,50
5,00
4,33
5,17
6,17
Promedios de cada grupo y sus diferencias
1. Entre Placebo y grupo (3) = 7,50 – 4,33 = 3,17
Valor supera al valor del test de Scheffé (2,928), por lo tanto
existen diferencias significativas entre esos dos grupos
2. Entre placebo y grupo (2) = 7,50 – 5,0 = 2,50
Valor del test de Scheffé es superior, por lo tanto NO existen
diferencias significatvas entre Placebo y grupo 2.
NO DEBE HACER MÁS COMPARACIONES…YA QUE TODAS
LAS OTRAS DIFERENCIAS SON MENORES A VALOR DE
SCHEFFÉ.
Promedios ordenados de mayor a menor (línea marca entre
qué grupos NO existe diferencias significativas):
(P)
(5)
(4)
(2)
(3)
7,50
6,17
5,17
5,00
4,33
Realización de Anova con software estadístico
• Dependiente: variable que desea examinar,
debe ser continua (por ejemplo: edad,
recuento de linfocitos, hematócrito, etc. D N !)
• Factor: una o más variables categóricas que
tienen agrupados datos en más de dos
grupos (variables de agrupar, ej.: NSE, Clase
esq (I, II y III), etc.)
• Identificar si desea comparación entre
grupos(Tukey, Scheffé, etc.)
Least Squares Means
Factor
Level
LS Mean
Standard
Error
N
Medicamento Placebo
7.500
0.624
6.000
Medicamento a
5.000
0.624
6.000
Medicamento b
4.333
0.624
6.000
Medicamento c
5.167
0.624
6.000
Medicamento d
6.167
0.624
6.000
Analysis of Variance
Source
Type III SS
df
Mean
Squares
F-ratio
p-value
Medicamento
36.467
4
9.117
3.896
0.014
Error
58.500
25
2.340
Scheffe Test
Medicamento(i)
Medicamento(j)
Difference
p-value
95.0% Confidence Interval
Lower
Upper
Placebo
a
2.500
0.125
-0.434
5.434
Placebo
b
3.167
0.029
0.233
6.100
Placebo
c
2.333
0.172
-0.600
5.267
Placebo
d
1.333
0.687
-1.600
4.267
a
b
0.667
0.965
-2.267
3.600
a
c
-0.167
1.000
-3.100
2.767
a
d
-1.167
0.781
-4.100
1.767
b
c
-0.833
0.923
-3.767
2.100
b
d
-1.833
0.389
-4.767
1.100
c
d
-1.000
0.862
-3.934
1.934
Tukey o Scheffé
• Tukey. Uses the Studentized range
statistic to make all pairwise comparisons.
This is the default.
• Scheffé. The significance level of
Scheffé’s test is designed to allow all
possible linear combinations of group
means to be tested, not just pairwise
comparisons available in this feature. The
result is that Scheffé’s test is more
conservative than other tests.
Tipos de Anova
• Con un factor
• Con dos factores:
– tres grupos (A, B, C)
– género (M, F)
– Interacción
• Con más de dos factores (NSE, género,
religión)
• De medidas repetidas (activ EMG)
Anova de dos vías
Categorical values encountered during processing are:
GRUPO$ (3 levels)
A, B, C
METODO$ (2 levels)
I, II
Dep Var: LIPIDOS
N: 18
Multiple R: 0.998
Squared multiple R: 0.996
Analysis of Variance
Source
GRUPO$
METODO$
GRUPO$*METODO$
Error
Sum-of-Squares
df
Mean-Square
F-ratio
109.644
0.027
0.047
2
1
2
54.822
0.027
0.024
1372.854
0.670
0.591
0.479
12
0.040
P
0.000
0.429
0.569
-------------------------------------------------------------------------------
Desventajas de utilizar computador en estadística
(Altman, 1999)
• Errores en los softwares
• Versatilidad (dada la disponibilidad de tantos
softwares y tests: tentación a usar el q no
corresponde)
• La caja negra le aleja de sus datos
• La basura se va con la basura (si ingresa
datos en forma equivocada los resultados
serán equivocados, ingreso de 0, 9, 99, 999)
Ventajas de utilizar computador en estadística
(Altman, 1999)
• Precisión y rapidez
• Versatilidad (gran cantidad de tests
disponibles)
• Gráficos
• Flexibilidad
• Nuevas variables
• Volumen de datos
• Transferencia de datos
Estrategia para análisis de datos
•
•
•
•
•
•
•
Recolección de datos (form codificados)
Entrada de datos (Excel)
Chequear datos (min, max, x, ds)
Graficar antes de analizar
Análisis de datos
Chequear resultados
Interpretar
Web Pages that Perform Statistical Calculations:
– http://members.aol.com/johnp71/javasta2.html#Demos
Descargar

ANOVA – ANALISIS DE VARIANZA DE UNA VIA