Sesión III
José Bustos1 & Alex Mellado2
1
Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro.
2 Magister (c) Epidemiología, Departamento de Salud Pública, PUC.
Martes 19 de Julio de 2011
Test de Normalidad
Dócima de hipótesis para las pruebas de normalidad
H0: p1 = p2
H1: p1 ≠ p2
Son normales
No son normales
Con el valor p decidimos si aceptamos o rechazamos la H0
Para evaluar la normalidad de un conjunto de datos
• Test de Shapiro-Wilk
• Test de Kolmogorov-Smirnov
> ks.test(x,y)
# si x e y tienen la misma distribución
2
Test de Normalidad
Test de Shapiro-Wilk n<30 # describe mejor cuando los n son pequeños
# no significa que no pueda usarse para n>30
sintaxis
shapiro.test(name)
ejemplo
?shapiro.test
name=rnorm(29,0,1)
mean(name)
sd(name)
qqnorm(x)
qqline(x)
shapiro.test(name)
#generación números aleatorios(n,media,sd)
#interpretar resultado W= valor del test, p-value.
3
Test de Normalidad
Test de Kolmogorov-Smirnov n>30 #evalúa 1 o 2 muestras simulneamente
sintaxis
ks.test(name,pnorm)
ks.test(name1, name2)
ejemplo
?ks.test
name1=rnorm(500,0,1)
mean(name1)
sd(name1)
ks.test(name1,pnorm)
ks.test(name1,name2)
#generación números aleatorios(n,media,sd)
# #interpretar resultado KS= valor del test, p-value
#interpretar resultado KS= valor del test, p-value.
También hay otras distribuciones disponibles. Las más importantes (y los
parámetros necesarios en cada una) son:
ks.test(x,ppois,lambda)
ks.test(x,pbinom,n,p)
# si x ~ Poisson con tasa lambda. Ej: ks.test(x,ppois,3)
# si x ~ Binomial con n y p dados.
4
2. Test de Chi-cuadrado X2
Test Chi-cuadrado. 1 variable categórica con n niveles
H0: p1 = p2
H1: p1 ≠ p2
Las proporciones son iguales
Las proporciones diferentes
sintaxis
chisq.test(names)
names<-c(valores1, val2….,)
ejemplo
Supóngase que la proporción observada de mujeres normales y con cuadros
de depresión en una cuadra de la comuna de Maipú es de 29/12,
respectivamente.
Cual es la variable y el factor de la variable?
sexo<- c(29,12)
# vector formado guarda las frecuencias o proporciones
5
2. Test de Chi-cuadrado X2
ejercicio 1
El 35% de erizos de tierra mantenidos en cautiverio enfermaron y el 65% murió.
¿La proporción de muertos y enfermos es significativamente diferente? .
Sin embargo, ½ de los enfermos comen pellet (n=50) y enferman menos que
aquellos que tienen una dieta casera (½) y mixta (½). ¿Serán las proporciones
observadas diferentes?
> ks.test(x,y)
# si x e y tienen la misma distribución
6
2. Test de Chi-cuadrado X2
Test Chi-cuadrado. 1 variable categórica con n niveles cuando conocemos
una proporción
H0: p = 0.18
H1: p ≠ 0.18
sintaxis
a<-c(240,960)
b<-c(0.18,0.82)
chisq.test(a,p=b)
chisq.test(a,p=b)
# vector a almacena frecuencias observadas
# vector b almacena probabilidades esperadas
# Test chi-cuadrado
# alternativamente los vectores a y b
pueden ir concatenados
ejercicio 2
La encuesta nacional de Salud revelo que el 18% de los escolares chilenos es
obeso. Supóngase que una muestra obtenida de un colegio privado donde
estudian 1200, 240 son obsesos. ¿La proporción observada en el colegio es
diferente de los resultados obtenidos en la encuesta nacional?
7
2. Test de Chi-cuadrado X2
Test Chi-cuadrado. 2 variable categórica con n niveles
H0: p1 = p2
H1: p1 ≠ p2
No existe asociación
Existe asociación
sintaxis
chisq.test(name, correct=F)
name=matrix(c(valores), nc=columnas)
son independientes
no son independientes
# chi de Pearson
8
2. Test de Chi-cuadrado X2
ejercicio 3
Supóngase que interesa saber si sexo da cuenta de la asociación con el
parasitismo por la lombriz solitaria Taenia solium. De a base de datos de julio
del ISP 2011, resultaron parasitados 38 de 50 y de 60 mujeres sólo 4. Los
hombres comen mas carne en cebiche y cruda que las mujeres. Realice el
test mas adecuado.
9
2. Test de Chi-cuadrado X2
ejercicio 4
Interesa determinar si hay diferencias significativas en el porcentaje de personas
con depresión entre dos poblaciones A y B. Para esto, se tomó una muestra de
150 personas de la población A y 200 de la población B, encontrándose 45 y 120
personas con depresión en cada una de las ciudades respectivamente. La
ciudad B aparentemente esta mas contaminada que la población A.
1. Construya su tabla de contingencia.
2. Realice la rutina en R para obtener el valor de X2 Pearson.
3. Señale si acepta o rechaza la Ho
10
2. Test de Chi-cuadrado X2
Chi-cuadrado desde un Dataframe
.sintaxis
chisq.test(namevar1,namevar2, correct=F)
# Test X2 de Pearson. Var1 vs Var2
# Buscando dataframe .txt en el directorio
name<-read.table(file.choose(), header=T)
attach(name)
chisq.test(namevar1,namevar2, correct=F)
11
2. Test de Chi-cuadrado X2
Test Exacto de Fisher. n< 5 en algunas celdas
H0: p1 = p2
H1: p1 ≠ p2
No existe asociación
Existe asociación
sintaxis
fisher.test(name, correct=F)
name=matrix(c(valores), nc=columnas)
fisher.test(namevar1,namevar2, correct=F)
son independientes
no son independientes
# chi2 de Pearson
# chi 2de Pearson
usando dataframe
12
3. T Student
T Student comparación de medias: para 1 muestra.
H0: μ = 0
H1: μ ≠ 0
Media es igual a 0
Media diferente de 0
sintaxis
t.test(x)
t.test(x,mu=10)
t.test(x1,x2,paired=T)
# si vector numérico x tiene media μ=0 (por defecto μ0=0)
# si vector numérico x tiene media μ=10)
# si x1-x2 (datos pareados) tiene media 0
Ejemplo
x=rnorm(100,20,1)
test.t(x)
test(x, mu=20)
13
3. T Student
ejercicio 5
A un total de 10 pacientes con diagnostico de VIH se les midió el número de
linfocitos T en la sangre /ml. La siguiente tabla muestra el conteo de linfocitos
Antes y después de un tratamiento naturista. Genere los vectores de la tabla
conservando los nombres de cabecera. Determine si la intervención es
significativa o no.
paciente
Antes
después
1
31
71
2
157
93
3
4
53
4
109
240
5
283
181
6
141
181
7
36
64
8
164
367
9
154
114
10
22
48
Resultado
Paired t-test
data: antes and después
t = -1.1006, df = 9, p-value = 0.2996
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval: -95.02074 32.82074
sample estimates:
mean of the differences
-31.1
14
3. T Student
T Student comparación de medias muestras independientes (N=2).
El test t de Student para muestras independientes permite docimar la
hipótesis nula de igualdad de promedios de dos vectores numéricos x1 y x2.
Es decir, H0: μ1 = μ2.
H0: μ1 = μ2
H1: μ 1 ≠ μ2
Media muestra 1 es igual a la media muestra 2
ambas medias muestréales son diferentes
sintaxis
t.test(x1,x2)
# ambos vectores numéricos
15
Ejercicio 6
Considerando el numero de linfocitos encontrados en 10 pacientes en la ciudad
1 y en 10 pacientes en la ciudad 2.
1. Genere los vectores de la tabla conservando los nombres de cabecera y
determine si existen diferencias significativas en el número de linfocitos en
ambas ciudades.
Ciudad 1
Ciudad 2
31
71
157
93
4
53
109
240
283
181
141
181
36
64
164
367
154
114
22
48
Resultado
Welch Two Sample t-test
data: ciudad1 and ciudad2
t = -0.7308, df = 17.564, p-value = 0.4745
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: -120.66331 58.46331
sample estimates:
mean of x mean of y
110.1 141.2
16
Ciudad
linfocitos
1
31
1
157
t.test requiere que las muestras estén en columnas distintas,
cuando lo habitual es tener los datos en una columna (por ejemplo,
en vector x) y los grupos a comparar en otra columna (por ejemplo,
en vector grupo, con valores 1 y 2). La solución es:
1
4
>t.test(x[grupo==1], x[grupo==2])
1
109
1
283
1
141
1
36
1
164
1
154
1
22
2
71
2
93
2
53
2
240
2
181
2
181
2
64
2
367
2
114
2
48
Ejercicio 7
Tomando los valores de linfocitos y ciudad. Determine si
existen diferencias significativas entre una ciudad y otra.
Genere los vectores de la tabla conservando los nombres de
cabecera.
ciudad<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)
linfocitos<c(31,157,4,109,283,141,36,164,154,22,71,93,53
,240,181,181,64,367,114,48)
t.test(linfocitos[ciudad==1],linfocitos[ciudad==2])
Welch Two Sample t-test
data: linfocitos[ciudad == 1] and linfocitos[ciudad == 2]
t = -0.7308, df = 17.564, p-value = 0.4745
alternative hypothesis: true difference in means is not equal to 0 95
percent confidence interval:
-120.66331 58.46331
sample estimates:
mean of x mean of y
110.1 141.2
17
4. Test kruskall wallis
T Kruskal Wallis. comparación de mas de dos medias.
El test de rangos de Kruskal-Wallis permite comparar el parámetro de tendencia central
(mediana) entre dos o más poblaciones. Cuando se comparan solo 2 grupos, el test es
equivalente al test de rangos de Wilcoxon.
H0: μ1 = μ2 = μ3
H1: μ 1 ≠ μ2 ≠ μ3
Media muestra 1,2,3 son iguales
ambas medias muestréales son diferentes
sintaxis
kruskal.test(x,grupos)
# si la mediana de x (variable numérica) se
# diferencia entre grupos (variable categórica)
kruskal.test(list(x1,x2,x3)) # si existe diferencias entre promedios
# de x1, x2 y x3 (no requiere variable categórica
18
4. Test de asociación correlacion
El comando cor permite obtener la correlación entre dos vectores x e y.
sintaxis
cor(x, y)
cor.test(x, y)
# correlacion (Pearson) entre x e y.
# correlacion (Pearson) entre x e y, test e IC95%
Por defecto, cor entrega la correlación de pearson. Con el subcomando method se
controla cuál correlación obtener: pearson, spearman o kendall.
> cor(x, y,method=“pearson”)
# igual a cor(x,y)
> cor(x, y,method=“spearman”) # correlacion de Spearman
> cor(x, y,method=“kendall”)
# correlacion de Kendall
ordinal/continua
ordinal/ordinal
Si hay observaciones faltantes en x o y el comando producirá un error. La opción
use=“complete.obs” borra registros con NA en cualquiera de las dos variables.
xyz=cbind(x,y,z)
> cor(xyz)
19
ejercicio 8
•
•
•
•
•
•
•
•
Lea la base de datos Litiasis.txt (archivo de texto delimitado por tabulaciones)
en R.
Observe las características del dataframe como list(), names(), summary()
Acceda a los vectores del dataframe usando attach()
Determine si existe asociación entre las variables HTA y PESO
Determine si existe asociación entre las variables HTA y FUMA.
Determine si existe asociación entre las variables EDAD y FUMA.
Determine si existe asociación entre TALLA y EDAD. (grafique).
Finalmente agregue la siguiente instrucción
abline(lm(PESO~TALLA))
20
6. Modelos de regresión
Es una técnica para analizar una variable dependiente numérica (Y) frente a una
Modelos
Regresión.(X) también numéricas sean categóricas o
o6.mas
variablesde
independientes
continuas.
Formula:
Y = β0 + β1 x1 + ……+ βn xn + e
Tipos de modelo de regresión
1. Modelos de regresión Lineal
Y= v.a. numérica continua
2. Modelos de regresión Logística
Y= v.a. categórica
3. Modelos de regresión Poisson
Y= v.a conteo o tasa
21
Modelos de regresión Lineal simple
lm (formula = variable Y ~ variable X)
Modelos de regresión Lineal múltiple
lm (formula = variable Y ~ variable X1+ variable X2 +…+ variable Xn)
22
Descargar

Intro R