Regresión lineal
REGRESIÓN LINEAL
SIMPLE
NAZIRA CALLEJA
Regresión lineal
•
• PROPÓSITOS
• SUPUESTOS
MODELO DE REGRESIÓN
• REGRESIÓN LINEAL VS CORRELACIÓN
• PRUEBA DE BONDAD DEL AJUSTE
• INFERENCIA PARA β
• INTERVALOS DE CONFIANZA PARA β
• REGRESIÓN EN SPSS
Regresión lineal
•
PROPÓSITOS
DE LA REGRESIÓN
¿Qué es la regresión?
El análisis de regresión:
Intenta describir la naturaleza de la
asociación mediante la creación de un
modelo matemático de "mejor ajuste" .
Propósitos de la regresión
El análisis de regresión:
1º Permite examinar el efecto de
diferentes variables (VIs / predictoras)
sobre una variable de resultados (VD).
Propósitos de la regresión
Analiza si una variable predice
(explica / impacta) a otra variable.
Propósitos de la regresión
VI
VD
Permite determinar el porcentaje de la
varianza de la VD que es explicado por la VI
ρ2
Coeficiente de determinación:
Porcentaje de variación en Y
que es explicado por la variación en X.
Propósitos de la regresión
El análisis de regresión:
2º Permite hacer predicciones
puntuales del puntaje de una VD (Y)
a partir del puntaje de una VI (X).
Regresión lineal
•
SUPUESTOS
DE LA REGRESIÓN LINEAL
Supuestos
Al utilizar la regresión lineal asumimos que:
 Las variables están medidas a nivel
cuantitativo.
 Las variables se asocian de manera lineal.
Regresión lineal
•
MODELO DE REGRESIÓN
MODELO DE REGRESIÓN LINEAL
Para variables que posiblemente están
asociadas (X y Y) asumimos el modelo:
Coeficientes que calculamos
Y = α + β·X + ε
Variables que
observamos
Parte de Y que X no explica.
Es el error aleatorio que define
los valores de la vida real.
Modelo de regresión lineal
La ecuación Y = α + β • X
define la asociación promedio entre X y Y.
ε = error
(diferencia
entre lo
observado y lo
predicho
(x, y)
ε
β
β
α
Valor predicho
para Y por Xi
Valor observado
para Y por Xi
x
Línea de mejor ajuste
Modelo de regresión lineal
Coeficientes de la línea de mejor ajuste
Los coeficientes se estiman minimizando los
residuales cuadrados.
α = β0 = Intercepto
β = β1 = Pendiente
• α indica el punto en el que la línea cruza el eje de
las ordenadas (donde X = 0).
• β es el valor de la pendiente.
Encontrar la línea del mejor ajuste
b: estimación de β
b 

i
( x i  x )( y i  y )
 (x
i
 x)
i
a: estimación de α
a  y  bx
2
Encontrar la línea del mejor ajuste
e: estimación de ε
e   i y i  ( a  bx i )
Encontrar la línea del mejor ajuste
Para encontrar la línea que ajuste mejor se evalúa
qué tan cercanamente se ajusta cada una de las
posibles líneas a los datos observados.
Para ello se calculan las distancias verticales de todos
los puntos (x,y) a la línea.
Estas distancias se llaman
“residuales”
y corresponden al error, ei .
Encontrar la línea del mejor ajuste
x
La línea de mejor ajuste se define como aquélla en
la que la suma de los cuadrados de los residuales es
mínima.
Regresión lineal
•
REGRESIÓN LINEAL
VS
CORRELACIÓN
Regresión lineal vs. Correlación
• La correlación es una
medida de la fuerza de
la asociación.
• La regresión intenta
describir la forma de la
asociación.
El parámetro β (la pendiente)
está relacionada con ρ:
 
Y

X

Regresión lineal
•
EJEMPLO
Ejemplo
¿Cuál es la asociación entre:
Consumo de tabaco
y
Pérdida de fijación dental?
¿Qué es la regresión?
6
5
4
3
2
1
m e a n a tta c h m e n t le v e l (m m )
de fijación dental (mm)
Pérdida media
Línea de ajuste de la asociación entre
el consumo de tabaco (número de cigarros fumados por día) y
la pérdida de fijación dental (en mm).
smoking amount and attachment level (28 smokers)
N = 28 fumadores.
10
20
30
self-reported
cigarettes smoked/day
Número de cigarros
fumados
por día (autorreporte)
Ejemplo: Pérdida de fijación dental y cigarros
fumados por día
6
5
4
3
2
1
m e a n de
a ttafijación
c h m e n t ledental
v e l (m m ) (mm)
Pérdida media
Consumo
de tabaco y pérdida de fijación dental (28 fumadores)
smoking amount and attachment level (28 smokers)
10
20
30
Número deself-reported
cigarros fumados
por día (autorreporte)
cigarettes smoked/day
Ejemplo: Pérdida de fijación dental y
cigarros fumados por día
Coefficients
α
Model
1
β
Unstandardized
Standardized
Coefficients
Coefficients
B
(Constant)
cigarettes smoked/day
a
Std. Error
2.319
.635
.067
.032
Beta
t
.380
Sig.
3.653
.001
2.098
.046
a. Dependent Variable: mean attachment level
Este resultado de SPSS dice que:
a = 2.319, b = 0.067
La línea de mejor ajuste es:
Y = 2.319 + 0.067 × X
Nivel promedio de fijación dental
Cigarros fumados por día
Ejemplo: Pérdida de fijación dental y
cigarros fumados por día
 Y = 2.319 + 0.067 × X puede interpretarse como:
“Cada cigarro fumado extra por día se
asocia con una pérdida adicional de 0.067
mm de fijación dental."
También :“Cada paquete fumado al día (20
cigarros) se asocia con una pérdida de
2.319 +(0.067 × 20) = 3.659 mm de
fijación dental."
Las predicciones basadas en regresión
¿Qué nivel de fijación dental tendrá alguien que fuma
30 cigarros al día?
La mejor estimación del nivel de pérdida de fijación
dental promedio de las personas que fuman 30
cigarrillos / día es:
Y = 2.319 + 0.067 × X
Y = 2.319 + (0.067 x 30) = 4.329 mm
Regresión lineal
•
PRUEBA DE
BONDAD DEL AJUSTE
Bondad de ajuste
Se considera que el modelo de
regresión es una buena explicación
de la asociación entre X y Y, es decir,
su ajuste a los datos es bueno,
cuando el error (ε) es pequeño.
Bondad de ajuste
Media Cuadrática de Error
(MCE o MSE)
Es una medida clave del error o de la fuerza de la
asociación entre X y Y.
Es básicamente la media de los residuales elevados
al cuadrado.
1
2
MCE 
MCE 

n2
i
ei
1
y

n2
i
i
 ( a  bx i ) 
2
Bondad de ajuste
La MCE se utiliza para estimar el error estándar (ES) de b.
ES ( b ) 
El ES(b)
MCE
( n  1) s x
↓ en la medida en que
2
la MCE
la sx
Es decir:
Se obtienen mejores estimaciones de β cuando
↓
↑
la línea constituye un
buen ajuste
los puntajes de X están
más dispersos
Bondad de ajuste
El ajuste del modelo se prueba con el
estadístico F:
ANOVA b
Model
1
Sum of Squares
Regression
df
Mean Square
7.896
1
7.896
Residual
46.645
26
1.794
Total
54.541
27
F
Sig.
.046 a
4.401
a. a.
Predictors:
(Constant),
selfde
report
cigs./day
Predictor:
Número
cigarros
fumados por día (autorreporte)
b. b.Dependent
VariableVariable:
dependiente:
Pérdida
de (mm)
fijación dental (mm)
mean attachment
level
Descriptive Statistics
Mean
meanfumados
att achment
(mm)
Número de cigarros
porlevel
día (autorreporte)
selfdental
report cigs./day
Pérdida de fijación
(mm)
St d. Deviat io n
N
3.539 7
1.421 28
28
18 .17 86
8.051 01
28
Regresión lineal
•
INFERENCIA PARA β
Inferencia para los coeficientes de regresión
Es posible probar
H0: β = 0
versus
H1: β ≠ 0
utilizando el estadístico t:
t 
b
ES (b )
Ejemplo: Pérdida de fijación dental y
cigarros fumados por día
1. Hipótesis de investigación:
El número de cigarros fumados por día está
relacionado con la fijación dental.
2. Hipótesis estadísticas:
H0: β = 0
H1: β ≠ 0.
3. Prueba estadística:
Prueba t para la regresión lineal.
Ejemplo: Pérdida de fijación dental y
cigarros fumados por día
4. Regla de decisión:
Puede rechazarse Ho, con p < 0.05 , si |t26 |> 2.056.
5. Cálculos:
Coefficients
Model
1
Unstandardized
Standardized
Coefficients
Coefficients
B
(Constant)
cigarettes smoked/day
a. Dependent Variable: mean attachment level
a
Std. Error
2.319
.635
.067
.032
Beta
t 
 2 . 098
0 . 032
t
.380
0 . 067
Sig.
3.653
.001
2.098
.046
t26 = 0.046, p = .046
Ejemplo: Pérdida de fijación dental y
cigarros fumados por día
6. Resultados
Se rechaza Ho.
7. Conclusión:
Existe relación entre el número de cigarros
fumados diariamente y la fijación dental.
Regresión lineal
•
INTERVALOS DE CONFIANZA
PARA β
Intervalo de confianza para β
Un intervalo de confianza de 1-α para β es:
b  t n  2 ,1   / 2 ES ( b )
t: valor de t en tablas
con
n–2: grados de libertad
y
% de confianza: 1 - α (error tipo 1) / 2 (dos colas)
Ej.: Al 95% de confianza:
1 – .95 / 2 = .05/ .025
ES ( b ) 
MCE
( n  1) s x
2
Intervalo de confianza para β
Ejemplo:
Cigarros fumados
por día y pérdida
de fijación dental
b = 0.067
n = 28 ; gl = 26
α = .05/2 colas = .025
t = 2.056
SE(b) = 0.032
b  t n  2 ,1   / 2 ES ( b )
0 . 067  2 . 056  0 . 032
0.067 ± 0.066
El intervalo de confianza
de 95% para β es:
0.001 - 0.133
Ejemplo: Pérdida de fijación dental y
cigarros fumados por día
Y = 2.319 + 0.067 × X
Con un intervalo de confianza de 95% para β (0.001 - 0.133),
el valor predicho para la pérdida de fijación dental
oscilará entre:
Y = 2.319 + 0.001 × X
y
Y = 2.319 + 0.133 × X
Regresión lineal
•
REGRESIÓN EN SPSS
Regresión en SPSS
Generalmente se utiliza un programa de computadora
para el cálculo de los coeficientes.
Regresión en SPSS
Regresión en SPSS
Hay tres tablas generales que deben
interpretarse en los resultados del
análisis de regresión.
1ª Resumen del modelo
2ª ANOVA
3ª Coeficientes
Regresión en SPSS
1ª tabla
a. Predictor: Número de cigarros fumados por día (autorreporte)
La información que se toma de esta tabla es el R2, que es
la proporción de variación en la VD que es explicada por
la VI. Se expresa como porcentaje.
También se llama coeficiente de determinación.
Regresión múltiple en SPSS
2ª tabla
ANOVA b
Model
1
Sum of Squares
Regression
df
Mean Square
7.896
1
7.896
Residual
46.645
26
1.794
Total
54.541
27
F
4.401
Sig.
.046 a
a. a.
Predictors:
(Constant),
selfde
report
cigs./day
Predictor:
Número
cigarros
fumados por día (autorreporte)
b. b.
Variable
dependiente:
Pérdida
de(mm)
fijación dental (mm)
Dependent
Variable:
mean attachment
level
La tabla prueba el ajuste modelo.
Muestra si la proporción de varianza explicada en la primera
tabla es significativa.
También dice si el efecto total de las VIs sobre la VD es significativa.
Regresión múltiple en SPSS
3ª tabla
Coefficients
Model
1
Unstandardized
Standardized
Coefficients
Coefficients
B
(Constant)
cigarettes smoked/day
a
Std. Error
2.319
.635
.067
.032
Beta
t
.380
Sig.
3.653
.001
2.098
.046
a. Dependent Variable: mean attachment level
Muestra si el predictor es significativo de (o
significativamente relacionado con) la VD.
Regresión múltiple en SPSS
3ª tabla
Coefficients
Model
1
Unstandardized
Standardized
Coefficients
Coefficients
B
(Constant)
cigarettes smoked/day
a
Std. Error
2.319
.635
.067
.032
Beta
t
.380
Sig.
3.653
.001
2.098
.046
a. Dependent Variable: mean attachment level
Los coeficientes beta estandarizados
indican la fuerza y dirección de la relación
(se interpretan como coeficientes de r).
Descargar

Tema 1b. Análisis de regresión simple