Regresión Lineal Múltiple
yi = b0 + b1x1i + b2x2i + . . . bkxki + ui
A. Estimación
Javier Aparicio
División de Estudios Políticos, CIDE
[email protected]
Curso de Verano ENCUP
http://publiceconomics.wordpress.com/verano2009
Julio 2009
1
Similitudes con regresión simple





b0 es el intercepto
b1 a bk son k parámetros de pendiente
u es el término de error o residual
El supuesto de media condicional cero se
mantiene:
E(u|x1,x2, …,xk) = 0
Igual que antes, minimizamos la suma de
residuales cuadrados, de modo que tenemos
k+1 condiciones de primer orden (o k+1
parámetros a estimar)
2
Interpretación de la regresión múltiple
yˆ  bˆ 0  bˆ1 x1  bˆ 2 x 2  ...  bˆ k x k , de modo que
 yˆ   bˆ1 x1   bˆ 2 x 2  ...   bˆ k x k ,
y si mantenemos
x 2 ,..., x k constantes
, implica
que
 yˆ   bˆ1 x1 , es decir, cada b tiene
una interpreta ción ceteris pa ribus
3
b interpretada como una “derivada
parcial”
el caso donde k  2 , i.e.
Considere
yˆ  bˆ 0  bˆ1 x1  bˆ 2 x 2 , entonces
bˆ1 
 rˆ y   rˆ
i1
i
son los residuales
auxiliar
2
i1
, donde rˆi1 son
de una regresión
: xˆ1  ˆ 0  ˆ 2 xˆ 2
4
…“derivada parcial”



La ecuación anterior implica que “regresar y
en x1 y x2” tiene el mismo estimador para x1
que regresar y en los residuales de una
regresión de x1 en x2
Es decir, al relacionar x1 con y, solamente
capturamos la información de xi1 que no está
relacionada con xi2.
Estimamos el efecto de x1 en y después de
controlar o aislar el efecto de x2
5
Estimación simple vs. múltiple
Compare
la regresión
simple
~y  b~  b~ x
0
1 1
con la regresión multiple yˆ  bˆ 0  bˆ1 x1  bˆ 2 x 2
~
En general, b 1  bˆ1 a menos que :
bˆ 2  0 (i.e. x 2 no tenga un efecto parcial significat
o bien x1 y x 2 no tengan correlació n alguna
ivo )
en la muestra.
6
Suma de cuadrados: Terminología
Podemos separar cada observació
explicado
(sistemáti
y i  yˆ i  uˆ i
n en un componente
co) y un componente
no explicado
De modo que podemos definir
  y  y  es la
  yˆ  y  es la
 uˆ es la Suma
2
i
2
i
2
i
Lo cual implica
Suma Total de cuadrados
Suma Explicada
Residual
que
lo siguiente
:
: SST
de cuadrados
de cuadrados
:
: SSE
: SSR
SST  SSE  SSR
SST es la suma de “desviaciones al cuadrado” de las observaciones
de la muestra: es proporcional, más no igual, a VAR(y).
7
Bondad de ajuste:



2
R
¿Cómo saber qué tan bueno es el ajuste
entre la regresión y los datos de la muestra?
Podemos calcular la proporción de la Suma
de cuadrados totales (SST) que es
“explicada” por el modelo.
Esto es la llamada R-cuadrada de una
regresión:
R2 = SSE/SST = 1 – SSR/SST
8
Bondad de ajuste:
2
R también
2
R
puede definirse
del coeficient
como el cuadrado
e de correlació n entre los valores
observados , y i , y los valores predichos,
R 
2
  y
  y
i
i

 y  yˆ i  yˆ
 y
2
  yˆ
i

yˆ i :
2
 yˆ

2
9
R-cuadrada: discusión



R2 nunca decrecerá conforme incluyamos más
variables explicativas a la regresión, y por lo general
aumentará (así sea marginalmente).
¿Por qué? Incluir variables adicionales aumenta la
SSE aunque no sean significativas.
Dado que R2 típicamente aumenta con el número
de variables independientes, no es por sí sola un
buen criterio para comparar modelos.
10
b no sesgadas:
supuestos Gauss-Markov
1. Modelo poblacional es lineal en sus parámetros:
y = b0 + b1x1 + b2x2 +…+ bkxk + u
2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral es:
yi = b0 + b1xi1 + b2xi2 +…+ bkxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las
variables explicativas son exógenas (no
endogeneidad).
4. Ninguna variable x es constante ni tiene una
correlación lineal exacta con otra (no
multicolinealidad).
11
Demasiadas vs. pocas variables




¿Si incluimos variables que “no pertenecen
al modelo poblacional” en nuestra
especificación o modelo?
No tiene impacto en el resto de las b
estimadas: MCO permanece sin sesgo.
¿Si excluimos variables que “sí pertenecen
al modelo”?
En general, los estimadores MCO tendrán un
sesgo de variable omitida.
12
Sesgo de variable omitida
Supongamos
que el " verdadero"
modelo es :
y  b 0  b 1 x1  b 2 x 2  u , pero
~
~
~
estimamos y  b 0  b 1 x1  u , entonces
~
b1 
 x
 x
i1
i1
 x1  y i
 x1 
2
(*)
...ie, la estimación del “modelo incorrecto”.
Comparémoslo con la b del “modelo correcto”
13
Sesgo de variable omitida
(continuación)
Retomando
el modelo " verdadero" :
y i  b 0  b 1 x i1  b 2 x i 2  u i ,
de modo que el numerador
 x
i1
de (*) es :
 x1  b 0  b 1 x i1  b 2 x i 2  u i 
 b 1   x i1  x1   b 2   x i1  x1 x i 2 
2
 x
i1
 x1 u i
14
Sesgo de variable omitida
(continuación)
 x i1  x1  x i 2   x i1  x1 u i
~

b  b1  b 2

2
2
  x i1  x1     x i1  x1  
dado que E( u i )  0,
al calcular v alor esperado, tenemos
 
~
E b1  b1  b 2
 x
  x
i1
 x1  x i 2
i1
 x1 
2

15
Sesgo de variable omitida
(continuación)
Considerem
os la regresión
~
~
~
x 2   0   1 x1 donde
~
1 
de x 2 en x1 :
 x
  x
i1
 x1  x i 2
i1
 x1 
2

~
 1 denota el impacto
de x1 en x 2
~
~
de modo que E b 1  b 1  b 2  1
~
i.e., b 1 tiene un sesgo.
 
16
Sesgo positivo o negativo en b1
Corr(x1, x2) > 0 Corr(x1, x2) < 0
1 > 0)
1 < 0)
b2 > 0
Sesgo positivo Sesgo negativo
(overestimation)
b2 < 0
Sesgo negativo Sesgo positivo
(underestimation)
17
Sesgo de variable omitida: resumen




Dos casos donde el sesgo es igual a cero:

b2 = 0, es decir, x2 no pertenecía al modelo poblacional

x1 y x2 no están correlacionados en la muestra
Si la correlación entre (x2, x1) y entre (x2, y) es del
mismo signo, el sesgo es positivo.
Si omites una variable x2 que se mueve en el mismo
sentido que x1, y ésta afecta positivamente a y, b1
capturará parte de dicho impacto (sobre- estimada).
Si la correlación entre (x2, x1) y entre (x2, y) es de
signo opuesto, el sesgo es negativo.
18
El caso más general:
sesgo en todas las bi



Técnicamente, sólo podemos anticipar el signo de
este sesgo cuando el resto de las variables
explicativas incluidas no están correlacionadas
entre sí ni con la variable omitida
Si esto no se cumple, el sesgo afecta a todas las bi
estimadas, dependiendo de las covarianzas entre
las variables incluidas y con la variable omitida.
Aún así, resulta útil calcular el sesgo de variable
omitida asumiendo que las otras x no están
correlacionadas, aún cuando este supuesto no se
cumpla.
19
Varianza de los estimadores MCO




Ya vimos que la “distribución muestral” de los
estimadores está centrada en torno a los
“verdaderos” parámetros (insesgamiento).
¿Qué tan dispersa será la distribución de los
estimadores?
Para analizar esto, requerimos el 5º supuesto
Gauss-Markov:
Var(u|x1, x2,…, xk) = s2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.
20
Varianza de MCO (cont.)



Sea x igual al vector de variables (x1, x2,…xk)
Suponer que Var(u|x) = s2 también implica
que Var(y| x) = s2
Los 4 supuestos requeridos para
insesgamiento, más el supuesto de
homoscedasticidad son los llamados
supuestos Gauss-Markov.
21
Varianza de MCO (cont.)
Dados los 5 supuestos
 
Var bˆ j 
SST j 
s
2

SST j 1  R
 x
2
j

, donde
 x j  y R es la R
2
ij
Gauss - Markov :
de una regresión
2
j
2
de x j en todas las otras x
Es decir, SSTj captura la varianza de xi, mientras que R2j
captura la correlación entre xj y las otras x del modelo.
22
Componentes de la Varianza de MCO






Varianza del error: a mayor s2, mayor varianza de
los estimadores MCO.
Varianza muestral: a mayor SSTj, menor varianza
de los estimadores MCO.
A mayor tamaño de muestra, mayor SSTj y mayor
precisión de los estimadores.
Correlación entre las variables explicativas: a mayor
Rj2, mayor varianza de los estimadores MCO.
Si dos variables x son altamente correlacionadas,
sus b serán poco precisas.
Mayor varianza de los estimadores equivale a decir
menor precisión o menor eficiencia.
23
Error de especificación y eficiencia de los
estimadores MCO
Comparemos
Mientras
~
 
~
~
el modelo " incorrecto " : ~y  b 0  b 1 x1 , donde Var b 1 
 
que para el modelo " correcto" : Var bˆ j 
 
 
s
s
2
SST 1
2
SST j 1  R
2
j

,
~
De modo que, en general : Var b 1  Var bˆ1
(a menos que x1 y x 2 no estén correlacio nados)
Estimar el modelo incorrecto produce una b1 sesgada (por la variable
omitida) ¡pero de menor varianza (mayor precisión)!
Un modelo con variables omitidas puede ser engañosamente preciso.
Este es el llamado trade-off entre sesgo y eficiencia.
24
Trade-off entre sesgo y eficiencia




La varianza del estimador es menor en el modelo
“incorrecto” pero, a menos que b2 = 0, este modelo
será sesgado.
Un modelo con variables omitidas puede ser
engañosamente preciso y posiblemente sesgado.
Un modelo con demasiadas variables puede ser
engañosamente impreciso: pierdes más grados de
libertad y enfrentas mayor multicolinearidad.
Conforme el tamaño de la muestra aumenta, la
varianza de cada estimador disminuye, haciendo
que las diferencias en eficiencia sean relativamente
menos importantes.
25
Estimación de la varianza del error


No conocemos la varianza del error, s2, porque no
observamos los errores de la población, ui
Lo que observamos son los residuales (estimados)
del modelo muestral:
uˆ i  y i  bˆ 0  bˆ1 x1 i  ...  bˆ k x ki

Pero podemos usar los residuales estimados para
construir un estimador de la varianza del error.
26
Varianza del error (cont)
sˆ 
2
thus,



 uˆ  n  k  1  SSR df
se bˆ   sˆ SST 1  R 
2
i
j
j
2
j
1 2
gl = n – (k + 1), o bien gl = n – k – 1
gl (i.e. grados de libertad) son el (número de
observaciones) – (número de parámetros
estimados)
A mayores grados de libertad, mayor precisión de
los estimadores.
27
Supuestos Gauss-Markov
1. Modelo poblacional es lineal en sus parámetros:
y = b0 + b1x1 + b2x2 +…+ bkxk + u
2. Muestra aleatoria de tamaño n,
{(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la
población, de modo que el modelo muestral es:
yi = b0 + b1xi1 + b2xi2 +…+ bkxik + ui
3. E(u|x1, x2,… xk) = 0, lo cual implica que todas las
variables explicativas son exógenas (no
endogeneidad).
4. Ninguna variable x es constante ni tiene una
correlación lineal exacta con otra (no
multicolinealidad).
28
Teorema Gauss-Markov





Dados los 5 supuestos Gauss-Markov, puede
demostrarse que MCO es “MELI” (BLUE):
Mejor Estimador Lineal Insesgado
Best Linear Unbiased Estimator
De modo que, si los supuestos G-M se
sostienen, usar MCO es una buena idea.
Si, además de estos 5 supuestos,
u ~ N(0, s2)  MCO es el mejor estimador
(lineal o no lineal) insesgado.
29
Descargar

Regresión lineal múltiple