ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Y
b1 + b2Xi
b1
Xi
X
Ahora, se aplicará el principio de máxima verosimilitud al análisis de regresión en un
modelo de regresión simple Y = b1 + b 2X + u.
1
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Y
b1 + b2Xi
b1
Xi
X
El marcador negro muestra el valor que tendría Y si X fuera igual a Xi y si no hubiera un
término de error.
2
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Y
b1 + b2Xi
b1
Xi
X
Sin embargo, se asumirá que existe un término de error en el modelo y que tiene una
distribución normal como la que se muestra.
3
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Y
b1 + b2Xi
b1
Xi
X
Respecto al marcador negro, la curva representa la distribución ex ante para u, es decir, su
distribución potencial antes de que se genere la observación. Ex post, por supuesto, se fija
en un cierto valor específico.
4
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Y
b1 + b2Xi
b1
Xi
X
En relación al eje horizontal, la curva también representa la distribución ex ante de Y para
esa observación, es decir, condicional en X = Xi.
5
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Y
b1 + b2Xi
b1
Xi
X
Los valores potenciales de Y, cercanos a b1 + b2Xi, tendrán densidades relativamente
grandes.
6
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Y
b1 + b2Xi
b1
Xi
X
... mientras valores deY relativamente lejanos de b1 + b2Xi tendrán densidades reducidas.
7
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Y
b1 + b2Xi
b1
Xi
X
El valor medio de la distribución de Yi es b1 + b2Xi. Su desviación estándar es s, la
desviación estándar del término error.
8
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Y
f (Y i ) 
1
s
2
e
1 Y  b1 b 2 X i  2
  i

2
s

b1 + b2Xi
b1
Xi
X
Por lo tanto, la función de densidad para la distribución ex ante de Yi es la que se muestra.
9
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
f (Y i ) 
f (Y 1 )  ...  f (Y n ) 
1
s
2
1
s
e
2
e
1 Y  b1 b 2 X i  2
  i

2
s

1 Y  b1  b 2 X 1
  1
2
s



2
 ... 
1
s
2
e
1  Yn  b 1  b 2 X n  2
 

2
s

La función de densidad conjunta para las observaciones en Y es el producto de sus
densidades individuales.
10
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
f (Y i ) 
f (Y 1 )  ...  f (Y n ) 
1
s
L  b 1 , b 2 , s | Y 1 ,..., Y n  
2
1
s
e
1
s
2
2
e
1 Y  b1 b 2 X i  2
  i

2
s

1 Y  b1  b 2 X 1
  1
2
s
e



2
1 Y  b1 b 2 X 1
  1
2
s
 ... 



1
s
2
e
1  Yn  b 1  b 2 X n  2
 

2
s

2
 ... 
1
s
2
e
1 Y  b1 b 2 X n  2
  n

2
s

Ahora, tomando b1, b2 y s como nuestra elección de variables, y tomando los datos de Y y
X como dados, se puede reinterpretar esta función como la función de máxima
verosimilitud b1, b2, y s.
11
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
f (Y i ) 
f (Y 1 )  ...  f (Y n ) 
1
s
L  b 1 , b 2 , s | Y 1 ,..., Y n  
2
1
s
e
1
s
2
2
e
1 Y  b1 b 2 X i  2
  i

2
s

1 Y  b1  b 2 X 1
  1
2
s
e



2
1 Y  b1 b 2 X 1
  1
2
s
 ... 



1
s
2
e
1  Yn  b 1  b 2 X n  2
 

2
s

2
 ... 
1
s
2
e
1 Y  b1 b 2 X n  2
  n

2
s

1 Y  b1 b 2 X 1 
1 Y  b1  b 2 X n 

  1
  n


1
1
2
s
2
s



log L  log
e
 ... 
e
 s 2
s 2

2
2




Elegiremos b1, b2, y s con el propósito de maximizar la verosimilitud, dados los datos de Y
y X. Usualmente, es más fácil hacer esto de manera indirecta, maximizando el logverosimilutd (log-likelihood).
12
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
1 Y  b1 b 2 X 1 
1 Y  b1 b 2 X n 

  1
  n


1
1
2
s
2
s



log L  log
e
 ... 
e
 s 2
s 2

2
1 Y  b1 b 2 X 1 

  1

1
2
s


 log
e
 s 2

2
2




1 Y  b1 b 2 X n 


  n

1
2
s
  ...  log 

e

 s 2


2
2




1
1  Yn  b 1  b 2 X n 

 1  Y1  b 1  b 2 X 1 
 n log 


...






s
2
s
 s 2  2 


2
2
1

 s
 n log 
Z

2
 s 2 
El primer paso es descomponer la expresión como la suma de los logaritmos de los
factores.
13
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
1 Y  b1 b 2 X 1 
1 Y  b1 b 2 X n 

  1
  n


1
1
2
s
2
s



log L  log
e
 ... 
e
 s 2
s 2

2
1 Y  b1 b 2 X 1 

  1

1
2
s


 log
e
 s 2

2
2




1 Y  b1 b 2 X n 


  n

1
2
s
  ...  log 

e

 s 2


2
2




1
1  Yn  b 1  b 2 X n 

 1  Y1  b 1  b 2 X 1 
 n log 


...






s
2
s
 s 2  2 


2
2
1

 s
 n log 
Z

2
 s 2 
Después, separamos el logaritmo de cada factor en dos componentes. El primer
componente es el mismo en cada caso.
14
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
1 Y  b1 b 2 X 1 
1 Y  b1 b 2 X n 

  1
  n


1
1
2
s
2
s



log L  log
e
 ... 
e
 s 2
s 2

2
1 Y  b1 b 2 X 1 

  1

1
2
s


 log
e
 s 2

2
2




1 Y  b1 b 2 X n 


  n

1
2
s
  ...  log 

e

 s 2


2
2




1
1  Yn  b 1  b 2 X n 

 1  Y1  b 1  b 2 X 1 
 n log 


...






s
2
s
 s 2  2 


2
2
1

 s
 n log 
Z

2
 s 2 

donde Z  (Y1  b 1  b 2 X 1 )  ...  (Y n  b 1  b 2 X n )
2
2

Por lo tanto, el log-verosimilud (log-likelihood) se simplifica como se muestra.
15
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
1 Y  b1 b 2 X 1 
1 Y  b1 b 2 X n 

  1
  n


1
1
2
s
2
s



log L  log
e
 ... 
e
 s 2
s 2

2
1 Y  b1 b 2 X 1 

  1

1
2
s


 log
e
 s 2

2
2




1 Y  b1 b 2 X n 


  n

1
2
s
  ...  log 

e

 s 2


2




2
1
1  Yn  b 1  b 2 X n 

 1  Y1  b 1  b 2 X 1 
 n log 


...






s
2
s
 s 2  2 


2
2
1

 s
 n log 
Z

2
 s 2 

donde Z  (Y1  b 1  b 2 X 1 )  ...  (Y n  b 1  b 2 X n )
2
2

Para maximizar el log-verosimilitud (log-likelihood), se debe minimizar Z. Sin embargo, la
elección de los estimadores de b1 y b2 para minimizar Z es exactamente lo que se hizo
cuando se derivaron los coeficientes de regresión de mínimos cuadrados.
16
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
1 Y  b1 b 2 X 1 
1 Y  b1 b 2 X n 

  1
  n


1
1
2
s
2
s



log L  log
e
 ... 
e
 s 2
s 2

2
1 Y  b1 b 2 X 1 

  1

1
2
s


 log
e
 s 2

2
2




1 Y  b1 b 2 X n 


  n

1
2
s
  ...  log 

e

 s 2


2




2
1
1  Yn  b 1  b 2 X n 

 1  Y1  b 1  b 2 X 1 
 n log 


...






s
2
s
 s 2  2 


2
2
1

 s
 n log 
Z

2
 s 2 
where Z  (Y 1  b 1  b 2 X 1 )  ...  (Y n  b 1  b 2 X n )
2
2

Por lo tanto, para este modelo de regresión, los estimadores de máxima verosimilitud de b1
y b2 son idénticos a los estimadores de mínimos cuadrados.
17
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
2
1

 s
log L  n log 
Z

2
 s 2 
where Z  (Y 1  b 1  b 2 X 1 )  ...  (Y n  b 1  b 2 X n )
2


2
ei
where
2

e i  Y i  b1  b 2 X i
Como consecuencia, Z será la suma de los cuadrados de los residuales de los mínimos
cuadrados.
18
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
2
1

 s
log L  n log 
Z

2
 s 2 
 1

 n log    n log 
s 


  n log s  n log 



2 
1


2 
1
2
s
s
2
Z
2
2
Z
Para obtener el estimador de máxima verosimilitud de s, es conveniente reordenar la
función log-verosimilitud (log-likelihood) como se muestra.
19
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
2
1

 s
log L  n log 
Z

2
 s 2 
 1

 n log    n log 
s 


  n log s  n log 

 log L
s
 
n
s
s
3
Z s


2 
1


2 
1
3
2
s
s
Z
2
2
Z
2
Z  n s 
2
Simplificando respecto de s, se obtiene la siguiente expresión.
20
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
2
1

 s
log L  n log 
Z

2
 s 2 
 1

 n log    n log 
s 


  n log s  n log 

 log L
s
 
n
s
s
3
Z s


2 
1


2 
1
3
2
s
s
Z
2
2
Z
2
Z  n s 
2
sˆ 
2
Z
n


2
ei
n
La condición de primer orden para un máximo requiere que sea igual a cero. Por lo tanto, el
estimador de máxima verosimilitud de la varianza es la suma de los cuadrados de los
residuales, dividido entre n.
21
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
2
1

 s
log L  n log 
Z

2
 s 2 
 1

 n log    n log 
s 


  n log s  n log 

 log L
s
 
n
s
s
3
Z s


2 
1


2 
1
3
2
s
s
Z
2
2
Z
2
Z  n s 
2
sˆ 
2
Z
n


2
ei
n
Observe que esto implica un sesgo para muestras finitas. Para obtener un estimador no
sesgado, se debe dividir entre n–k, donde k es el número de parámetros, en este caso 2. Sin
embargo, el sesgo desaparece a medida que la muestra se vuelve más grande.
22
Copyright Christopher Dougherty 2000–2009. This slideshow may be freely copied for
personal use.
02.02.09
Descargar

ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD