Regresión con variable
dependiente binaria
Tema 11
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Esquema
Esquema
1. Introducción
2. El Modelo Lineal de Probabilidad
3. El Modelo Logit
4. El Modelo Probit
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
El modelo lineal de probabilidad (MLP)
• Son modelos del tipo Yt = +Xt+u, donde la variable
cualitativa es Yt
• Yt = 1 si se da un suceso, e Yt = 0 en caso contrario.
• Por ejemplo,
–
–
–
–
Cómo decidir si conceder o no un crédito
Si usar o no el transporte público
Si conceder o no una subvención
Si comprar o no comprar algo ..
• Las exógenas (X) son variables cuantitativas normales
(también puede haber cualitativas).
• Se llaman MLP al poder interpretarse que E[Y/X] es la
probabilidad de que el evento suceda dado X.
El modelo lineal de probabilidad (MLP)
Yt
1
0
Total
Probabilidad
Pt
1 Pt
1
de Yt = a+bXt+ut se sigue E(Yt ) = a+bXt
de la tabla, E(Yt) = 1·Pt+0·(1−Pt) = Pt
de manera que, Pt =E(Yt) = a+bXt
El modelo lineal de probabilidad (MLP)
Y
0
1
1
0
0
1
1
0
0
0
1
1
0
1
0
1
1
0
0
1
X
8
16
18
11
12
19
20
13
9
10
17
18
14
20
6
19
16
10
8
18
Y
1
0
0
1
0
1
1
0
0
1
0
1
1
0
0
1
0
0
1
1
X
16
12
11
16
11
20
18
11
10
17
13
21
20
11
8
17
16
7
17
16
Propiedad de la vivienda (Y) y nivel de renta (X) (en miles de $)
El modelo lineal de probabilidad (MLP)
Modelo 2: Propiedad de una vivienda
Estimaciones MCO utilizando las 40 observaciones 1-40
Variable dependiente: Y
Variable
const
X
Coeficiente
-0,945686
0,102131
Desv. típica Estadístico t
0,122841
-7,6984
0,00816047
12,5153
valor p
<0,00001
<0,00001
Media de la var. dependiente = 0,525
Desviación típica de la var. dependiente. = 0,505736
Suma de cuadrados de los residuos = 1,94751
Desviación típica de los residuos = 0,226385
R2 = 0,804761
R2 corregido = 0,799624
Grados de libertad = 38
Log-verosimilitud = 3,68906
Criterio de información de Akaike = -3,37813
Criterio de información Bayesiano de Schwarz = -0,000369897
Criterio de Hannan-Quinn = -2,15684
***
***
El modelo lineal de probabilidad (MLP)
• La interpretación es la siguiente:
– El valor del término independiente, - 0.95, daría la probabilidad
de que una familia sin renta, tenga una casa.
– El valor de la pendiente, 0.102 indica cómo crece la probabilidad
de tener una casa en propiedad con cada incremento unitario de
renta
• Además podemos usar la ecuación estimada para pronosticar la
probabilidad de poseer un casa para un nivel de renta. Por ejemlplo,
si X = 12, E(Y) = -0.95+12*0.102 = 0.27, es decir Pr(Y=1) = 27%
• Ver ejemplo fichero loans
El modelo lineal de probabilidad (MLP)
• El ejemplo anterior ilustra alguno de los problemas del MLP:
– Incumplimiento de la restricción 0 E(Y) 1 (0 Pr(Y=1) 1)
– Crecimiento lineal de la probabilidad de que ocurra el evento estudiado,
lo cual es poco verosímil
• Hay además otros problemas,
– Las perturbaciones no son normales. Puesto que Yt solo toma dos
valores, 0 ó 1, la perturbación ut = Yt -a-bXt toma igualmente solo dos
valores:
Si Y = 1 ut = Yt abXt = 1 a bXt
Si Y = 0, ut = Yt abXt = a bXt
De manera que sigue una distribucion de Bernoulli
El modelo lineal de probabilidad (MLP)
• Valor cuestionable de R2
Y vs. X
1.5
Y
1.0
0.5
0.0
-0.5
4
8
12
16
X
20
24
El modelo lineal de probabilidad (MLP)
• Perturbaciones heterocedásticas. Dadas las
características del modelo, puede demostrarse que,
Var(ut) = E(ut)2 = P(1-P)(*) = (1 a bXt)( a bXt)
• Es decir que var(u) depende de X y en consecuencia
no es homocedástica
• Este es un problema que puede resolverse por los
procedimientos habituales (MCG)
• También se han desarrollado medidas del ajuste más
adecuadas.
• El problema más grave es el de la linealidad, lo que
ha conducido al desarrollo de otros modelos.
• (*) Es conocido de la teoría estadística que media y varianza de una distribución de
Bernoulli son p y p(1p) respectivamente
El modelo Logit
• Objetivo: solventar el problema del crecimiento
lineal de la probabilidad y acotar la probabilidad
de éxito entre 0 y 1
• Se recurre a un modelo basado en la logística,
P r(Y  1 / X )  Pt 
1
1  exp(  Z t )
• Donde Z es el vector X. Para el modelo simple,
Pt 
1
1  exp(     X t )
El modelo Logit
1.00
0.95
0.90
0.85
0.80
0.75
0.70
0.65
Pr(Y=1)
0.60
0.55
0.50
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
50
100
150
200
250
300
350
400
450
500
550
600
650
700
750
800
850
900
950
1000
Renta
Donde,
a) El crecimiento de la probabilidad no es lineal
b) El mayor crecimiento se produce en la zona central
c) La probabilidad está acotada entre 0 y 1
Estimación de un Logit
• La estimación del mismo modelo anterior sería
aproximadamente,
Dependent Variable: Y
Method: ML - Binary Logit (Quadratic hill climbing)
Date: 05/07/15 Time: 17:49
Sample (adjusted): 1 40
Included observations: 40 after adjustments
Convergence achieved after 6 iterations
Covariance matrix computed using second derivatives
Variable
Coefficient
Std. Error
z-Statistic
Prob.
C
X
-23.29948
1.551954
10.72585
0.680705
-2.172274
2.279921
0.0298
0.0226
McFadden R-squared
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Restr. deviance
LR statistic
Prob(LR statistic)
0.827381
0.506370
0.339301
0.423745
0.369834
55.45177
45.87972
0.000000
Mean dependent var
S.E. of regression
Sum squared resid
Log likelihood
Deviance
Restr. log likelihood
Avg. log likelihood
0.500000
0.173456
1.143306
-4.786028
9.572056
-27.72589
-0.119651
El modelo Logit
• Interpretación de los resultados
– La renta es una variable estadísticamente significativa …
– La probabilidad de que una familia con X=10 posea vivienda, es
Pr(Y  1) 
1
1  exp[  (  23.3  1.55 *10)]
 0.00041
– Para una familia con X = 20,
Pr(Y  1) 
1
1  exp[  (  23.3  1.55 * 20)]
 0.999
– En la media (X = 14,25),
Pr(Y  1) 
1
1  exp[  (  23.3  1.55 *14.25)]
 0.23
El modelo Logit
• El cálculo del cambio en la probabilidad derivado de un
cambio unitario en X, depende no solo de  sino también
del nivel de probabilidad del que se parte. De
Pt 
1
1 e
 (   X t )

1
1 e
• De manera que,
dP
dX
 ˆ P (1  P )
 Zt
El modelo Logit
• El rango de X es (6, 21). Veamos cómo varía Pr(Y=1), en
función de los valores de X,
X
10
11
14
15
19
20
Pr(Y=1) DPr(Y=1)
0,0004
0,0019 0,0015
0,1680
0,4875 0,3195
0,9979
0,9995 0,0017
• Para calcular el valor de los efectos parciales, suelen
calcularse en los valores medios de las X
El modelo Logit
• El R2 clásico no es una buena medida del ajuste en el
modelo Logit
• Suele utilizarse el R2 de McFadden dado por,
1 l() / l(0)
• donde l() es el log de verosimilitud del modelo
completo, y l(0) el log de versosimilitud del modelo
restringido (solo término independiente)
• También la proporción de aciertos …
El modelo Probit
• Análogo al Logit pero empleando la distribución normal,
N(0, 1),
0
El modelo Probit
• La distribución normal es muy parecida a la logística y
por ello no es fácil decidir entre ambas (ver fig. 11.4.1)
• Las estimaciones son de hecho muy parecidas. Por
ejemplo, para el modelo de la vivienda, el probit es,
Dependent Variable: Y
Method: ML - Binary Probit (Quadratic hill climbing)
Date: 05/07/15 Time: 18:20
Sample (adjusted): 1 40
Included observations: 40 after adjustments
Convergence achieved after 6 iterations
Covariance matrix computed using second derivatives
Variable
Coefficient
Std. Error
z-Statistic
Prob.
C
X
-12.32756
0.820261
5.159198
0.323459
-2.389433
2.535904
0.0169
0.0112
McFadden R-squared
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Restr. deviance
LR statistic
Prob(LR statistic)
0.823101
0.506370
0.345235
0.429679
0.375767
55.45177
45.64239
0.000000
Mean dependent var
S.E. of regression
Sum squared resid
Log likelihood
Deviance
Restr. log likelihood
Avg. log likelihood
0.500000
0.179310
1.221774
-4.904694
9.809388
-27.72589
-0.122617
El modelo Probit
• Para encontrar las probabilidades procedemos de la
siguiente manera,
Pr(Y=1|X=10)= (-12,33+0,82*10)=(-4,13)
• La probabilidad de que el valor de una normal tipificada
tome un valor menor que -4,13, es prácticamente nula
• Para X=14 y X= 15, se tiene,
Pr(Y=1|X=10)= (-12,33+0,82*14)=(-0,85)=0,1977
Pr(Y=1|X=10)= (-12,33+0,82*15)=(-0,03)=0,488
• Valores ambos parecidos a los del logit
Contrastes con el modelo Probit
• Los estadísticos para los contrastes y la medid
de la bondad del ajuste, son idénticos a los del
logit
• Para contrastar hipótesis múltiples recurrimos a
un contraste de ratio de verosimilitud
L R  2( LNR  LR )   q
2
• Donde LNR y LR son el logaritmo de verosimilitud
de los modelos no restringido y restringido (H0
es que la restricción es válida)
Modelo Probit
DISTRIBUCIÓN NORMAL
(Área a la derecha de z)
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
0,00
0.5000
0.4602
0.4207
0.3821
0.3446
0.3085
0.2743
0.2420
0.2119
0.1841
0.1587
0.1357
0.1151
0.0968
0.0808
0.01
0.4960
0.4562
0.4168
0.3783
0.3409
0.3050
0.2709
0.2389
0.2090
0.1814
0.1562
0.1335
0.1131
0.0951
0.0793
0.02
0.4920
0.4522
0.4129
0.3745
0.3372
0.3015
0.2676
0.2358
0.2061
0.1788
0.1539
0.1314
0.1112
0.0934
0.0778
0.03
0.4880
0.4483
0.4090
0.3707
0.3336
0.2981
0.2643
0.2327
0.2033
0.1762
0.1515
0.1292
0.1093
0.0918
0.0764
0.04
0.4840
0.4443
0.4052
0.3669
0.3300
0.2946
0.2611
0.2296
0.2005
0.1736
0.1492
0.1271
0.1075
0.0901
0.0749
0.05
0.4801
0.4404
0.4013
0.3632
0.3264
0.2912
0.2578
0.2266
0.1977
0.1711
0.1469
0.1251
0.1056
0.0885
0.0735
0.06
0.4761
0.4364
0.3974
0.3594
0.3228
0.2877
0.2546
0.2236
0.1949
0.1685
0.1446
0.1230
0.1038
0.0869
0.0721
0.07
0.08
0.4721 0.4681
0.4325 004286
0.3936 0.3897
0.3557 0.3520
0.3192 0.3156
0.2843 0.2810
0.2514 0.2483
0.2206 0.2177
0.1922 0.1894
0.1660 0.1635
0.1423 0.1401
0.1210 0.1190
0.1020 0.1003
0.0853 0.0838
0.0708 0.0694
0.09
0.4641
0.4247
0.3859
0.3483
0.3121
0.2776
0.2451
0.2148
0.1867
0.1611
0.1379
0.1170
0.0985
0.0823
0.0681
Modelo Probit
DISTRIBUCIÓN NORMAL
(Área a la derecha de z)
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
0,00
0.5000
0.4602
0.4207
0.3821
0.3446
0.3085
0.2743
0.2420
0.2119
0.1841
0.1587
0.1357
0.1151
0.0968
0.0808
0.01
0.4960
0.4562
0.4168
0.3783
0.3409
0.3050
0.2709
0.2389
0.2090
0.1814
0.1562
0.1335
0.1131
0.0951
0.0793
0.02
0.4920
0.4522
0.4129
0.3745
0.3372
0.3015
0.2676
0.2358
0.2061
0.1788
0.1539
0.1314
0.1112
0.0934
0.0778
0.03
0.4880
0.4483
0.4090
0.3707
0.3336
0.2981
0.2643
0.2327
0.2033
0.1762
0.1515
0.1292
0.1093
0.0918
0.0764
0.04
0.4840
0.4443
0.4052
0.3669
0.3300
0.2946
0.2611
0.2296
0.2005
0.1736
0.1492
0.1271
0.1075
0.0901
0.0749
0.05
0.4801
0.4404
0.4013
0.3632
0.3264
0.2912
0.2578
0.2266
0.1977
0.1711
0.1469
0.1251
0.1056
0.0885
0.0735
0.06
0.4761
0.4364
0.3974
0.3594
0.3228
0.2877
0.2546
0.2236
0.1949
0.1685
0.1446
0.1230
0.1038
0.0869
0.0721
0.07
0.08
0.4721 0.4681
0.4325 004286
0.3936 0.3897
0.3557 0.3520
0.3192 0.3156
0.2843 0.2810
0.2514 0.2483
0.2206 0.2177
0.1922 0.1894
0.1660 0.1635
0.1423 0.1401
0.1210 0.1190
0.1020 0.1003
0.0853 0.0838
0.0708 0.0694
0.09
0.4641
0.4247
0.3859
0.3483
0.3121
0.2776
0.2451
0.2148
0.1867
0.1611
0.1379
0.1170
0.0985
0.0823
0.0681
Descargar

Tema 1