Módulo 5
Análisis de Regresión
y
Series de Tiempo
MÓDULO
ANÁLISIS DE
REGRESIÓN Y SERIES
DE TIEMPO
MODELO LINEAL
GENERALIZADO
SERIES DE TIEMPO
INTRODUCCIÓN
Variable de Interés
Variable Explicativa
Ventas
Tiempo de promoción en
T.V.
Accidentes
Medidas preventivas
implementadas.
Accidentes en carretera
Velocidad, longitud y
condiciones de la carretera.
Personas que desarrollan
una enfermedad
Edad, sexo, ocupación y
hábitos.
Tiempo de vida de una
persona
Edad, sexo, ocupación y
hábitos.
EJEMPLO
En cierta compañía, la prima de un seguro
temporal con un plazo de 5 años y una
suma asegurada de $300,000 en mujeres
con edades comprendidas entre 50 y 70
años cumplidos, es la siguiente:
EJEMPLO
¿Qué efecto tiene la
edad en el monto de
la prima que se debe
pagar?
Edad
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
Prima
1,146
1,254
1,392
1,539
1,707
1,896
2,073
2,262
2,454
2,622
2,793
2,997
3,192
3,468
3,834
4,245
4,755
5,325
5,916
6,543
7,197
* Prima anual total
Fuente: AMIS
EJEMPLO
Monto de la prima por edad
8,000
7,000
Prima
6,000
5,000
4,000
3,000
2,000
1,000
0
50
55
60
Edad
Fuente : AMIS
65
70
EJEMPLO
Monto de la prima por edad
8,000
Prima = 496.35 + 277.08* Años transcurridos a partir de 50
7,000
Prima
6,000
5,000
4,000
3,000
2,000
1,000
0
50
55
60
65
70
Edad
Por cada año de edad que una mujer supere los 50, el
costo de la prima aumentará en $277.
EJEMPLO
Edad
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
Prima
1,146
1,254
1,392
1,539
1,707
1,896
2,073
2,262
2,454
2,622
2,793
2,997
3,192
3,468
3,834
4,245
4,755
5,325
5,916
6,543
7,197
Estimación Diferencia
496
650
773
481
1,051
341
1,328
211
1,605
102
1,882
14
2,159
-86
2,436
-174
2,713
-259
2,990
-368
3,267
-474
3,544
-547
3,821
-629
4,098
-630
4,375
-541
4,653
-408
4,930
-175
5,207
118
5,484
432
5,761
782
6,038
1,159
MODELO
GENERAL
LINEAL
MODELO LINEAL
GENERAL
Variable dependiente
Parte
aleatoria
Parte
determinística
• La parte funcional es conocida
pero contiene parámetros
desconocidos
• Es una función lineal de
parámetros desconocidos
• Es una variable aleatoria no
observable
MODELO ESTADÍSTICO
LINEAL SIMPLE
Y = β0 + β1X + ε
Observación
Parte fija
Parte aleatoria
(determinista)
(error)
MODELO ESTADÍSTICO
LINEAL SIMPLE
y
Yi = β0 – ß1 xi + ei
Diferencia entre observado y estimado
x
MODELO ESTADÍSTICO
LINEAL SIMPLE
y
¿Cuántas líneas se pueden trazar?
x
MODELO ESTADÍSTICO
LINEAL SIMPLE
Características del Modelo Lineal:
• Sean Y una variable respuesta o dependiente,
• x una variable explicativa o independiente,
ambas variables observables.
• β0 y β1 dos parámetros desconocidos donde β0
es el punto donde la recta intercepta al eje de
las y β1es la pendiente de la recta.
• ε el error es una variable aleatoria.
MÍNIMOS CUADRADOS
Para determinar los valores estimados de β0 y β1
utilizamos el método de mínimos cuadrados o
suma de los cuadrados de los errores.
Λ
β1 =
Λ
(n ∑xiyi - ∑xi ∑yi )
n ∑xi2 – (∑xi)2
Λ
β0 = y - β1 x
Ejemplos
Un hotel en la periferia obtiene su ingreso bruto de la
renta de sus instalaciones y de su restaurante. Los
propietarios tienen interés en la relación entre el
número de habitaciones ocupadas por noche y el
ingreso por día en el restaurante. En la siguiente tabla
se presenta una muestra de 25 días (de lunes a jueves)
del año pasado que indica el ingreso del restaurante y
el número de habitaciones ocupadas.
Ejemplos
Día
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Ingreso
1,452
1,361
1,426
1,470
1,456
1,430
1,354
1,442
1,394
1,459
1,399
1,458
1,537
1,425
1,445
1,439
1,348
1,450
1,431
1,446
1,485
1,405
1,461
1,490
1,426
Habitaciones
Ocupadas
23
47
21
39
37
29
23
44
45
16
30
42
54
27
34
15
19
38
44
47
43
38
51
61
39
Ejemplos
¿Considera que el ingreso del
restaurante se incrementa conforme
aumenta el número de habitaciones
ocupadas? Justifique su respuesta.
Ejemplos
1,550
Ingreso
1,500
1,450
1,400
1,350
1,300
0
10
20
30
40
Habitaciones
50
60
70
Ejemplos
Habitaciones
Ocupadas
23
47
21
39
37
29
23
44
45
16
30
42
54
27
34
15
19
38
44
47
43
38
51
61
39
906
Ingreso
1,452
1,361
1,426
1,470
1,456
1,430
1,354
1,442
1,394
1,459
1,399
1,458
1,537
1,425
1,445
1,439
1,348
1,450
1,431
1,446
1,485
1,405
1,461
1,490
1,426
35,889
xy
33,396
63,967
29,946
57,330
53,872
41,470
31,142
63,448
62,730
23,344
41,970
61,236
82,998
38,475
49,130
21,585
25,612
55,100
62,964
67,962
63,855
53,390
74,511
90,890
55,614
1,305,937
x2
529
2,209
441
1,521
1,369
841
529
1,936
2,025
256
900
1,764
2,916
729
1,156
225
361
1,444
1,936
2,209
1,849
1,444
2,601
3,721
1,521
36,432
Ejemplos
Ingreso = 1,381.99 + 1.48 * Habitaciones
Práctica
En el archivo que se les proporcionó contiene registros
de algunos indicadores a nivel nacional, realice lo
siguiente.
1. Determine que efecto tiene en la confianza del
consumidor el precio del dólar, la inflación y el
desempleo urbano.
2. Determine que variables tienen impacto en la cartera
vencida de la banca comercial.
3. Exponer tus resultados al grupo.
Indicadores
R2 : Coeficiente de determinación
Esta medida nos indica la proporción de
variación que explica el modelo lineal
R 
2
var iación
exp licada
var iación
total
Propiedades de R2
• R2 toma valores entre 0 y 1
• Conforme R2 se vaya aproximando a
1, significa que el modelo lineal explica
mejor la situación.
• Conforme R2 se vaya aproximando a 0
significa que el modelo lineal no es
adecuado para explicar la información.
Observación
Un coeficiente de determinación diferente de
cero no significa que haya relación lineal entre
las variables. Por ejemplo, R2 = 0.5 sólo nos dice
que el 50% de la varianza de las observaciones
queda explicado por el modelo lineal.
Fórmula
Ejemplo
Calcular el coeficiente de determinación R2 .
Ejemplo
Indicadores
Aplicando la fórmula:
El modelo lineal explica el 56.2% de la información
Correlación. r
Dos variables X e Y tienen una relación positiva si a
medida que se incrementa los valores de una de las
variables se incrementa los valores de la otra. De
manera análoga, se dice que X e Y tienen una relación
negativa si a medida que decrecen los valores de una
de las variables se incrementa los valores de la otra.
Indicadores
El coeficiente de correlación se caracteriza por tomar valores
entre -1 y 1, de manera que:
• r = 1 o r = -1 cuando haya una asociación lineal exacta entre
las variables (en el primer caso positiva y en el segundo,
negativa).
Interpretación del coeficiente de correlación
32
Indicadores
Indicadores
Ejemplo
Ejemplo
El resultado es r = 0.7495
Relación entre r y R2
2
R
=
2
r
En nuestro ejemplo:
r*r 0.561704893
R^2 0.561704893
Práctica
Enriquezca el análisis de las series proporcionadas considerando
el coeficiente de correlación y de determinación.
En el caso del índice de confianza del consumidor, ¿Qué variables
explicativas se encuentran menos correlacionadas?
En el caso de la cartera vencida ¿ Qué variables explicativas tienen
mayor correlación?
Exponga sus resultados al grupo
Significancia
Si en el modelo de regresión lineal la pendiente es
cero, entonces la variable X no tiene ningún efecto
sobre la variable Y. En este caso diremos que X no es
una variable explicativa del modelo.
En este apartado haremos un contraste de hipótesis
sobre la pendiente de la recta de regresión para
saber si podemos afirmar o no que éste es igual a
cero.
Significancia
Se establece las hipótesis nula y alternativa y se
contrasta:
• Hipótesis nula: H0: b1 = 0, es decir, la variable X no es
explicativa.
• Hipótesis alternativa: H1: b1 <> 0, es decir, la variable X
es explicativa.
No rechazar la hipótesis nula significa que no se puede considerar el parámetro
b1 significativamente diferente de cero. Es decir, la variable X no tiene influencia
sobre la variable Y y, por tanto, no existe una relación lineal entre las dos variables.
Significancia
El estimador de la pendiente tiene las siguientes características
Λ
E(β1) = β1
Varianza del estimador
Valor esperado
Λ
Estadístico de prueba
Λ
Z = β1 - β1
β1 - β1
= σ/√SC
σ β1
x
Λ
Λ
Muestral
β1 - β1
t =
=
σ/√SCx
Λ
β1 - β1
√SCx
s
σ2 β 1 = σ2
SCx
Λ
Significancia
Resultado de la
prueba
Si el valor de la prueba
cae en la zona de rechazo
se rechaza Ho, es decir β1
es significativa por lo que
x si es una variable
explicativa.
2.5%
Zona de rechazo
Ejercicios
Analizar la información
Ejercicios
Ejercicios
A continuación se proporciona información de la tasa de mortalidad por 100,000
habitantes y la temperatura media anual de 13 ciudades. Analice la información
Cálculo en Excel
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
0.47386479
0.22454784
0.21671499
7.70056653
101
ANÁLISIS DE VARIANZA
Regresión
Residuos
Total
Intercepción
Variable X 1
Promedio
Grados de
Suma de
de los
Valor crítico
libertad
cuadrados cuadrados
F
de F
1 1699.94327 1699.94327 28.66745068 5.5792E-07
99 5870.57376 59.2987248
100 7570.51703
Superior
Inferior
Superior
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
95%
95.0%
95.0%
139.171693 7.41880257 18.7593203 2.30169E-34 124.45118 153.892207 124.45118 153.892207
-0.34597021 0.06461661 -5.35419935 5.57918E-07 -0.47418358 -0.21775684 -0.47418358 -0.21775684
Variables consideradas: y =ICC ; x = INPC
Usos del modelo
• Una vez que se está conforme con el
modelo, se puede emplear para predecir
los valores de y.
• El modelo permite realizar predicciones de
tipo Puntual y por Intervalos.
Predicción Puntual
Se refiere a realizar una estimación de un valor
específico de y dado un dato de x
• Ejemplo
– El precio de venta de un vehículo con respecto a su
kilometraje es descrito por el siguiente modelo:
yˆ  17067  . 0623 x
Donde y es el precio de venta y x el kilometraje
Predicción Puntual
– El precio de venta de un vehículo con 40,000 Kms.
es:
yˆ  17067  . 0623 x
yˆ  17067  . 0623 ( 40 , 000 )
yˆ  14 ,575
Se estima que un vehículo con 40.000 kms se
venderá en $14,575.
49
Estimación por Intervalos
• Se pueden usar dos intervalos para estimar en que rango
caerá el valor real.
– Intervalo de Predicción: calcula un rango de valores
donde es posible que se encuentre y para un valor dado
de x
yn
Rango para y,
Dominio dado
un valor
específico de
x
.
.
yˆ  t / 2
Sˆ e 1 
1
n

(xg  x )
2
 ( xi  x )
2
y2
y1
.
x
50
Estimación por
Intervalos
– Intervalo de Confianza: estima el valor esperado de
y dado un valor de x (linea recta)
yˆ  t  / 2 Sˆ e
1

n
(xg  x )
2
 ( xi  x )
2
Valor
esperado de
y, dado un
valor
específico de
x
yn
y2
y1
x
51
Límites
• De las ecuaciones se observa que las bandas hiperbólicas
de predicción siempre están por fuera de las de confianza.
Inte rv alos de Confianza y Pre dicción
7
6
5
4
Lim Inf
3
Lim Sup.
2
Yest.
1
Lim Inf
Predicción
Lim Sup.
0
-1
Confianza
1
2
3
4
5
-2
-3
52
Ejemplo
– Obtener una estimación por intervalos para el
precio de ventas de un vehículo con 40,000
kms. Con una confiabilidad del 95%:
Caso I, para un vehículo en específico
Caso II para el precio promedio del vehículo
53
Caso I
• Solución
– Un Intervalo de Predicción da el precio estimado
para un vehículo de 40,000 kms
y
ˆ  t
2
sˆ
1
1
n

(xg  x )
2
 ( xi  x )
2
t0,025,98
Aproximadamente
[17 . 067  0 . 0623 ( 40000 )]  1,984 ( 303 ,1) 1 
1
100

( 40 . 000  36 . 009 )
2
 14 . 575  605
4 . 309 . 340 . 000
54
Caso II
– Un Intervalo de Confianza da la estimación del
precio promedio de un vehículo con 40.000 Kms.
yˆ  t 
2
sˆ
1
n

(xg  x )
2
 ( xi  x )
[17 . 067  0 , 0623 ( 40000 )]  1, 984 ( 303 ,1)
1
100

2
( 40 . 000  36 . 009 )
2
4 . 309 . 340 . 000
 14 , 575  70
LI  14 , 505
LS  14 , 645
55
Residuos
Análisis de
Residuos
• Este análisis se lleva a cabo con la intención
de corroborar lo siguiente:
– Que el error se distribuye normalmente.
– Que la varianza del error es constante para
todos los valores de x.
– Los errores son independentes entre sí.
57
Residuos
Residuos
Residuos
No se aprecia
independencia ya
que se visualiza un
patrón.
Residuos
Patrones característicos que el modelo no cumple
con los supuestos, es decir la varianza no es
constante.
Residuos
El supuesto de normalidad se puede verificar con un
gráfico normal.
Outlier
Valores Alejados (Outliers)
• Un “outlier” es una observación (rara o excepcional) que
normalmente es pequeña o grande.
• Cuando se observa un “outlier” se necesita investigar
distintas posibilidades:
– Hubo un error al registrar el valor.
– El punto no pertenece a la muestra.
– La observación es válida.
• Los “Outliers” se identifican en el diagrama de dispersión.
• Se puede sospechar que una observación es un outlier si
su |residuo estandarizado| > 2
62
Outlier
Un outlier
Una observación influyente
+ +
+
+ +
+ +
+ +
+++++++++++
… pero, algunos outliers pueden ser
muy influyentes
+
+
+
+
+
+
+
El outlier causa un desplamiento en la línea de regresión
Práctica
Un banco a lo largo del tiempo ha dado a sus créditos
un cierto porcentaje de descuento, conforme a la
normativa se estimó que el que se debió haber dado es
diferente, por lo que la autoridad desea homologarlos.
Determine una regla utilizando análisis de regresión.
Descargar

Diapositiva 1