Regresión lineal
Definición del problema


Evaluar la capacidad explicativa de un conjunto de
características socio demográficas que inciden en los
ingresos laborales de los jóvenes.
Evaluar el peso de factores tales como la edad, el
sexo, el nivel de instrucción y la categoría
ocupacional.
Y (Nivel de Ingresos) =
b0 + b1.X1 (nivel educativo)+ b2.X2 (categoría
ocupacional) + b3.x3 (sexo) + b4.x4 (edad) + u
cuadro resumen variables del modelo
variable
Categorías
tipo
tratamiento
métrica
logarítmica
ordinal
Transformación
en variables
dummy
(categoría de
comparación
secundario
completo)
variable dependiente
Nivel de ingresos (p21)
variables explicativas
categorías originales
Nivel educativo alcanzado
1 Sin Instrucción
2 Primaria completa
3 Secundaria completa
4 Terciario Univ. Comp.
Dummy 1 sin instrucción
1- sin instrucción
0-resto
Dummy 2 Primaria completa
Dummy 3 Universitario completo
1- primaria completa
0-resto
1- universitario completa
0-resto
categórica
categórica
categórica
categorías originales
1-patrón o empleador
categoría ocupacional
2-trabajador por cuenta propia
categórica
3-obrero o empleado
4-trabajador familiar sin salario
Dummy_as
sexo
1- asalariado
0-resto
1- varón
0-mujer
edad
interacción entre sexo y
categoría ocupacional
categórica
categórica
métrica
1 varon asalariado
0 varon no asalariado y mujeres
categórica
Transformación
en variables
dummy
(compara
asalariados
contra el resto)
Gráficos de dispersión
Matriz de correlaciones
(supuesto de
multicolinealidad)
MULTICOLINEALIDAD
Incorporar
Interacción entre
nivel educativo y
edad
Transformación de las
variables independientes
Lista de variables y propiedades
Quiero establecer como categoría de
comparación el nivel secundario completo
para medir el efecto que produce tener
menores o mayores credenciales a estas
NIV EL_ED
NIV EL(1)
NIV EL(2)
NIV EL(3)
1 - S in Ins t ruc c ió n
1
0
0
2 - P rima ria C o mp le t a
0
1
0
3 - S e c und a ria C o mp le t a
0
0
0
4 - Univ e rs it a rio C o mp le t o y má s
0
0
1
Variable de resultado
Variable de origen
NIV EL_ED
NIV EL(1)
NIV EL(2)
NIV EL(3)
1 - S in Inst ruc c ión
1
0
0
2 - Prima ria Comple t a
0
1
0
3 - S e c unda ria Comple t a
0
0
0
4 - Univ e rsit a rio Comple t o y má s
0
0
1
NIV E L_E D
NIV E L(1)
NIV E L(2)
NIV E L(3)
1 - S in In s t ru c c ió n
1
0
0
2 - P rima ria C o mp le t a
0
1
0
3 - S e c u n d a ria C o mp le t a
0
0
0
4 - Un iv e rs it a rio C o mp le t o y má s
0
0
1
Crea variable de
interacción edad*nivel
educativo
Aplicación del modelo
trabajamos sólo con los
ocupados de entre 15 y 29
años que tienen ingresos
El método más usual es
introducir: incluye todas las
variables dependientes al
mismo tiempo
Prueba para correlación
de errores entre sí
(varía entre 0y4. 2 es
no correlación)
Pruebas correlación de
errores con la variable
Y (heterocedasticidad)
Pruebas de normalidad
de residuos
Guarda los residuos
tipificados en valores z
como variable. Puede
utilizarse como variable
filtro de casos raros
Pruebas de normalidad
de residuos
Pruebas de normalidad
de residuos
Pruebas correlación de
errores con la variable
Y (heterocedasticidad)
Ajustes del modelo
Transformación de la variable dependiente
Eliminación de casos raros
Transformar ingresos
en variable logarítmica
Nombre de la nueva variable
Logaritmo de la variable que se
asigne entre paréntesis
Eliminación de casos
raros
Descargar

Aplicación Lineal