SEMINARIO DE INVESTIGACION
TECNICAS AVANZADAS DE INVESTIGACIÓN Y
ANÁLISIS MULTIVARIADO DE DATOS
NIVEL II AVANZADO
Titular: Agustín Salvia
MÓDULO 3 B
ANÁLISIS DE MODELOS DE REGRESION
LINEAL
Modelos de Regresión Lineal
Problemas de Causalidad
 El investigador suele tener razones teóricas o
prácticas para creer que determinada variable es
causalmente dependiente de una o más variables
distintas.
 Si hay suficientes observaciones empíricas
sobre estas variables, el análisis de regresión es
un método apropiado para describir la
estructura, fuerza y sentido exacto de esta
asociación.
Modelos de Regresión Lineal
Problemas de Causalidad
 El modelo permite diferenciar variables
explicativas o independientes (métricas o
variables dummy) y
variables a explicar o
dependientes (métricas).
 La distinción entre variables dependientes e
independientes debe efectuarse con arreglo a
fundamentos teóricos, por conocimiento o
experiencia y estudios anteriores.
Método de tipo: Y : f (X) en donde se busca
determinar una relación del tipo y = bx + U
Modelos de Regresión Lineal
Función Lineal de Regresión
Una pregunta importante que se plantea en el
análisis de regresión es la siguiente: ¿Qué
porcentaje de la variación total en Y se debe a la
variación en X? ¿Cuánto de la variación de Y no
explica X?
El estadístico que mide esta proporción o
porcentaje
se
denomina
coeficiente
de
determinación (R2). Si por ejemplo, al hacer los
cálculos respectivos se obtiene un valor de 0.846.
Esto significa que el modelo explica el 84.6 % de la
variación de la variable dependiente.
Modelos de Regresión Lineal
Función Lineal de Regresión
El objetivo de la técnica de regresión es establecer la
relación estadística que existe entre la variable dependiente
(Y) y una o más variables independientes (X1, X2,… Xn). Para
poder realizar esto, se postula una relación funcional entre
las variables. Debido a su simplicidad analítica, la forma que
más se utiliza en la práctica es la relación lineal:
ŷ= b0 + b1x1 +… bnxn
donde los coeficientes b0 y b1, … bn, son los parámetros que
definen la variación promedio de y, para cada valor de x.
Estimada esta función teórica a partir de los datos, cabe
preguntarse qué tan bien se ajusta a la distribución real.
Modelos de Regresión Lineal
Función Lineal de Regresión
- El parámetro b0, conocido como la “ordenada en el
origen,” nos indica cuánto es Y cuando X = 0. El
parámetro b1, conocido como la “pendiente,” nos
indica cuánto aumenta Y por cada aumento en X.
- La técnica consiste en obtener estimaciones de estos
coeficientes a partir de una muestra de observaciones
sobre las variables Y y X.
- En el análisis de regresión, estas estimaciones se
obtienen por medio del método de mínimos
cuadrados. Logradas estas se evalúa la bondad de
ajuste y significancia estadística de los resultados.
Modelos de Regresión Lineal
Respuestas Metodológicas
 Estima la fuerza o bondad explicativa del modelo
teórico no importando la fuerza, sentido u calidad de
las variables independientes introducidas en el
modelo.
 Predice el valor medio que puede asumir la variable
Y dado un valor de X (regresión a la media) para un
intervalo de confianza.
 Estima el sentido y la fuerza del efecto de cada una
de las variables intervinientes sobre la variable
dependiente (control sobre los demás efectos).
Modelos de Regresión Lineal
Requisitos Estadísticos del Método
 Se supone que la forma funcional que relaciona la
variable DEPENDIENTE con la/las variables
explicativas es de tipo LINEAL.
 Las variables explicativas deben ser entre sí
INDEPENDIENTES, la varianza de los errores
constante, con distribución normal y los errores no
deben estar correlacionados.
 La CONSTANTE (b0) no sólo expresa el valor
estimado de y en la ordenada al origen, sino
también el conjunto de los errores no lineales y
desconocidos del modelo.
Modelos de Regresión Lineal
Supuestos del Método de Regresión
 La variable aleatoria є (error) es estadísticamente
independiente de los valores de X y tiene
distribución normal (supuestos 1 y 2).
 La variable aleatoria є (error) tiene una media igual
a cero (supuesto 3)
 Cualquier
par
de
errores,
єi
y
єj son
estadísticamente independientes entre sí, es decir
que su covarianza es igual a 0 (supuesto 4)
 Las variables aleatorias єj tiene una varianza finita
σ2 que es constante para todos los valores de xj .
(Supuesto 5 o de homocedasticidad)
Modelos de Regresión Lineal
Salidas Estadísticas del Método
 Se evalúa la bondad de ajuste del modelo teórico a
a través del coeficiente de determinación R2 (% de
la variación de X que explica el modelo).
 La capacidad explicativa del modelo también se
evalúa a partir del ANOVA, cuyo resultado es
sometido al estadístico de prueba F de Fisher
 Mide la fuerza, sentido y significancia estadística
de las variables del modelo sobre la variable
dependiente a través de coeficiente de regresión
(B),
el
coeficiente
de
regresión
parcial
estandarizado (BETA) y la prueba t de Student que
considera el error estándar del coeficiente b.
Ingreso horario de la ocupación ppal
Modelos de Regresión Lineal
ANÁLISIS DE UN EJEMPLO
80
El ingreso horario
de los ocupados
(entre 25 y 45
años) no se ve
afectados por el
sexo sino que
depende de la
cantidad de años
de instrucción
60
40
20
Sexo
Mujer
0
Varón
0
Años de estudio (aprox.)
10
20
Modelos de Regresión Lineal
ANÁLISIS DE UN EJEMPLO
 BONDAD DE AJUSTE DEL MODELO (R2)
Variables Entered/Removedb
Model
1
2
Variables
Removed
Variables Entered
Sexo (dummy: 0=Varón) a
Años de estudio (aprox.) a
Method
Enter
Enter
,
,
a. All req uested variables entered.
b. Dependent Variable: Ingreso horario de la ocupación ppal
Model Summary
Model
1
2
R
a
,014
,359b
R Sq uare
,000
,129
Adjusted
R Sq uare
,000
,129
Std. Error
of the
Estimate
3,3032
3,0832
a. Predictors: (Constant), Sexo (dummy: 0=Varón)
b. Predictors: (Constant), Sexo (dummy: 0=Varón),
Años de estudio (aprox.)
Modelos de Regresión Lineal
ANÁLISIS DE UN EJEMPLO
 ANÁLISIS DE VARIANZA DE LOS MODELOS
ANOVAc
Model
1
2
Reg ression
Residual
Total
Reg ression
Residual
Total
Sum of
Squares
22,486
112779,9
112802,4
14557,248
98245,112
112802,4
df
1
10336
10337
2
10335
10337
Mean
Square
22,486
10,911
7278,624
9,506
F
2,061
Sig .
,151a
765,683
,000b
a. Predictors: (Constant), Sexo (dummy: 0=Varón)
b. Predictors: (Constant), Sexo (dummy: 0=Varón), Años de estudio (aprox.)
c. Dependent Variable: Ingreso horario de la ocupación ppal
Modelos de Regresión Lineal
ANÁLISIS DE UN EJEMPLO
 COEFICIENTES B Y PRUEBAS T DE SIGNIFICANCIA
Coefficientsa
Model
1
2
(Constant)
Sexo (dummy: 0=Varón)
(Constant)
Sexo (dummy: 0=Varón)
Años de estudio (aprox.)
Unstandardized
Coefficients
B
Std. Error
3,476
,043
-,0941
,066
,271
,091
-,426
,062
,306
,008
a. Dependent Variable: Ingreso horario de la ocupación ppal
Standardi
zed
Coefficien
ts
Beta
-,014
-,064
,362
t
80,455
-1,436
2,964
-6,898
39,102
Sig .
,000
,151
,003
,000
,000
Modelos de Regresión Lineal
Control de Supuestos
 MULTICOLINEALIDAD: a través de matrices de correlación
simple entre las variables independientes. Solución:
Seleccionar variables independiente con baja correlación
entre sí y/o transformar en variables dummy no colineales.
 NORMALIDAD DE LOS RESIDUOS: a través de un gráfico de
de distribución de los residuos. Solución: eliminación de datos
outliers.
 HETEROSCEDASTICIDAD: a través de gráficos de residuos є
para cada valor de ŷ. Solución: Eliminación de casos outliers,
tranformación de las variables independientes y/o
estandarización de la variable dependiente Y.
 AUTOCORRELACIÓN DE ERRORES: a través de la prueba
Durbin-Watson / el valor 2 indica no autocorrelación.
Solución: Corrección de observaciones o eliminación de datos.
Modelos de Regresión Lineal
ANÁLISIS DE UN EJEMPLO
 CORRELACIÓN SIMPLE
Correlations
Ingreso horario de la
ocupación ppal
Sexo (dummy: 0=Varón)
Años de estudio (aprox.)
Pearson Correlation
Sig . (2-tailed)
N
Pearson Correlation
Sig . (2-tailed)
N
Pearson Correlation
Sig . (2-tailed)
N
Ingreso
horario de
la
Sexo
ocupación
(dummy:
ppal
0=Varón)
1,000
-,014
,
,149
10339
10339
-,014
1,000
,149
,
10339
10339
,354**
,137**
,000
,000
10338
10338
**. Correlation is sig nificant at the 0.01 level (2-tailed).
Años de
estudio
(aprox.)
,354**
,000
10338
,137**
,000
10338
1,000
,
10338
Modelos de Regresión Lineal
ANÁLISIS DE UN EJEMPLO
 GRAFICAS DE DISPERSIÓN DE RESIDUOS
Histogram
Dep. Var.: Ingreso horario de la ocupación ppal
7000
6000
5000
4000
Frequency
3000
2000
Std. Dev = 1,00
1000
Mean = 0,0
N = 10338,00
0
,0
22
,0
20
,0
18
,0
16
,0
14
,0
12
,0
10
0
8,
0
6,
0
4,
0
2,
0
0,
,0
-2
Regression Standardized Residual
Modelos de Regresión Lineal
ANÁLISIS DE UN EJEMPLO
 PRUEBAS DE HETEROSCEDASTICIDAD
Scatterplot
Normal P-P Plot of Regression Standardized Res.
Dependent Variable: Ingreso horario de la ocupación ppal
Dep. Var.: Ingreso horario de la ocupación ppal
1,00
20
,75
Expected Cum Prob
30
10
0
-10
-4
-3
-2
-1
0
Regression Standardized Predicted Value
1
,50
,25
0,00
2
3
0,00
,25
,50
Observ ed Cum Prob
,75
1,00
Modelos de Regresión Lineal
ANÁLISIS DE UN EJEMPLO
 DURBIN WATSON: EVALUACIÓN DE AUTOCORRELACIÓN
Model Summaryb
Model
1
R
,359a
R Square
,129
Adjusted
R Square
,129
Std. Error
of the
Estimate
3,0832
Durbin-W
atson
1,707
a. Predictors: (Constant), Sexo (dummy: 0=Varón), Años de estudio
(aprox.)
b. Dependent Variable: Ing reso horario de la ocupación ppal
Modelos de Regresión Lineal
¿QUÉ HACER FRENTE A LOS SESGOS
DE ESTIMACIÓN?
 Eliminar los residuos OUTLIERS que afectan la
distribución.
 Recodificación de las variables independientes
y/o transformación LOGÍSTICA de la variable
dependiente.
 Estratificación del análisis a partir de usar un
factor independiente como CRITERIO PARA
DIVIDIR a la población en grupos comparables
(p.e. población con ingresos ><.
Modelos de Regresión No Lineal
Ajustes Estadísticos del Método
¿Cómo ajustar modelos de regresión lineal cuando la
función no es lineal?
La regresión lineal no siempre da buenos
resultados, porque a veces la relación entre Y y X
no es lineal sino que exhibe algún grado de
curvatura. La estimación directa de los parámetros
de funciones no-lineales es un proceso complicado.
No obstante, a veces se pueden aplicar las técnicas
de regresión lineal por medio de transformaciones
de las variables originales.
Modelos de Regresión No Lineal
Ajustes Estadísticos del Método
Una función no-lineal que tiene
aplicaciones es la función exponencial:
muchas
Y = Xb
Si aplicamos logaritmos, esta función también
puede ser expresada como: log(Y) = b.log(X). En
lugar de calcular la regresión de Y contra X,
calculamos la regresión del logaritmo de Y contra
el logaritmo de X. Este modelo es interesante,
porque el exponente b en una función exponencial
que mide la elasticidad de Y respecto de X.
Modelos de Regresión Lineal
Distribución F de Fisher-Snedecor
- Nunca adopta valores menores
de 0 y es asimétrica positiva. En
el modelo de regresión mide la
relación entre el total de la
varianza
de
la
variable
dependiente y la parte explicada
de dicha varianza.
- Es una familia de curvas, en
función de los llamados “grados
de libertad” del numerador y del
denominador.
Se
puede
demostrar que la distribución F
equivale a una razón entre dos
chi-cuadrados (de ahí que se
hable en el caso de F de grados
de libertad en el numerador y en
el denominador)
Modelos de Regresión Lineal
Distribución t de Student
Es
simétrica
y
unimodal, con media en
0. Es una familia de
curvas, en función de
los llamados “grados de
libertad”. Es decir, hay
una distribución t de
Student con 1 gl, una
distribución
t
de
Student con 2 gl, etc.
-A
medida
que
aumentan los grados de
libertad, la distribución
tiende más y más a una
distribución
normal
estandarizada.
Descargar

ANÁLISIS DE MODELOS DE REGRESION LINEAL