Regresión Lineal
Verificación de Supuestos
Análisis de residuales
Modelos de la regresión de p
variables
Yi = β0 + β1xi1 + β2xi2 + … + βpxip+ ei
β0
β 1 β p
ei
- Intercepto
- Coeficientes de pendiente parciales
de la regresión
- Término residual asociado con Ia ‘i’
observación
Supuestos del modelo de la
regresión
Normalidad
Linealidad
Homoscedasticidad
La no multicolinealidad o tolerancia entre
las variables independientes
Representación del modelo en
forma compacta
Y1 = b0 + b1X11 + e1
Y2 = b0 + b1X21 + e2
...............................
Yn = b0 + b1Xn1 + en
y =
Xβ + ε
(forma matricial
compacta)
Modelo de la regresión simple
(en términos de estimadores)
Y = b0 + b1X1 + e
Observación
Parte fija
(determinista)
Parte aleatoria
(error)
Normalidad
En principio, cabe pensar que los datos
tienen una distribución normal. Es posible
verificar este supuesto, construyendo
histogramas
y
comprobando
la
distribución de los datos. A veces, en los
histogramas se incluye una línea que
representa la forma de la distribución con
la que es posible comprobar si la
distribución de los datos de desvía de
esta línea.
En otras palabras…
Los valores de la variable dependiente
son normalmente distribuidos para cada
posible combinación de los niveles de las
variables X.
Distribución normal de la
variable edad.
Linealidad
Se asume una relación lineal recta entre las
variables independientes y la dependiente.
En la práctica, este supuesto no suele
verificarse, dado que los procedimientos de
regresión múltiple no suelen ser gravemente
afectados por leves desviaciones de este
supuesto. Si la curvatura de la relación es
evidente, se pueden
transformar las
variables o recurrir de forma explícita a
componentes no lineales.
sigue…
En otras palabras, la linealidad implica
que las medias de las distribuciones de la
variable dependiente deben situarse en
una línea recta para cada variable
independiente
y
que,
para
cada
combinación de valores de las variables
independientes, la distribución de la
variable dependiente es normal con
variancia constante.
Definición de modelo lineal
Los modelos en que todos los parámetros
(b0,b1,…,bp) tienen exponentes de uno se
denominan modelos lineales.
Los modelos cuyos los parámetros
(b0,b1,…,bp) tienen de exponentes otros
valores distintos de la unidad se
denominan modelos no-lineales.
Homoscedasticidad
Las variancias de los valores de la
variable dependiente (datos del estudio),
para cada posible combinación de niveles
de la variable X, son iguales; es decir, la
variancia de los residuales es constante.
Los supuestos de normalidad, linealidad y
homoscedasticidad se pueden verificar
mediante el gráfico de dispersión. En este
gráfico, los valores predichos de Y (Ŷ) se
trasladan al eje X y los residuales (Y-Ŷ) al
eje Y.
Multicolinealidad
Multicolinealidad implica que las variables
independientes están correlacionadas.
Supóngase que la altura de una persona
tiene dos predictores: peso en libras y
peso en kilos. Estos dos predictores son
redundantes, ya que el peso es único
independientemente de si se mide con
libras o kilos.
..//..
Cuando esto ocurre, significa que al
menos una de las variables predictoras es
totalmente redundante con otras variables
del modelo. El indicador estadístico de
este fenómeno es conocido por tolerancia.
Regresión múltiple
Modelos de la
Regresión múltiple
No Lineal
Lineal
Lineal
Polinómica.
V. Dummy
Raíz
Cuadrada
Interac.
Loglineal
Recíproca
Exponencial
SUPUESTOS EN LA REGRESIÓN MÚLTIPLE
NORMALIDAD
El perfil de la distribución de los datos se corresponde con una distribución normal. Si la variación
respecto de la distribución normal es amplia, los tests estadísticos resultantes no son válidos,
dado que se requiere la normalidad para el uso de los estadísticos de la t y de la F.
La normalidad univariante ayuda a obtener normalidad multivariante, pero no la garantiza. La
normalidad multivariante implica que las variables individuales son normales.
¿cómo evaluarla?
1. Gráfico de probabilidad normal de los residuos
2. Test de Kolmogorov-Smirnov sobre los residuos estandarizados
LINEALIDAD
Supuesto implícito en todas las técnicas multivariantes basadas en medidas de correlación.
Resulta necesario identificar cualquier desplazamiento de la linealidad que pueda impactar la
correlación. ¿cómo evaluarla? Examen visual de los residuos y Gráfico de regresión parcial
HOMOSCEDASTICIDAD
Varianza constante del término de error. Se refiere al supuesto de que las variables dependientes
exhiban iguales niveles de varianza a lo largo del rango de los valores de las variables
independientes. ¿cómo evaluarla?
1. Examen visual de los residuos
2. Test de Levene
ANALISIS GRAFICO DE LOS RESIDUALES
No linealidad
No Correlación
Heterocedasticidad
0
Dependencia de evento
0
Heterocedasticidad
Dependencia temporal
Preparado por León Darío Bello P.
EVALUACIÓN DE LA MULTICOLINEALIDAD
Situación ideal: Tener una cantidad de variables independientes altamente
correlacionadas con la variable dependiente, pero con poca correlación
entre sí
Multicolinealidad: correlación entre tres o más variables independientes
Efecto
La multicolinealidad reduce el poder predictivo de cualquier variable
independiente individual, en la medida en que está asociado con las otras
variables independientes
A mayor colinealidad, la varianza única explicada por cada variable
independiente se reduce y el porcentaje de predicción compartida aumenta
¿Cómo detectar la existencia de multicolinealidad?
1. Examen de la matriz de correlación de las variables independientes (altas correlaciones
indican elevada colinealidad)
2. Estadísticos de colinealidad: valor de tolerancia (TOL) y factor de inflación de la varianza
(FIV) (valores de TOL próximos a 0 y elevados valores de FIV, superiores a 4, denotan
multicolinealidad)
IDENTIFICACION DE LA
MULTICOLINEALIDA
•Matriz de correlación
•Valor de la tolerancia
•Factor de Inflación de la
varianza (VIF)
•Indice de condición (30 o
más).
Miden el grado en el
que cada variable Xi
se explica por otras
variables
independientes.
Es
la
cantidad
de
variabilidad de las Xi
seleccionadas
no
explicadas por el resto de
las Xi. Tolerancia reducida,
elevada
colinealidad
(Valores cercanos a cero).
Preparado por León Darío Bello P.
REMEDIOS PARA LA
MULTICOLINEALIDAD
1. Omitir una o varias Xi correlacionadas e identificar otras
variables independientes. (Error de especificación)
2. Utilizar el modelo sólo para predecir. (No interpretar
coeficientes).
3. Utilizar las correlaciones simples entre Y vs Xi para entender
la relación de cada variable X con Y.
4. Métodos más sofisticados (Regresión Bayesiana,
Componentes principales)
Columna 1
Columna 2
Columna 3
Columna 1 Columna 2 Columna 3
1
0.89079913
1
0.81364675 0.62506587
1
Columna 1 Columna 2 Columna 3
VALIDACION DE RESULTADOS
Preparado por León Darío Bello P.
Variables Dummy
Son aquellas que por ser cualitativas requieren una codificación
especial, también son llamadas: Artificiales o internas o
indicadoras. Si se tienen las siguientes opciones: Nunca fumó,
Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios,
Actualmente fuma 10 o más cigarrillos diarios, se tienen 4
posibles respuestas por lo que construiremos 3 variables
internas dicotómicas (valores 0,1), existiendo diferentes
posibilidades de codificación, que conducen a diferentes
interpretaciones, y siendo la más habitual la siguiente:
I1
I2
I3
Nunca fumó
0
0
0
Ex- fumador
1
0
0
Menos de 10 cigarrillos diarios
0
1
0
10 o más cigarrillos diarios
0
0
1
Preparado por León Darío Bello P.
Descargar

analisis de residuales