BONDAD DE AJUSTE
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
Esta secuencia explica la medición de la bondad de ajuste en el análisis de regresión. Es
conveniente comenzar esta sección con la demostración de cuatro resultados útiles. El
primero es que la media de los residuales debe ser cero.
1
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
El residual en cada observación está determinado por la diferencia entre el valor observado
y el valor ajustado de Y para dicha observación.
2
Cuatro resultados útiles :
e 0
Yˆ  Y

X iei  0
Yˆi  b1  b 2 X i
Primero, substituye para el valor ajustado. ( Yˆ  Y )
3
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
Ahora, se hace la sumatoria de todas las observaciones
4
GOODNESS OF FIT
Cuatro resultados útiles :
e 0
Yˆ  Y

X iei  0
Dividiendo todo entre n, obtenemos la media muestral de los residuales en términos de las
medias muestrales de X y Y, así como los coeficientes de regresión.
5
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
b1  Y  b 2 X
Si substituimos b1, la expresión se reduce a cero.
6
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
A continuación, demostraremos que la media de los valores ajustados de Y es igual a la
media de los valores observados (reales).
7
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
e i  Y i  Yˆi
De nuevo, comenzamos con la definición de un residual.
8
Cuatro resultados útiles:
e 0

Yˆ  Y
X iei  0
e i  Y i  Yˆi
e
i

Y
i

 Yˆ
i
Sumatoria de todas las observaciones.
9
Cuatro resultados útiles:
e 0

Yˆ  Y
X iei  0
e i  Y i  Yˆi
e
i

Y
i

 Yˆ
i
e  Y  Yˆ
Dividir todo entre n. Los términos en la ecuación son los promedios de los residuales, de
los valores observados de Y, y de los valores ajustados de Y, respectivamente.
10
Cuatro resultados útiles:
e 0

Yˆ  Y
X iei  0
e i  Y i  Yˆi
e
e  Y  Yˆ
i

Y
i

 Yˆ
i
Yˆ  Y
Acabamos de mostrar que la media de los residuales es cero. Por lo tanto, la media de los
valores ajustados es igual a la media de los valores reales.
11
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
A continuación, demostraremos que la suma del producto de los valores de X y los
residuales es cero.
12
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
Debemos comenzar sustituyendo el residual con su expresión en términos de Y y X.
13
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
Expandimos la expresión.
14
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
La expresión es igual a cero. Una manera de demostrarlo sería substituyendo b1 y b2 y
mostrando que todos los términos se cancelan.
15
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
Una manera más sencilla es obtener las condiciones de primer orden respecto a b2, al
derivar los coeficientes de regresión. Verás que es exactamente lo que necesitas.
16
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
Finalmente, demostraremos que la suma del producto de los valores ajustados de Y y los
residuales es cero.
17
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
Comenzamos substituyendo por la expresión del valor ajustado de Y.
18
Cuatro resultados útiles:
e 0

Yˆ  Y
e
i
X iei  0
 ne
Expandimos y reordenamos la ecuación.
19
Cuatro resultados útiles:
e 0
Yˆ  Y

X iei  0
La expresión es igual a cero, dado el primero y el tercero de los resultados útiles.
20
Ahora discutiremos la bondad de ajuste. Una medida de la variación en Y es la suma de las
desviaciones cuadradas respecto de su media muestral, frecuentemente conocida como la
Suma Total de Cuadrados (Total Sum of Squares, TSS).
21
Dado que el valor real de Y, para cualquier observación, es igual a la suma del valor
ajustado y el residual, podemos descomponer la TSS en dos términos.
22
Substituimos por Yi.
23
Yˆ  Y
e 0
De los resultados útiles, la media del valor ajustado de Y es igual a la media de los valores
reales. También, la media de los residuales es cero.
24
Yˆ  Y
e 0
Por lo tanto, podemos simplificar la expresión como se muestra en la dipositiva.
25
Expandimos los términos cuadráticos del lado derecho de la ecuación.
26
Expandimos el tercer término del lado derecho de la ecuación.
27
e  0 , so
e
i
 0
Los últimos dos términos son cero, dado el primero y el cuarto de los resultados útiles.
28
TSS  ESS  RSS
Por lo tanto, hemos demostrado que la TSS, la Suma Total de Cuadrados de Y puede ser
descompuesta en la ESS, la suma de las desviaciones de los valores explicados al
cuadrado (suma de cuadrados “explicados” o ‘explained’ sum of squares), y en la RSS, la
suma de residuales al cudrado (suma de cuadrados “no explicados” o ‘unexplained’ sum of
squares).
29
TSS  ESS  RSS
Los términos explicados y no explicados van entre comillas porque la explicación puede, de
hecho, ser falsa. Y puede depender realmente de otra variable Z, y X podría estar actuando como
un proxy de Z. Sería más seguro usar la expresión aparentemente explicados en lugar de
explicados.
30
TSS  ESS  RSS
El principal criterio de bondad de ajuste, formalmente descrito como el coeficiente de
determinación pero usalmente referido como R2, está difinido como la razón entre ESS y
TSS. Así, la R2 es la proporción de la variación de Y explicada por el modelo de regresión
respecto de la variación total observada.
31
TSS  ESS  RSS
De acuerdo con este criterio, nos gustaría ajustar la línea de regresión de tal manera que la
bondad de ajuste fuera lo más alta posible,. ¿Acaso este objetivo entra en conflicto con el
criterio de minimizar los residuales cuadrados para encontrar b1 and b2?
32
TSS  ESS  RSS
Afortunadamente, no existe ningún conflicto. Para observar esto, reescribe la expresión de
R2 en términos de RSS, como se muestra.
33
TSS  ESS  RSS
Los coeficientes OLS son elegidos de tal manera que la suma del cuadrado de los
residuales se minimiza. Lo cual implica que estos mismos coeficientes maximizan la R2.
34
Otro criterio natural de bondad de ajuste es la correlación entre los valores reales y los
valores ajustados de Y. Demostraremos que esta correlación se maximiza al utilizar el
criterio de mínimos cuadrados para determinar los coeficientes de regresión.
35
Comenzaremos con el numerador y substituiremos por el valor real de Y, y su media, en el
primer factor.
36
e 0
El valor promedio de los residuales es cero (primer resultado útil). Aquí lo reordenamos
levemente.
37
e  0 , so
e
i
 0
Expandimos la expresón. Los últimos dos términos son ambos cero (cuarto y primero de
los resultados útiles.
38
e  0 , so
e
i
 0
Por lo tanto, el numerador se simplifica a la ESS, la suma de la desviaciones de los valores
ajustados al cuadrado.
39
Tenemos la misma expresión en el denominador debajo de una raíz cuadrada. Al cancelar,
nos quedamos con la raíz cuadrada en el numerador.
40
Por lo tanto, el coeficiente de correlación es la raíz cuadrada de la R2. El cual es
maximizado al utilizar el principio de mínimos cuadrados para determinar los coeficientes
de regresión.
41
Copyright Christopher Dougherty 1999–2007. This slideshow may be freely copied for
personal use.
08.04.07
Descargar

Cuatro resultados útiles