• Etapa exploratoria: gráficos de dispersión
• Análisis de correlación
En algunos casos, de acuerdo a la naturaleza de las variables y la
información disponible, puede suponerse una
entre
dos o más variables, que puede expresarse mediante una expresión
matemática.
Considerando dos variables, si denominamos a la variable que se
supone
, y a la variable que se postula
,
resulta familiar utilizar el concepto de función:
indica que pueden predecirse los valores que
tomará Y de acuerdo a los valores asignados a X. Dicho de otra manera, se
puede conocer el comportamiento de Y a través de un modelo que
relacione la variación de Y con la variación de X.
Análisis de regresión: Objetivos

un modelo funcional que describa cómo se modifica
la variable dependiente Y frente a cambios la variable
independiente X

los parámetros del modelo (constantes) a partir de una
muestra aleatoria de observaciones en Y y en X

el modelo mediante contrastes de hipótesis que pongan
a prueba la bondad de ajuste del mismo

el valor esperado de la variable dependiente Y cuando la
variable independiente X toma un valor particular
Análisis de regresión: Modelo
Ordenada al origen
Pendiente
yi   0   1 xi   i
Observación de la variable dependiente Y
bajo el i-ésimo valor de X
• β0 es la
• β1 es la
Error
 i  y i  yˆ i
i-ésimo valor de la
variable independiente X
; indica el valor de Y cuando xi=0
de la recta; indica cuánto cambia Y por cada
incremento unitario en X.
̵ β1 ˃ 0  crecimiento de Y por cada incremento unitario en X
̵ β1 ˂ 0  disminución de Y por cada incremento unitario en X
yn
β1
yi
y n 1
yi
 i = Variabilidad no explicada
Variabilidad total
Variabilidad explicada por el modelo
yy
2
y1
yˆ i
β0
0
0
x1
x2
xi
yi   0   1 xi   i
x n 1
xn
Error
 i  y i  yˆ i
Definición de variables
En un cultivo de trigo se desea cuantificar la relación que hay entre la
disponibilidad de N (cantidad de nitrógeno en el suelo en ppm) y la
cantidad de nitrógeno en la planta en ppm, relación que se supone lineal.
Biológicamente, se espera que la cantidad de N en las plantas sea
explicada, al menos parcialmente, por la cantidad de N en suelo. Es por
ello que se define como variable dependiente Y la cantidad de N en la
planta y como variable independiente X el contenido de N del suelo.
X: Nitrógeno en el suelo (ppm)
4,2
4,5
5
5,5
6,8
6,9
7
7,3
8
9
9,2
9,4
Y: Nitrógeno por planta (ppm)
1,3
1,5
1,6
1,7
1,8
1,8
1,9
2
2
2,1
2,2
2,3
Los datos corresponden a 12 parcelas, en las que se registró el contenido
de N en el suelo (X) y los valores promedio de N por planta (Y), este último
calculado como promedio sobre todas las plantas de la parcela.
Gráfico de
dispersión
(ppm), y la variable
independiente
(ppm), se graficaron los
datos obtenidos en un
diagrama de dispersión.
Nitrógeno por planta (ppm)
Una vez identificadas
la variable dependiente
2.5
2
1.5
1
0.5
0
0
2
4
6
Nitrógeno en el suelo (ppm)
8
10
Estimación de parámetros
Para todo conjunto de observaciones obtenidas sobre dos variables,
existen potencialmente una infinidad de modelos que permitirían
explicar la relación funcional entre ambas variables.
Como ya mencionamos, el análisis de regresión lineal simple permite
identificar un modelo -una ecuación de la recta en este caso- que
describe cómo varía la variable dependiente Y, frente a cambios en la
variable independiente X.
Para la construcción de dicho modelo es necesaria la estimación de
sus parámetros β0 y β1, utilizando la muestra aleatoria de datos
disponibles.
yi   0   1 xi   i
Error
Estimación de parámetros
Se denominan
a las
estimaciones de β0 y β1, denotadas b0 y b1 respectivamente.
Si no hubiese errores aleatorios, cualquier par de puntos (x , y)
podría usarse para encontrar los valores de b0 y b1 . De este modo
todas las estimaciones serían idénticas, independiente del par de
valores utilizado.
La presencia de errores hace necesaria la aplicación de un método
para la estimación, que permita combinar toda la información
disponible en la muestra. El método de estimación que aplicaremos
utiliza el término de error aleatorio presente en el modelo, y se
denomina
.
Recordemos que el error aleatorio εi se define como la distancia
del valor observado respecto a la recta, medida sobre el eje de las
ordenadas.
Considerando que la sumatoria de los errores
aleatorios asociados a los valores originales es cero,
este método utiliza la sumatoria de dichos errores
elevados al cuadrado.
n

i
 0
i1
2.5
 Error aleatorio εi : distancias de los
valores observados respecto a la
recta, medidas sobre el eje de las
ordenadas
Nitrógeno por planta (ppm)
2
1.5
n

1
 i2  mín
i1
La recta de «mejor ajuste» se define como aquella
0.5
que posibilita que la
sea lo más pequeña posible.
0
0
2
4
6
Nitrógeno en el suelo (ppm)
8
10
Estimación de parámetros
Fórmulas para el cálculo de los
coeficientes de regresión
muestral
b1=
Cov ( x , y )
Coeficientes de regresión
muestral calculados a partir
del ejemplo
2
S x
b0 = y – b1. x
b1 = 0,16
Cov ( x , y )
b1=
b0 = 0,76 S 2 x
Contrastes de hipótesis sobre los parámetros
Se presenta aquí la ecuación de la recta construida con las estimaciones
de los parámetros:
un
.
A continuación se presentan
las
hipótesis
nulas
y
alternativas, así como los
estadísticos de las pruebas T,
para cada uno de los
parámetros estimados.
2.5
Nitrógeno por planta (ppm)
Los contrastes de hipótesis,
tanto para β0 como para β1
se ponen a prueba mediante
2
1.5
1
0.5
0
0
2
4
6
Nitrógeno en el suelo (ppm)
8
10
Contrastes de hipótesis sobre los parámetros
H0: β0 = 0
T 
H1: β0 ≠ 0
H0: β1 = 0
H1: β1 ≠ 0
b0   0
 1


 n

x 
2

x
2
i



ˆ
/ n 

xi


/ n
2
b1   1
T 
ˆ

x
2
i

2

xi
2
2
Contrastes de hipótesis sobre los parámetros
Los estadísticos aquí calculados se distribuyen como una T con n-2
grados de libertad. En ambos casos, los valores obtenidos para el
estadístico T se comparan con el valor de tabla, en función de lo cual se
determina el rechazo o no de la H0.
H0: β0 = 0
H1: β0 ≠ 0
Tobs= 9,35
Ttabla= 1,81
H0: β1 = 0
H1: β1 ≠ 0 Tobs= 13,94
Ttabla= 1,81
Tobs ˃ Ttabla → Rechazo H0 → β0 ≠ 0
De acuerdo al contexto del problema, esta prueba de
hipótesis podría carecer de sentido biológico. En este
caso, el resultado podría interpretarse de la siguiente
manera: aún cuando existan concentraciones
prácticamente nulas de N en suelo, las plantas
obtendrían nitrógeno proveniente de otras fuentes.
Tobs ˃ Ttabla → Rechazo H0 → β1 ≠ 0
Esto indica que el modelo explica una parte significativa
de la variación en Y en función de las variaciones en X.
Para evaluar el valor predictivo del modelo se calcula el coeficiente de
determinación, R2. Se analizarán también los residuos obtenidos durante el
análisis con el objetivo de corroborar el cumplimiento de los supuestos del
modelo.
El resultado del análisis de regresión puede expresarse mediante una
tabla de
(Análisis de la Varianza). Se observa que la variación
en Y (SCT) puede descomponerse en la variación de los datos explicada por
la
(SCβ) más la variación no explicada o
(SCR). Si la
variación explicada es sustancialmente mayor que la variación no explicada,
el modelo propuesto será bueno para fines predictivos.
Fuente de Variación
Suma de Cuadrados
Grados de Cuadrado
Libertad
Medio
Debida a β (explicada)
SCβ
1
CMβ
Residual (NO explicada)
SCR
n-2
CMR
Total
SCT
n-1
F
CMβ
CMR
yn
yi
y n 1
i
yi
Variabilidad total
= Variabilidad no explicada
Variabilidad explicada por el modelo
yy
2
yˆ i
y1
x1
x2
xi
x n 1
Grados de
Libertad
Cuadrado
Medio
SCβ
1
CMβ
(NO explicada)
SCR
n-2
CMR
Total
SCT
n-1
Fuente de Variación Suma de Cuadrados
Debida a β
(explicada)
Residual
xn
F
CMβ
CMR
Coeficiente de determinación R2
Una medida de la capacidad predictiva del modelo es el
, que relaciona la variación explicada por el modelo
(SCβ) con la variación total (SCT). Este coeficiente se calcula entonces como
un cociente:
SCβ: suma de cuadrados de la regresión, representa

=


= 0,95
la variabilidad explicada por el modelo.
SCT: suma de cuadrados total, representa la
variabilidad total.
Este coeficiente es a su vez el estimador muestral del parámetro ρ2. El
contraste de hipótesis para evaluar la bondad de ajuste del modelo se
resuelve mediante un estadístico de distribución F, ya que se trata de un
cociente entre dos varianzas (las que a su vez tienen distribución χ2).
H0: ρ2 = 0
H1: ρ2 ˃ 0
Fobs= 194,32 Fobs ˃ Ftabla → Rechazo H0 → ρ2 ˃ 0
Ftabla= 4,84 Esto indica que una gran proporción (95%) de la
variabilidad total es explicada por el modelo.
Análisis de los residuos
Es necesario tener en cuenta que las pruebas de bondad de ajuste sólo son
válidas si se cumplen los supuestos del modelo de regresión:
• La esperanza de la distribución de los errores es cero
• La varianza de la distribución de los errores es constante
• Los errores son variables aleatorias normales e independientes
Recordemos el modelo
yi   0   1 xi   i
Estos supuestos, referidos al término de error εi , pueden resumirse de la
siguiente forma:
 i ~ N I ID ( 0 ,  2 )
Para comprobarlos es necesario estudiar los residuos obtenidos al realizar el
análisis de regresión, una vez ajustada la recta a los datos observados.
Análisis de los residuos
Los supuestos para los errores pueden evaluarse mediante interpretaciones gráficas.
Verificar la distribución normal
de los errores: Q-Q plot
Verificar la homogeneidad de
varianzas: residuos vs. predichos
Verificar la independencia de los errores:
residuos vs. orden de observación de los datos
2.5
2
Nitrógeno por planta (ppm)
Se estudió la relación
que hay entre la cantidad
de nitrógeno en el suelo
(X) y la cantidad de
nitrógeno en la planta (Y).
Se observa la tabla de
datos originales, la recta
ajustada en el gráfico de
dispersión, el valor de R2 y
la ecuación con los valores
estimados para β0 y β1.
1.5
1
y = 0,76 + 0,16 x
0.5
R² = 0,95
0
0
2
4
6
8
10
Nitrógeno en el suelo (ppm)
X: Nitrógeno en el suelo (ppm)
4,2
4,5
5
5,5
6,8
6,9
7
7,3
8
9
9,2
9,4
Y: Nitrógeno por planta (ppm)
1,3
1,5
1,6
1,7
1,8
1,8
1,9
2
2
2,1
2,2
2,3
Se realizó el análisis de regresión lineal utilizando el software estadístico
Infostat. Se observa a continuación el resultado arrojado por el software.
Estos valores de R2 indica que el modelo tiene
gran valor predictivo: un 95% de variación en Y
puede ser explicada por la variación en X.
Ordenada al
origen
Pendiente
p-valor para las
pruebas de hipótesis
de los parámetros del
modelo
p-valor para la
prueba de hipótesis
del parámetro ρ2
Para verificar la
de los errores se graficaron
los residuos vs. los cuantiles de la
distribución normal (gráfico Q-Q
plot). Se observa que los puntos se
alinean sobre la recta, esto indica
que la distribución de los errores es
normal.
Para verificar la
se graficaron los valores de los
residuos
vs.
los
valores
predichos.
Se
comprueba el supuesto: hay aleatoriedad en la
distribución de los puntos e igual cantidad de
residuos negativos y positivos.
Para verificar la
se graficaron los
valores de residuos vs. el orden de
observación. También se observa
aleatoriedad en la nube de puntos, lo
que sugiere ausencia de correlación
en la información suministrada.
yi   0   1 xi   i
Se realizó un
para detectar la
relación existente entre la cantidad de N en el suelo y la cantidad de N en
plantas de trigo en ppm, en parcelas de cultivo.
Se comprobó el cumplimiento de los supuestos relativos a los errores del
modelo, analizando los residuos obtenidos. El valor de R2 obtenido indica que
el modelo posee alto valor predictivo, donde el 95% de la variación de Y =
nitrógeno en planta puede ser explicado por la variación en X = nitrógeno en
suelo. Finalmente, para realizar predicciones dentro del sistema estudiado,
puede utilizarse la ecuación de la recta obtenida en el presente análisis,
considerando que las predicciones sólo serán válidas dentro del rango de
valores en estudio.
y  0 ,76  0 ,16 x
Descargar

Diapositiva 1