1 2 3
CURSO DE
ESTADÍSTICA AVANZADA
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
SESIÓN 2
REGRESIÓN LINEAL
SIMPLE
2.1 Introducción a la regresión
2.2 Modelo de regresión
2.3 Errores comunes de la regresión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
RECORDATORIO…
¿PARA QUÉ SIRVE EL ANOVA?
variable independiente
Para comprobar si una variable con más de dos categorías (“factores”)
tiene relación con una segunda variable que es cuantitativa
variable dependiente
 A esta segunda variable que supone la respuesta al factor se le
llama variable dependiente
 Pretendemos demostrar que depende de la otra variable (factor)
El factor es, por lo tanto, la variable independiente
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
RECORDATORIO…
Hay dos problemas que no se pueden solucionar con el análisis de la
varianza:
1
El ANOVA se queda corto
LA REGRESIÓN ¿Cuánto aumenta la
dependiente por
VIENE A RESOLVERvariable
cada unidad de aumento
de la independiente?
ESTOS DOS PROBLEMAS
Indica si hay o no una asociación
estadística entre dos variables,
pero no define exactamente cuál
es la magnitud de esa relación
2
Hay factores que tienen tantas categorías que realmente se
parecen más a una variable cuantitativa, o puede que nos interese
usar como variable independiente una variable que es cuantitativa
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
 Como hemos visto, la correlación sirve para medir la fuerza con
que están asociadas dos variable cuantitativas
 Esa fuerza se expresa con un número
COEFICIENTE DE
CORRELACIÓN
La regresión sirve para detallar más…
Está dirigida a describir de una manera más completa cómo es la
relación entre ambas variables…
…de tal manera que se puede predecir (con un cierto margen de
error) cuál va a ser el valor de una variable una vez que se sabe el
valor de la otra
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Si la asociación entre
ambas variables es débil
Esta predicción puede ser
bastante imprecisa
Pero cuando la
asociación es fuerte…
La regresión nos ofrece
un modelo estadístico que
puede alcanzar
finalidades predictivas
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
variable indepediente o predictora
La regresión supone que hay una variable fija, controlada
por el investigador y otra variable que no está controlada
variable de respuesta o depediente
La correlación supone que ninguna variabe es fija, las dos
están fuera del control del investigador
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
La regresión en su forma más sencilla se llama regresión
lineal simple
Técnica estadística que analiza la relación
entre dos variables cuantitativas, tratando de
verificar si dicha relación es lineal
Sin embargo, a diferencia de lo que ocurría con la correlación,
ahora no se puede considerar que ambas variables tengan un
papel simétrico
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
En la regresión, cada una de las dos variables desempeña
una función diferente y en consecuencia tienen una
consideración distinta:
variable respuesta
A la variable respuesta se le
llama variable dependiente y
ocupa el eje de ordenadas (eje
vertical o de la ”y”)
A la variable predictora o
“causa” se le denomina variable
independiente y ocupa el eje de
abcisas (eje horizontal)
variable predictora
Suele ser un factor previamente
determinado o una característica
más fácil de medir que la que se
pretende explicar a partir de ella
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
ALGUNAS ACLARACIONES…
 La correlación y la regresión tienen distintas finalidades
 Es bastante raro que esté indicado aplicar simultáneamente
ambas técnicas para alcanzar los objetivos de un determinado
análisis estadístico
 Con frecuencia se confunden ambas técnicas y se piensa
que son una sola
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
OBJETIVO DE LA
CORRELACIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Medir el grado o fuerza de la asociación
entre dos variables cuantitativas
A través del coeficiente de correlación
No estima la bondad del ajuste de unos datos a
un modelo
OBJETIVO DE LA
REGRESIÓN
Buscar la línea que mejor se ajusta a los
puntos
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
EJERCICIO
REACCIÓN DE UN ALÉRGENO EN FUNCIÓN DE DISTINTAS DOSIS DE UN
PRODUCTO
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
Los datos de nuestra muestra serían los siguientes:
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
1er Paso: Diagrama de Dispersión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
1er Paso: Diagrama de Dispersión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
Obtenemos el siguiente resultado…
39
¿Qué está pasando?
¿Cuál es el problema?
36
CTs-BCRABL
33
30
27
24
21
0
20000
40000
60000
80000
100000
Concent
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
Obtenemos el siguiente resultado…
¿Qué está pasando?
¿Cuál es el problema?
Dispersión de los datos: los datos están muy separados
Por eso no se observa ninguna tendencia
¿QUÉ
HACER?
Aplicamos transformaciones logarítmicas
Es una opción siempre que tengamos datos dispersos
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
Los datos para la regresión serían por tanto:
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
El Diagrama de Dispersión obtenido ahora es:
Ahora sí se intuye
una relación
39
36
CTs-BCRABL
33
30
27
24
21
2,00
4,00
log_Conct
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2º Paso: Estudio de Correlación
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2º Paso: Estudio de Correlación
Correlaciones
CTs-BCRABL
Rho de Spearman
CTs-BCRABL
Concent
Concent
Coeficiente de
correlación
1,000
-1,000(**)
Sig. (bilateral)
.
,000
N
4
4
Coeficiente de
correlación
-1,000(**)
1,000
Sig. (bilateral)
,000
.
4
4
N
** La correlación es significativa al nivel 0,01 (bilateral).
¿Puedo calcular una recta de regresión lineal?
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3er Paso: Cálculo de la Recta de Regresión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3er Paso: Cálculo de la Recta de Regresión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
RESULTADOS (I)
Resumen del modelo
Modelo
1
R
,996a
R cuadrado
corregida
,989
R cuadrado
,993
Error típ. de la
estimación
,697
a. Variables predictoras: (Constante), log_Conct
ANOVAb
Modelo
1
Regresión
Residual
Total
Suma de
cuadrados
136,029
,971
137,000
gl
1
2
3
Media
cuadrática
136,029
,486
F
280,059
Sig.
,004a
a. Variables predictoras: (Constante), log_Conct
b. Variable dependiente: CTs-BCRABL
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
RESULTADOS (II)
Coeficientesa
Modelo
1
(Constante)
log_Conct
Coeficientes no
estandarizados
B
Error típ.
41,343
,736
-3,943
,236
Coeficientes
estandarizad
os
Beta
-,996
t
56,197
-16,735
Sig.
,000
,004
a. Variable dependiente: CTs-BCRABL
La recta de regresión sería:
CTs-BCRABL=41,343-3,943*logx
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
EJEMPLO
El ejemplo más intuitivo es cómo se relacionan la talla y la edad
Por cada incremento de edad (por lo menos hasta los 25 años) se
produce un incremento de altura. Es decir…
y = a + b*x
constante llamada ordenada en el origen
(en nuestro caso: cuánto
mediría un recién nacido)
pendiente: incremento de y por
cada unidad de incremento de x
(en nuestro caso: cuántos
centímetros crece un niño al año)
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
EJEMPLO
Sin embargo, a pesar de ser este un modelo de fácil comprensión,
tiene errores…
Nunca será posible hacer predicciones perfectas de la estatura que
tendrá un niño una vez que se conoce su edad
Aunque la edad tiene un efecto importante sobre la estatura, este
efecto está afectado por un cierto grado de variabilidad aleatoria
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
EJEMPLO
Las observaciones de dos variables no suelen trazar una línea recta
perfecta sino que existe un cierto grado de dispersión entorno
a una imaginaria línea recta que los atravesaría por el centro
y = a + b*x + e
error residual: expresa el
desajuste de los datos
respecto al modelo lineal
 es una cantidad variable de un sujeto a otro y puede ser
positiva o negativa
e
 equivale a lo que habría que añadir o quitar a la predicción
que hace el modelo para que coincida exactamente con lo
observado en cada sujeto
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
La ecuación anterior nos plantea una serie de preguntas…
¿Hasta qué punto es importante ese error?
¿Qué porcentaje de la variabilidad en la talla puede ser
explicado por efecto de la edad y cuál no es explicado?
Para resolver estos interrogantes nos adentramos en los modelos
de regresión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
COEFICIENTE DE DETERMINACIÓN R2
R2
INTERPRETACIÓN
Coeficiente muy importante en regresión, ya
que compara lo explicado por la regresión
lineal con la variabilidad total
Porcentaje de la variabilidad total de la
variable dependiente que es explicada
por la variable independiente
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
COEFICIENTE DE DETERMINACIÓN R2
VALORES
Los posibles valores para R2 van desde 1, que es
el máximo, a 0 que es el mínimo
+1
La recta daría una explicación perfecta, es decir, los
valores de “y” están totalmente determinados por la “x”
0
La recta no explica nada, es decir, no existe asociación
entre “x” e “y”
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
COEFICIENTE DE DETERMINACIÓN R2
VALORES
+1
Los posibles valores para R2 van desde 1, que es
el máximo, a 0 que es el mínimo
Cuando más próximo a 1 sea R2 mayor es la fuerza de
la asociación entre ambas variables
0
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
COEFICIENTE DE DETERMINACIÓN R2
La raíz cuadrada de R2 se llama r
R2 = r
 Sólo se escribe con mayúscula (R) cuando hay varias
variables independientes
 Entonces se llama coeficiente de correlación múltiple o R
múltiple
Esta r es precisamente el coeficiente de correlación de Pearson
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
COEFICIENTE DE DETERMINACIÓN R2
Salvo en los casos extremos de que R2 valga 0 o 1, la magnitud
de r es siempre superior a la de R2
para R2 ≠ 0,1  r >R2
REPERCURSIONES
PRÁCTICAS
Una correlación puede parecer muy buena,
por ejemplo r=0,7, y sin embargo el modelo
lineal explicaría menos del 50% de lo
observado
R2 = 0,49
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
ECUACIÓN DE REGRESIÓN
El objetivo más importante de un análisis de regresión lineal
suele ser el cálculo del valor de la pendiente de la recta
b
= pendiente de la recta o coeficiente de regresión
mide el cambio de la variable “y” por cada unidad de
cambio de “x”
Su magnitud sirve para predecir en cuánto aumentará
“y” cada vez que “x” se incremente en una unidad
Su signo puede ser positivo o negativo, y en esto la
interpretación coincide con la correlación
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
SUPUESTOS DEL MODELO DE REGRESIÓN
Para poder realizar una regresión lineal se deben asumir cuatro
supuestos:
1
Normalidad de la distribución condicional de la variable “y”
2
Linealidad
3
Homogeneidad de las varianzas
4
Independencia de las observaciones
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
SUPUESTOS DEL MODELO DE REGRESIÓN
Para poder realizar una regresión lineal se deben asumir cuatro
supuestos:
1
Normalidad de la distribución condicional de la variable “y”
2
Linealidad
3
4
Se refiere no sólo a que la variable “y” siga una
distribución normal, sino que además, para
cada valor de “x”, la distribución de posibles
Homogeneidad de las varianzas
valores de “y” también siga una normal
Independencia de las observaciones
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
SUPUESTOS DEL MODELO DE REGRESIÓN
Para poder realizar una regresión lineal se deben asumir cuatro
supuestos:
1
Normalidad de la distribución condicional de la variable “y”
2
Linealidad
3
Homogeneidad de las varianzas
4
Independencia de las observaciones
Que exista una relación lineal subyacente entre
la variable “x” y la variable “y”
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
SUPUESTOS DEL MODELO DE REGRESIÓN
Para poder realizar una regresión lineal se deben asumir cuatro
supuestos:
1
Normalidad de la distribución condicional de la variable “y”
Se conoce como homoscedasticidad
2
Linealidad
3
Homogeneidad de las varianzas
4
Independencia de las observaciones
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
SUPUESTOS DEL MODELO DE REGRESIÓN
Para poder realizar una regresión lineal se deben asumir cuatro
supuestos:
1
Normalidad de la distribución condicional de la variable “y”
2
Linealidad
3
Cada observación de la variable “y”
ser varianzas
independiente de las demás
Homogeneidaddebe
de las
4
Independencia de las observaciones
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
SUPUESTOS DEL MODELO DE REGRESIÓN
POR
EJEMPLO
Un estudio en el que “y” que representa el número
de lesiones cutáneas en un brazo
Si existiesen pacientes en
los que se han estudiado
ambos brazos…
Hay dos observaciones por
paciente que están
autocorrelacionadas entre sí
¡No son independientes!
POR
TANTO…
Habría que considerar como N al número de
pacientes y no al número de brazos
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
SUPUESTOS DEL MODELO DE REGRESIÓN
OTRO
EJEMPLO
Número de casos de meningitis en la región
en un año
Puede influir mucho en el número de casos de meningitis
del año siguiente
Puede decidirse el vacunar a todos los niños porque hubo
muchos casos el año anterior
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
SUPUESTOS DEL MODELO DE REGRESIÓN
OTRO
EJEMPLO
Número de casos de meningitis en la región
en un año
Es decir, el segundo valor “y” no es independiente sino
que está condicionado por el primero, el tercero por el
segundo y así sucesivamente
A este efecto se le llama autocorrelación
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
SUPUESTOS DEL MODELO DE REGRESIÓN
OTRO
EJEMPLO
Número de casos de meningitis en la región
en un año
La autocorrelación exige aplicar técnicas especiales que
se agrupan bajo el concepto de series temporales
Estas series se utilizan mucho en economía, y cada vez van
teniendo más interés para aplicaciones epidemiológicas
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
REGRESIÓN LINEAL CON SPSS
PRIMER
PASO
OBJETIVO
Pedir a SPSS un gráfico de dispersión
Apreciar visualmente si se puede asumir
un modelo lineal entre ambas variables
¿Cuándo ajustaremos
una regresión?
Cuando la nube de puntos
nos sugiera que existe una
relación lineal
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
REGRESIÓN LINEAL CON SPSS
Una nube de puntos puede sugerir que no existe ninguna
relación
Si no existe relación…
PERO…
b=0
También puede resultar una pendiente de 0
por otro motivo: que haya relación, pero
que la relación no sea lineal sino que siga
una curva u otro tipo de función
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
REGRESIÓN LINEAL CON SPSS
Por ejemplo, las nubes de puntos pueden tomar formas no
lineales como las siguientes:
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
REGRESIÓN LINEAL CON SPSS
FORMA DE LA
NUBE DE PUNTOS
TIPO DE
RELACIÓN
ECUACIÓN
UoJ
CUADRÁTICA
y = a + b*x2
REPRESENTACIÓN GRÁFICA
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
REGRESIÓN LINEAL CON SPSS
FORMA DE LA
NUBE DE PUNTOS
TIPO DE
RELACIÓN
ECUACIÓN
HIPÉRBOLA
HIPERBÓLICA
y = a + b*(1/x)
REPRESENTACIÓN GRÁFICA
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
USOS E INTERPRETACIÓN DE UNA REGRESIÓN LINEAL
Una vez que se ha comprobado que tenemos motivos
razonables para pensar que no existe una transgresión
importante de los supuestos de la regresión lineal…
Hemos obtenido una línea recta que relaciona “x” e “y”
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
USOS E INTERPRETACIÓN DE UNA REGRESIÓN LINEAL
¿Cuál es la utilidad más interesante de esta recta de regresión?
Representa lo que idealmente sería la unión de las diferentes
medias que va tomando “y” para cada grupo de valores de “x”
ES
DECIR…
cuál es la media de “y” a
medida que “x” va cambiando
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Un error común en el análisis de regresión se presenta cuando se
hacen en el mismo individuo múltiples observaciones y se tratan
como si fueran independientes
Considérese 10 pacientes de quienes se ha registrado
el peso y la medida de los pliegues cutáneos antes de
empezar una dieta baja en calorías
POR
EJEMPLO
Tamaño de la muestra
N = 10
RESULTADO
Variables
PESO
MEDIDA DE
LOS PLIEGUES
CUTÁNEOS
Puede esperarse una moderada relación positiva
entre el peso y el grosor de los pliegues de la piel
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Ahora supóngase que los mismos 10 sujetos se pesan y miden a
las seis semanas de llevar la dieta…
Si las 20 observaciones se tratan como si fueran independientes
se presentarían varios problemas:
1
El tamaño de la muestra parecería ser de 20 en vez de 10
2
El uso de ambas observaciones tiene el mismo efecto
que usar mediciones duplicadas
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Ahora supóngase que los mismos 10 sujetos se pesan y miden a
las seis semanas de llevar la dieta
Si las 20 observaciones se tratan como si fueran independientes
se presentarían varios problemas:
1
El tamaño de la muestra parecería ser de 20 en vez de 10
2
Podría concluirse (erróneamente) con
El uso de ambas
observaciones
tiene
el mismo efecto
mayor
probabilidad una
significancia
que usar mediciones duplicadas
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Ahora supóngase que los mismos 10 sujetos se pesan y miden a
las seis semanas de llevar la dieta
Si las 20 observaciones se tratan como si fueran independientes
se presentarían varios problemas:
1
2
Esto es debido a que la
Da como resultado una
relación
entre
el
peso
y
el
El tamaño de la muestra parecería ser correlación
de 20 en vez
de 10de lo
mayor
grosor de los pliegues
que en realidad debe ser
cutáneos
es
un
tanto
estable en la misma persona
El uso de ambas observaciones tiene el mismo efecto
que usar mediciones duplicadas
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Se pueden también obtener conclusiones inadecuadas si se
mezclan dos poblaciones diferentes
POR
EJEMPLO
Considérese la relación entre estatura y
peso corporal
Recogemos una muestra de 10 hombres y 10 mujeres y se calcula
la correlación entre peso y estatura combinando las muestras
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Si representamos las 10 muestras de las mujeres en una gráfica…
estatura
No parece que haya
relación entre peso y
estatura
peso
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Si representamos las 10 muestras de los hombres en una gráfica…
estatura
Tampoco parece que
haya relación entre
peso y estatura
peso
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2.1 INTRODUCCIÓN A
LA REGRESIÓN
2.2 MODELO DE
REGRESIÓN
2.3 ERRORES COMUNES
DE LA REGRESIÓN
Sin embargo, si representamos las 20 muestras de hombres y
mujeres en la misma gráfica…
estatura
Mujeres
Hombres
Nos podría llevar a
interpretar que sí hay
relación entre peso y
estatura
peso
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
EJERCICIO
BLOQUEO DEL NERVIO FEMORAL EN EL PACIENTE PEDIÁTRICO: ¿ES
POSIBLE DETERMINAR EL PUNTO MÁS ADECUADO PARA LA PUNCIÓN?
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
Los datos de nuestra muestra serían los siguientes:
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
EJERCICIO
BLOQUEO DEL NERVIO FEMORAL EN EL PACIENTE PEDIÁTRICO: ¿ES
POSIBLE DETERMINAR EL PUNTO MÁS ADECUADO PARA LA PUNCIÓN?
OBJETIVO
Queremos relacionar la medida del nervio
inguinal con el del CUN
Si conocemos la
medida del CUN…
¿podemos calcular la medida del
nervio inguinal?
Lo hacemos como ejemplo para el derecho
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
1er Paso: Gráfico de Dispersión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
1er Paso: Gráfico de Dispersión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
1er Paso: Gráfico de Dispersión
1,8
A/N-D
1,5
1,2
0,9
0,6
0,5
0,75
1,0
1,25
1,5
1,75
IFD-D
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2º Paso: Estudio de Correlación
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2º Paso: Estudio de Correlación
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
2º Paso: Estudio de Correlación
Correlaciones
A/N-D
A/N-D
Correlación de Pearson
IFD-D
1
Sig. (bilateral)
N
IFD-D
Correlación de Pearson
Sig. (bilateral)
N
,887(**)
,000
74
74
,887(**)
1
,000
74
74
** La correlación es significativa al nivel 0,01 (bilateral).
Vemos que podemos asumir una correlación lineal
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3er Paso: Cálculo de la Recta de Regresión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3er Paso: Cálculo de la Recta de Regresión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
REGRESIÓN (I)
Variables introducidas/eliminadas b
Modelo
1
Variables
introducidas
A/N-Da
Variables
eliminadas
.
Método
Introducir
a. Todas las variables solicitadas introducidas
b. Variable dependiente: IFD-D
Resumen del modelo
Modelo
1
R
,887a
R cuadrado
,787
R cuadrado
corregida
,784
Error típ. de la
estimación
,1579
a. Variables predictoras: (Constante), A/N-D
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
REGRESIÓN (II)
ANOVAb
Modelo
1
Regresión
Residual
Total
Suma de
cuadrados
6,635
1,796
8,431
Media
cuadrática
6,635
,025
gl
1
72
73
F
266,026
Sig.
,000a
a. Variables predictoras: (Constante), A/N-D
b. Variable dependiente: IFD-D
Coeficientesa
Modelo
1
(Constante)
A/N-D
Coeficientes no
estandarizados
B
Error típ.
,118
,064
,901
,055
Coeficientes
estandarizad
os
Beta
,887
t
1,830
16,310
Sig.
,071
,000
a. Variable dependiente: IFD-D
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
SESIÓN 3
REGRESIÓN LINEAL
MÚLTIPLE
3.1 Introducción
3.2 Métodos de Regresión Lineal Múltiple
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
El procedimiento de Regresión Lineal permite utilizar más de una
variable independiente y permite llevar a cabo análisis de
regresión múltiple
En el análisis de regresión múltiple la ecuación ya no define una
recta en el plano, sino un hiperplano en un espacio
multidimensional
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
Con una variable dependiente y dos independientes…
…necesitamos tres ejes para poder representar el diagrama de
dispersión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
Si en lugar de
utilizáramos tres…
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
dos
variables
independientes
…sería necesario un espacio de cuatro dimensiones para
poder construir el diagrama de dispersión
POR
TANTO
Con más de una variable independiente, la
representación gráfica de las relaciones
presentes en un modelo de regresión resulta
poco intuitiva, muy complicada y nada útil
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
Es más fácil y práctico partir de la ecuación del
modelo de regresión lineal:
Y = β0 + β1*X1 + β2*X2 +……..+ βk*Xk + ε
 La variable dependiente Y se interpreta como una combinación
lineal de un conjunto de K variables independientes, cada una de
las
las cuales
cuales va
va acompañada
acompañada de
de un
un coeficiente β, que
que indica
indica el
el peso
peso
relativo de esa variable en la ecuación
 La ecuación incluye un componente aleatorio (los residuos ε)
que recoge todo lo que las variables independientes no son
capaces de explicar
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
SELECCIÓN DE LAS VARIABLES DE REGRESIÓN
El control sobre las variables utilizadas para construir el
modelo de regresión recae sobre el propio analista
Es el analista quien decide qué variables independientes
desea incluir en la ecuación de regresión seleccionándolas él
mismo de la lista de variables independientes que tiene
v. independiente 1
v. independiente 2
v. independiente 3
…..
analista
ecuación de
regresión
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
SELECCIÓN DE LAS VARIABLES DE REGRESIÓN
Sin
embargo
son
frecuentes situaciones
en las que…
 No existe una teoría o un trabajo
previo que oriente al analista en la
elección de las variables relevantes
 El número de variables
independientes es muy elevado
Para afrontar estas situaciones existen procedimientos diseñados
para seleccionar, entre una gran cantidad de variables, sólo
aquellas que permiten obtener el mejor ajuste posible
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
CRITERIOS DE SELECCIÓN DE LAS VARIABLES
Existen diferentes criterios para seleccionar variables en un
modelo de regresión:
1
El valor del coeficiente de correlación múltiple R2
2
El coeficiente de correlación parcial entre cada
variable independiente y la dependiente
3
El grado de reducción del error típico cada vez que se
incorpora una variable
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
MÉTODOS DE SELECCIÓN DE VARIABLES
Existen diferentes métodos para seleccionar las variables
independientes que debe incluir un modelo de regresión
Los de mayor aceptación son los métodos de selección por
pasos (stepwise)
 En primer lugar se selecciona la mejor variable, de
acuerdo a algún criterio estadístico
 A continuación, la mejor de las restantes
 …y así sucesivamente hasta que ya no quedan variables
que cumplan los criterios de selección
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:
1
Método hacia delante
2
Método hacia atrás
3
Pasos sucesivos
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:
1
Método hacia delante
2
Las variables se incorporan al modelo de regresión
Método hacia
una atrás
a una
3
PRIMER
PASO:
se
selecciona
la
variable
independiente que, además de superar los criterios
Pasos sucesivos
de entrada, más alto correlaciona (positiva o
negativamente) con la dependiente
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:
1
Método hacia delante
2
SIGUIENTES PASOS: se utiliza como criterio de
Método hacia
atrás el coeficiente de correlación parcial.
selección
3
Van siendo seleccionadas una a una las variables
que poseen el coeficiente de correlación parcial más
Pasos sucesivos
alto en valor absoluto
La selección de variables se detiene cuando no
quedan variables que superen el criterio de entrada
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:
1
Método hacia delante
2
Método hacia atrás
3
Comienza incluyendo en el modelo todas las
variables independientes, para luego proceder a
Pasos sucesivos
eliminarlas una a una
PRIMER PASO: se elimina aquella variable que,
además de cumplir los criterios de salida, posee el
coeficiente de regresión más bajo en valor absoluto
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:
1
Método hacia delante
2
Método hacia atrás
3
SIGUIENTES PASOS: Se van eliminando las variables
con coeficientes de regresión no significativos
Pasos sucesivos
La eliminación de variables se detiene cuando no
quedan variables en el modelo que cumplan los
criterios de salida
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:
1
Método hacia delante
2
Método hacia atrás
3
Pasos sucesivos
Mezcla de los dos métodos anteriores
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:
1
Método hacia delante
2
Método hacia atrás
3
Pasos sucesivos
Comienza al igual que el método hacia delante,
seleccionando en el primer paso la variable independiente
que además de superar los criterios de entrada más altos
correlaciona con la variable dependiente
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
1 2 3
3.1 INTRODUCCIÓN
3.2 MÉTODOS DE REGRESIÓN
LINEAL MÚLTIPLE
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:
1
Método hacia delante
2
Método hacia atrás
3
Pasos sucesivos
A continuación se selecciona la variable independiente
Guadalupe Ruiz Merino - Curso de Estadística Avanzada
Descargar

Curso de Estadística Básica