PSICOLOGIA DEL TRABAJO
Y DE LAS ORGANIZACIONES
Metodología
Análisis de la regresión
Modelos de análisis
estadístico
I. Conceptos básicos.
II. Regresión múltiple
Parte I. Conceptos básicos
Modelo estadístico
En un sentido amplio, el modelo
estadístico es una expresión matemática
que, a modo de igualdad o ecuación,
especifica la relación entre las diferentes
variables independientes y la variable de
respuesta.
Modelos de análisis estadístico y
diseño de estudio
Conceptos básicos
 Datos: observaciones realizadas de los
individuos o grupos de individuos
 Escalas de medida: no métricas (nominales y
ordinales) y métricas (intervalos y de razón)
 Diseños: estrategias de recogida de datos
 Estrategias del diseño: transversal o longitudinal
 Modelos de análisis: sistemas o ecuaciones que
permiten inferir el tipo de relación entre los
datos
 Clases de relaciones: asociativas y causales
A propósito de los datos (1)
Elaboración de datos
Observación
directa
Escala
de medida
Dato científico
o valor
numérico
La conversión de una observación directa en
un dato científico se consigue mediante la
aplicación de una adecuada escala de medida.
Reunión de datos
Sistemas de reunión de datos
a) Tablas
b) Gráficos
Tablas

Las tablas se usan en los informes
científicos para resumir los datos u otra
información que no puede ser mostrada
de forma conveniente en la narrativa del
texto.
Acerca de las tablas
Las tablas han de tener un título que informe
claramente sobre su contenido como por
ejemplo preferencias a un partido político. Las
tablas estadísticas deberían de informar
también sobre el número de observaciones que
se incluyen (frecuencia). La parte superior de la
columna del lado izquierdo de la tabla es
referida como el título de filas e informa sobre el
contenido de las filas. El cuerpo de la tabla
contiene los datos de interés. En el ejemplo
propuesto se muestra la cantidad de individuos
que prefieren un partido político.
..//..
Ejemplos (tablas)
Las tablas con una sola variable son
conocidas por representaciones univariadas
y las que informan sobre dos variables,
representaciones
bivariadas.
En
la
representaciones bivariadas una variable
está asociada a las filas y la otra a las
columnas y se conocen, también, por tablas
de contingencia. Ejemplo de tabla bivariada
que relaciona preferencia a un partido político
y afiliación religiosa (en paréntesis están los
porcentajes).
Ejemplos (tablas)
Gráficos

Con los gráficos se consigue una
representación visual de los datos, por lo
que se convierte en un procedimiento útil
a la investigación. Los gráficos captan
mejor la atención del lector, permiten
clarificar los resultados y facilitar su
interpretación.
Histograma de frecuencias o gráfico de
barras
El histograma de frecuencias es un gráfico que
muestra la distribución de frecuencias de una
variable de intervalo. El eje horizontal del
histograma o gráfico de barras muestra los
intervalos y el eje vertical la cantidad de
puntuaciones de cada intervalo (frecuencia). La
altura de la barra indica la frecuencia de casos de
cada categoría. El gráfico siguiente muestra la
cantidad de amigos reportados por estudiantes
de un College americano.
..//..
Cantidad de amigos reportados por los
estudiantes de un College
En un segundo ejemplo, se muestra un
gráfico de barras relativo al efecto de dos
drogas antiansiolíticas. Se trata de una escala
nominal y la diferencia que se observa entre
el primer y segundo panel estriba en la forma
de representar las unidades del eje vertical
(unidades pequeñas en el primer panel y
punto cero y unidades grandes en el
segundo). Nótese que la gran diferencia entre
las dos drogas que se observa en el primer
panel
desaparece
en
la
segunda
representación o panel.
Efectos de las drogas sobre la ansiedad
Polígono de frecuencias
Es una forma alternativa de representar el
histograma de frecuencias. Así, en lugar de
barras se utilizan líneas que conectan las
frecuencias de los intervalos de clase. En el
ejemplo siguiente se muestra la misma
información sobre la cantidad de amigos,
pero utilizando el sistema de líneas y no el de
barras. En un segundo ejemplo, se muestra
el gráfico de la cantidad de divorcios tras
aprobarse la correspondiente ley en el
Estado de Nebraska.
Cantidad de amigos reportados por
estudiantes de un College
Cantidad de divorcios antes y después de
su promulgación en el Estado de Nebraska
Escalas de medida y datos (2)
Cuantificación de las variables
La variables se cuantifican al asignar
valores numéricos a los atributos o
características de los individuos, objetos y
hechos de acuerdo a reglas.
El proceso de asignación de los números
de acuerdo a reglas se denomina medida.
Escalas de medida
 Las reglas particulares de asignación de
números a las variables se denominan escalas
de medida.
Clasificación:
Nominal
Ordinal
débiles
Escalas
De intervalo
De razón
fuertes
Escalas de medida
Nominal
1 = varón
2 = hembra
Ordinal
1
2
3
De intervalo
15
16 17
18
19
20 21 22
3
4
5
23
De razón
0
1
2
6
7
8
Ejemplos de escalas
Nominal
los valores sólo representan
categorías o nombres (género, raza, religión, etc.)
Ordinal
los valores representan el orden en
función del grado o intensidad como actitud,
preferencia, etc.
De intervalo
la distancia entre los valores se
mantiene constante como la temperatura,
respuestas correctas, etc.
De razón
cuando además de la constancia del
intervalo hay un valor cero que coincide con la
ausencia del atributo.
Escalas y naturaleza de los
datos
Escala
Nominal
Ordinal
De intervalo
De razón
Tipo
Dato
Cualitativa
No-paramétrico
Cuantitativa
No-paramétrico
Cuantitativa discreta Paramétrico
Cuantitativa continua Paramétrico
Naturaleza de los datos y prueba
estadística
Datos de escala
Prueba estadística
Nominal
Ordinal
Prueba
no paramétrica
De intervalo
De razón
Prueba no paramétrica y
paramétrica
Variable dependiente
Datos métricos o gaussianos
Datos no métricos o no gaussianos
En torno a los diseños (3)
Concepto de diseño
El diseño es una estrategia particular de
recogida de datos que es función de los
objetivos o hipótesis propuestos.
Los diseños pueden clasificarse en
transversales y longitudinales, según la
ausencia o presencia de la dimensión
temporal en el estudio.
Cuestiones a plantear
¿Cuál es la relación entre diseño (estudio)
matriz de datos y modelo de análisis?
¿Cuál es la estructura de cualquier
investigación científica?
Estructura de la investigación
en ciencias sociales
Diseño
Datos
Modelo análisis
Problema
Estadístico
Hipótesis
Estimación
Variables
Inferencia
Modelo de escala
A modo de resumen
Se ha visto la secuencia entre las tres
fases o momentos de una investigación:
diseño, datos y análisis.
Es importante conocer la estructura del
diseño así como los distintos
procedimientos o tipos de investigación.
Estructura del diseño (4)
Tipología del diseño de
investigación
Diseños observacionales
Diseños correlaciones o predictivos
(estudios de encuesta)
Diseños cuasi-experimentales
Diseños experimentales
Naturaleza de los datos (variable
dependiente)
Datos métricos o cuantitativos (de
distribución gaussiana o normal)
Datos no métricos o categóricos (de
distribución no-gaussiana)
Estrategia del diseño y modelo
de análisis
Diseños experimentales y cuasiexperimentales
Diseño
Datos cuantitativos
Estrategia
ANOVA
Transversal
Longitudinal
AR
Grupos
paralelos
Medidas
repetidas
Factorial
Cross-over
Datos cualitativos
MANOVA
Medidas
repetidas
Antes-después
Cohortes
Factorial
mixto
Split-plot
TC
Modelo log-lineal
Regresión
logística
Diseños no experimentales
 En el contexto no experimental los diseños
suelen ser, por lo general, observacionales y
correlacionales.
 Los diseños observacionales son estudios de
carácter descriptivo.
 Los diseños correlacionales se basan en el
análisis de múltiples variables con el propósito
de estimar la magnitud del cambio entre ellas.
sigue…
 El objetivo del diseño correlacional es la
predicción de los valores de la variable
dependiente a partir de la o las variables
predictoras o independientes.
 Con este diseño se pretende también explicar la
proporción de variación de la variable
dependiente debido a la o las variables
independientes.
Modelos de análisis
estadístico (5)
¡Cuestión!
Una vez recogidos los datos ¿qué hacer
con ellos?
A esta cuestión cabe responder lo
siguiente: los datos se analizan de
acuerdo
a
modelos
estadísticos
adecuados a fin de derivar consecuencias
teóricamente interpretables; es decir, para
la obtención de resultados que han de ser
interpretados.
El modelo lineal general
Modelo estadístico general
Y = f(X) + g(E)
V.Dep.
Parte fija
Parte aleatoria
Concepto
El modelo estadístico, o ecuación de
carácter lineal, asume que una observación
Y es el resultado de la combinación aditiva
de alguna función f de variables fijas y de
alguna función g de componentes
aleatorios, y que tanto f como g pueden
tomar
parámetros
conocidos
o
desconocidos.
..//..
sigue…
Considerada esta ecuación como un
modelo estadístico general, se tiene que
cualquier observación es la suma de dos
partes o componentes: una parte fija o
determinista, f(X), y una parte aleatoria
desconocida, g(E).
Tipo de relaciones entre
variables o hipótesis (6)
Clases de hipótesis
Asociativa
Hipótesis
Causal
Hipótesis asociativa
X
Y
Los valores de la variable X
covarían con los valores de la
variable Y
Ejemplos (hipótesis asociativas)
a) Se da una correlación entre el estilo
de dirección y la moral de los
empleados
b) La visualización de los dibujos
animados está asociada con el
comportamiento agresivo de los niños.
c) La percepción de culpabilidad o
inocencia de los acusados está
asociada a los argumentos legales.
..//..
d) El consumo de heroína es función
de la clase social.
e) El consumo de tabaco está
positivamente relacionado con el nivel
de alerta en sujetos humanos.
g) Los niños sensibles al ritmo
progresan más en el aprendizaje de
lectura.
Hipótesis causal
X
Y
Los valores de la variable X
determinan los valores de la
variable Y
Ejemplos (hipótesis causales)
a) Leer dos veces una lista de ítems
favorece su recuerdo.
b) La intensidad del estímulo determina
una respuesta de discriminación más
rápida.
c) A mayor incentivo más rápido es el
aprendizaje de una actividad académica.
..//..
d) El castigo genera respuesta de
evitación.
e) La frustración es causa de
conductas agresivas.
f)
El nivel de alerta aumenta la
efectividad del rendimiento escolar.
g) El ejercicio aumenta el rendimiento
de una actividad motora.
Contextos de las hipótesis
Hipótesis
Contexto
científico
asociativas
correlacional
causales
de manipulación
Universo de las hipótesis
 Hipótesis de investigación
 Hipótesis estadística
Hipótesis de investigación
Se plantean por intereses teóricos o
sustantivos
Especifican el modo como se relacionan
las variables
Suelen ser asociativas y causales
Hipótesis estadísticas
 Las hipótesis estadísticas se especifican en
términos de las propiedades de las poblaciones
de origen.
 Las poblaciones de origen están definidas por
una serie de parámetros, que son valores fijos
de la distribución pero desconocidos.
 Los parámetros poblacionales se asemejan a
los estadísticos de muestra y se estiman a partir
de estos últimos.
sigue…
Mediante los datos de muestra podemos
aceptar o rechazar, con un determinado
grado de confianza (numéricamente
calculado), la hipótesis propuesta sobre la
población estudiada. Este proceso se
conoce por contraste de hipótesis
estadística o prueba de significación
estadística.
Prueba de hipótesis estadística
En investigación social, interesa más los
parámetros asociados a la parte fija del
modelo estadístico porque representan la
magnitud de un cambio (grado de
asociación entre las variables) o el efecto
causal (el impacto de una variable sobre
otra). De ahí, el propósito de cualquier
prueba de hipótesis es determinar el nivel
de significación de estos parámetros.
Hipótesis estadística sobre un
parámetro individual
H0: parámetro = 0
H0: β = 0
O bien, sobre los parámetros del
modelo
En el modelo de la regresión múltiple, se
asume que los distintos coeficientes o
parámetros del modelo son cero:
H0: β1 = β2 = … = βp = 0
en consecuencia…
Si se demuestra, como resultado de la prueba
estadística, que
H0: βi = 0, entonces se infiere la no relación
lineal entre la variable Y y Xi.
En caso contrario, se tiene
H1: βi ≠ 0, de la que se infiere una relación
lineal entre ambas v ariables.
Hipótesis nula: H0
En
teoría
estadística
se
asume,
inicialmente, la no significación de los
parámetros, siendo este supuesto la
hipótesis que se somete a prueba y es
conocida por hipótesis nula (H0). Si se
demuestra que este supuesto no es
aceptable, se recurre a la hipótesis
alternativa (H1) como la explicación más
plausible de los datos.
Prueba de la hipótesis estadística o
prueba de significación
La prueba de significación estadística
contrasta la hipótesis de nulidad con los
datos del estudio. A partir del resultado de la
prueba de significación, se procede a la
toma de decisiones estadísticas. El
resultado de la prueba consiste, de forma
sucinta, en la aceptación o no de la
hipótesis de nulidad que asume la norelación entre la variable dependiente
(criterio) y la variable independiente
(predictora).
..//..
Cabe matizar, no obstante, que entre la
variable dependiente e independiente
pueden darse relaciones de asociación o
de causalidad, de modo que la posible
implicación de la variable independiente
sobre la variable dependiente es función
del diseño utilizado (correlacional o
experimental). La relación de asociación
es la magnitud de cambio que se da entre
dos variables, mientras que la relación de
causalidad es el tamaño del impacto de
una variable sobre otra.
Inferencia de la hipótesis de
nulidad
La inferencia de la hipótesis nulidad nos
lleva a aceptar que la variable
independiente no está relacionada con la
dependiente. En caso contrario, se toma la
decisión a favor de un modelo alternativo
asumiendo,
como
explicación
más
plausible (no exenta de riesgo), el modelo
de una relación efectiva entre ambas
variables.
..//..
Al tomar esta decisión, se corre el
riesgo de que sea falsa. Este riesgo se
define, en teoría estadística, en
términos de probabilidad y es conocido
por nivel de significación. El nivel de
significación describe el grado de
credibilidad que merece la hipótesis
considerada.
Errores en el rechazo o aceptación de
H0
Situación actual de la H0
Decisión
Verdadera
Falsa
Rechazo H0
Error Tipo I
No error
Aceptación H0
No error
Error Tipo II
Error Tipo I y error Tipo II
A) El error Tipo I o decisión positiva falsa
se comete al rechazar la hipótesis de
nulidad siendo verdadera; es decir, al
tomar una decisión positiva a favor de la
existencia de un efecto cuando en realidad
no existe (falsa alarma).
La probabilidad de cometer este error es el
nivel de significación o valor α de la
prueba estadística.
..//..
B) El error Tipo II o decisión negativa
falsa se comete cuando la prueba lleva
a la aceptación de una hipótesis de
nulidad falsa. Se trata de asumir el
efecto de la variable independiente
cuando en realidad no ocurre. El error
de Tipo II se define por la probabilidad β
y está asociado inversamente con la
probabilidad α y directamente a la
potencia de la prueba.
Decisión estadística y error
Resultado
de la prueba
estadística
Significativo
Probabilidad
de azar
α = 0.05
p < α
Decisión
NA(H0)
H0
No significativo
p > α
A(H0)
Inferencia de H0
Probabilidad
de azar
1
Región de
decisión
Si p > 0.05
A(H0)
Si p < 0.05
α = 0.05
NA(H0)
0
Sobre la discusión de los
resultados
Concepto
Las actividades propias de la discusión de
los resultados se reducen a
1) Inferir a partir de la prueba estadística
consecuencias de carácter teórico.
2) Interpretar estas consecuencias a la en
función de las hipótesis formuladas
3) Establecer el alcance de los resultados
mediante la generalización de los mismos
Inferencia teórica de la hipótesis
Supongamos que la prueba de la hipótesis
estadística nos lleva a no aceptar la
hipótesis de nulidad. En este caso se
suele inferir, como la hipótesis más
adecuada, la hipótesis alternativa que
coincide con la hipótesis de trabajo o
investigación. Claro está, esta inferencia
está sujeta a un riesgo de error (definido
en términos de probabilidad).
Interpretación de los resultados
Las
actividades
propias
de
la
interpretación de los resultados son:
a) Examinar y explicar los datos en base
a la hipótesis de investigación.
b) Extraer los contenidos científicamente
significativos.
c) Interpretar los resultados en términos
de hipótesis alternativas o rivales.
Generalización de los
resultados
En la generalización se evalúa el alcance
de los resultados; es decir, para qué
poblaciones son vigentes los supuestos
teóricos probados. La generalización de los
resultados suele realizarse, por lo común,
para la población de sujetos.
Parte II. Modelos de la
regresión múltiple y otros
Regresión múltiple
Modelos de la
Regresión múltiple
No Lineal
Lineal
Lineal
Polinómica.
V. Dummy
Raíz
Cuadrada
Interac.
Loglineal
Recíproca
Exponencial
Modelo lineal de la regresión
múltiple
El modelo lineal de la regresión es un
caso especial Modelo Lineal General.
Según este modelo, el componente
determinista (parte fija del modelo) está
formado por las variables que se
examinan en la investigación (predictores)
y el componente aleatorio por un término
de error (falta de ajuste).
..//..
El análisis de la regresión múltiple se aplica
para predecir los valores de una variable
dependiente continua a partir de un conjunto
de variables independientes (predictores).
Cuando la variable dependiente es
dicotómica se aplica, en este caso, la
regresión logística .
Las variables independientes usadas en la
regresión pueden ser cuantitativas o
cualitativas (dummy).
..//..
Por lo general, el análisis de la regresión
múltiple usa variables que ocurren en
contextos naturales, en oposición a
variables
que
son
manipuladas
experimentalmente, aunque es posible
utilizar la regresión con esta clase de
variables.
..//..
Cabe tener en cuenta, por último, que en
base al análisis de la regresión (en sentido
estricto) no pueden inferirse relaciones
causales entre las variables. Por lo
general, la terminología es la siguiente: X
predice a Y, y no puede decirse que X
causa a Y.
Modelo de la regresión simple
(en términos de estimadores)
Y = b0 + b1X1 + e
Observación
Parte fija
(determinista)
Parte aleatoria
(error)
Descripción
En el modelo de la regresión simple, Y
denota la variable dependiente (criterio), X
la variable explicativa, ‘b0’ es el intercepto,
‘b1’ (la pendiente) denota el parámetro
estimado de la variable X y ‘e’ es el
término de error de distribución aleatoria.
Constituye, con el modelo de la regresión
múltiple, uno de los modelos más
utilizados en ciencias sociales.
Representación del modelo en
forma compacta
Y1 = b0 + b1X11 + e1
Y2 = b0 + b1X21 + e2
...............................
Yn = b0 + b1Xn1 + en
y =
Xβ + ε
(forma matricial
compacta)
Modelo de la regresión múltiple
Y = b0 + b1X1 + b2X2 + ... + bpXp + e
Forma simplificada:
Y = b0 + ΣpbpXp + e
Modelo de la regresión múltiple
 Un modelo de la regresión de p variables puede
ser considerado como un sistema de n
ecuaciones .
 Las n ecuaciones redefinidas en términos
matriciales nos dan el modelo lineal general
familiar.
 Los coeficientes β son conocidos como
coeficientes de la regresión parciales.
Representación del modelo en
forma condensada
Y1 = b0 + b1X11 + b2X21 + ... + bpXp1 + e1
Y2 = b0 + b1X12 + b2X22 + ... + bpXp2 + e2
................................................................
Yn = b0 + b1X1n + b2X2n + ... + bpXpn + en
y =
Xβ + ε
Modelos de la regresión de p
variables
Yi = β0 + β1xi1 + β2xi2 + … + βpxip+ ei
β0
β 1 β p
ei
- Intercepto
- Coeficientes de pendiente parciales
de la regresión
- Término residual asociado con Ia ‘i’
observación
Supuestos del modelo de la
regresión
Normalidad
Linealidad
Homoscedasticidad
No colinealidad o tolerancia entre las
variables independientes
Normalidad
En principio, cabe pensar que los datos
muestran una distribución normal. Este
supuesto se verifica con la construcción
de histogramas y comprobando la
distribución de los datos. A veces, en los
histogramas se incluye una línea que
representa la forma de la distribución y así
es posible comprobar visualmente si la
distribución de los datos de desvía de
esta línea.
En otras palabras…
Los valores de la variable dependiente
son normalmente distribuidos para cada
posible combinación de los niveles de las
X variables.
Distribución normal de la
variable edad.
Linealidad
Se asume una relación lineal recta entre la
variable dependiente y las independientes.
En la práctica, este supuesto no suele
verificarse, dado que los procedimientos de
regresión múltiple no suelen ser gravemente
afectados por leves desviaciones de este
supuesto. Si la curvatura de la relación es
evidente, se pueden
transformar las
variables o recurrir de forma explícita a
modelos no lineales.
sigue…
La linealidad implica que las medias de las
distribuciones de la variable dependiente
han de ubicarse en una línea recta para
cada variable independiente y que, para
cada combinación de valores de las
variables independientes, la distribución
de la variable dependiente es normal con
variancia constante.
Definición de modelo lineal
Los modelos en que todos los parámetros
(b0,b1,…,bp) tienen exponentes de uno se
denominan modelos lineales.
Los
modelos
cuyos
parámetros
(b0,b1,…,bp) tienen de exponente valores
distintos de la unidad se denominan
modelos no-lineales.
Línea de ajuste del peso a la altura
libras/pulgadas
Height vs Weight
80
Weight (lbs)
75
70
65
60
55
115
125
135
145
Height (ins)
155
165
175
Líneas de Regresión (Línea de
mejor ajuste)
Regression line for r = - 1.00
Regression line for r =1.00
12
Dependent variable
Dependent variable
12
10
8
6
4
2
10
8
6
4
2
0
0
0
2
4
6
8
Independent variable
10
12
0
2
4
6
8
Independent variable
10
12
Cambios en la línea de mejor
ajuste
Regression line for r = 0.85
Regression line for r = 0.95
12
Dependent variable
Dependent variable
12
10
8
6
4
2
10
8
6
4
2
0
0
0
2
4
6
8
Independent variable
10
12
0
2
4
6
8
Independent variable
10
12
Homoscedasticidad
Las variancias de los valores de la
variable dependiente (datos del estudio),
para cada posible combinación de niveles
de las variables X, son iguales; es decir, la
variancia de los residuales es constante.
Los supuestos de normalidad, linealidad y
homoscedasticidad se pueden verificar
mediante el gráfico de dispersión. En este
gráfico, los valores predichos de Y (Ŷ) se
trasladan al eje X (eje horizontal) y los
residuales Y-Ŷ al eje Y (eje vertical).
No colinealidad
La colinealidad asume que las variables
independientes están correlacionadas.
Supóngase que la altura de una persona
tiene dos predictores: peso en libras y
peso en kilos. Estos dos predictores son
redundantes, ya que el peso es único
independientemente de si se mide con
libras o kilos.
..//..
Cuando esto ocurre, significa que al
menos una de las variables predictoras es
totalmente redundante con otras variables
del modelo. El indicador estadístico de
este fenómeno es conocido por tolerancia.
Es decir, el modelo de las regresión
múltiple asume la no correlación entre las
variables independientes.
Relación entre variables
independientes
Tolerancia es el grado en que
puede ser predicho de otros
La tolerancia es igual a 1
variables
independientes
relacionadas.
un predictor
predictores.
cuando las
no
están
Singular. De igual modo una relación es
singular
cuando
un
predictor
es
perfectamente
predecible
de
otros
predictores (tolerancia igual a cero).
Resumen supuestos del
modelo
 Normalidad
- Los valores de Y han de distribuirse
normalmente para cada uno de los valores de
X
- La distribución de probabilidad del error ha
de ser normal
 Homoscedasticidad (variancia constante)
E(σi2)
sigue…
 Independencia de errores E(eiej)=0 (i ≠ j)
 Linealidad (las medias de los valores de Y se
ordenan en línea recta)
 Las variables independientes son medidas sin
error
 No debe producirse una relación lineal exacta
entre cualquier subconjunto de variables
explicativas (perfecta multicolinialidad)
Otros modelos
Modelos de variables dummy
(categóricas) y de interacción
Variables dummy
Las variables ‘dummy’ (ficticias) se
refieren a las dimensiones de variación
que toman dos valores o categorías. Por
lo general, se utilizan los valores 0 y 1
para representar una categoría u otra de
la variable (por ejemplo género).
Diseño experimental
Con el diseño experimental, las variables
independientes suelen ser categóricas y, a
veces, dummy.
Suelen recibir el nombre de variables de
tratamiento.
El objetivo es comparar las medias de los
grupos de tratamiento.
Se utiliza el modelo estadístico ANOVA.
Modelos con componentes no
aditivos o interactivos
Y = b0 + b1X1 + b2X2 + b12X1X2 + e
Y = b0 + ΣjbjXj + ΣjΣkbjkXjXk + e
Modelos no lineales
Modelos
cuyas
variables
tienen
exponentes distintos de la unidad, como
por ejemplo, los modelos polinómicos,
exponenciales, etc.
Modelos polinómicos no lineales
Y = b0 + b1X1 + b2X1² + ... + bkX1k + e
Modelo de dos variables, k = 2
Y = b0 + b1X1 + b2X2 + b11X1² + b22X2² +
b12X1X2 + e
Forma simplificada:
Y = b0 + ΣjbjXj + ΣjbjjXj² + ΣjΣkbjkXjXk + e
¡Cuestión!
Hemos presentado un conjunto de
modelos estadísticos basados en la
regresión simple y múltiple (lineal y no
lineal). La cuestión que se nos plantea es
la siguiente:
¿Dados unos datos, cómo se procede
para ajustar un modelo estadístico?
Proceso de ajuste del modelo
estadístico
Selección del modelo
Estimación de parámetros
Inferencia estadística
Pasos para el ajuste
Selección (1)
Selección del modelo
El modelo de la regresión se selecciona
teniendo en cuenta:
a) la naturaleza de la variable dependiente
b) cantidad de variables independientes o
explicativas (su estatus teórico)
..//..
c) Si la variable dependiente es
cuantitativa de distribución normal, se
aplica la regresión lineal. Si la variable
dependiente es categórica, entonces la
alternativa es la regresión logística.
d) Cuando se tiene una sola variable
independiente, el modelo de la regresión
es simple. Con dos o más variables
explicativas el modelo de la regresión es
múltiple.
Estimación de parámetros (2)
Parámetros del modelo
Sea el modelo:
Yi = bo + b1X1 + b2X2+ e
Los parámetros a estimar son:
b0 = intercepto o constante
b1 = efecto asociado a la primera variable X1
b2 = efecto asociado a la segunda variable X2
2e = variancia del error o residual
..//..
 b1 se interpreta como un cambio en Y por una
unidad de cambio en X1, siendo X2 constante.
Este enunciado no es muy claro cuando X1 y X2
no son independientes.
 Malentendido 1: ‘bj’ siempre mide el efecto de Xj
sobre E(Y), independiente de otras variables X.
 Malentendido 2: un valor ‘b’ estadísticamente
significativo establece una relación de causa y
efecto entre X e Y.
Resumen: interpretación de los
parámetros o coeficientes
Constante ‘b0’:
Intercepto o valor promedio de Y
cuando todas las Xj = 0.
 Pendiente ‘bj’:
Cambios estimados de Y por cada
unidad de cambio en Xj. Siendo
todas las otras variables constantes.
¡Cuestión!
Dada la importancia que tienen, para el
ajuste el modelo y la interpretación de los
resultados, los parámetros o coeficientes,
se suele distinguir entre los coeficientes ‘b’
(no estandarizados) y los coeficientes ‘β’
(beta o estandarizados).
..//..
El coeficiente ‘b’ es, como se indicado, el
cambio esperado en Y por cada unidad de
cambio en Xj, cuando el resto de variables
están controladas.
El coeficiente ‘β’ es el cambio esperado en
Y en unidades de desviación estándar por
cada unidad estándar de cambio en Xj,
cuando el resto de variables están
controladas.
A propósito de la interpretación
de los coeficientes
Los parámetros ‘b’ tienen la ventaja de ser
interpretados en las unidades de medida
originales.
Los coeficientes ‘β’ son directamente
comparables por su importancia en la
variable Y. No pueden ser interpretados en
la escala de medida original.
Ejemplo de ‘’
El valor beta es una medida de la
intensidad con que cada predictor influye
en la variable criterio. Es medida en
unidades de desviación estándar. Así, un
valor beta de 2.5 indica que un cambio en
una unidad estándar del predictor resulta
un cambio de 2.5 unidades estándar en la
variable criterio.
Inferencia y significación
estadística (3)
Pasos a seguir en la evaluación
del modelo
 Una vez especificado el modelo de la regresión,
se necesita conocer en qué medida se ajusta a
los datos. Para ello,
 a) probaremos, en primer lugar, el ajuste del
modelo global de la regresión.
 b) a continuación, probamos la significación de
cada variable independiente.
 c) o bien, modelos parciales.
Cómo evaluar el modelo de la
regresión múltiple
Se suele recurrir a distintas estrategias según se
trate del modelo global o de los parámetros
individuales. A veces se prueban submodelos o
modelos parciales.
 Evaluación global
 Evaluación individual de los parámetros
 Evaluación de submodelos
Pruebas de significación a partir
de un ejemplo
Ejemplo práctico (datos
simulados)
Supongamos que se pretende estudiar el
impacto que sobre un Cuestionario sobre
Satisfacción Vital tienen las siguientes
variables:
Edad
Ingresos
Cantidad de hijos
Salud
Pruebas de significación
En el contexto de la regresión pueden
seguirse, tres estrategias de prueba:
a) Prueba del modelo completo o global,
con todos los coeficientes. Para ello se
usa el coeficiente de determinación (R2)
mediante el estadístico F.
b) Prueba de los coeficientes individuales
de la regresión mediante el estadístico t.
c) Cabe también la posibilidad de probar
subconjuntos de variables independientes
o modelos parciales.
(a) Estadísticos para la prueba
del modelo total
Para conocer el grado de ajuste del
modelo se utilizan dos estadísticos: R2
(coeficiente de determinación) y R2
ajustado.
R2 indica la proporción de variación de la
variable criterio (Y) explicada por el
modelo. En suma, es un medida de la
bondad de la predicción de la variable
criterio por las variables predictoras.
..//..
Coeficiente de determinación
múltiple (R2)
Proporción de variación en Y ‘explicada’
por el conjunto de variables X.
Nunca decrece cuando una nueva
variable X es introducida en el modelo.
La prueba de la hipótesis R2 = 0 indica que
todas las variables X, de forma conjunta,
no explican la variación de Y.
sigue…
El estadístico R2 mide la contribución total
de las X’s.
Su cálculo viene dado por la expresión
siguiente:
R
2

Variación explicada
Variación t otal

SC yy  SCE
SC yy
 1
SCE
SC yy
El coeficiente de determinación R2 tiende,
en cierto modo, a sobre-estimar la bondad
del modelo cuando se aplica al mundo
real. Por ello, se calcula el coeficiente de
determinación ajustado que tiene en
cuenta el número de variables del modelo
y
el
número
de
observaciones
(participantes) en que se basa el modelo.
Inconvenientes del R2: no sirve para
comparar modelos.
R2 ajustado
Dicho de forma más simple, el coeficiente
de determinación R2 es sensitivo a la
magnitud de la muestra (n) y a la cantidad
de variables independientes o regresores
(p) cuando las muestras son pequeñas. Si
p es grande en relación a n, el modelo
tiende a ajustarse muy bien.
Una mejor medida de bondad de ajuste es
el R2 ajustado.
cálculo
n -1
R2 ajustado= 1 - (--------------)(1-R2)
n–p–1
 Ventajas: R2 es corregido por el tamaño de la
muestra
y
la
cantidad
de
variables
independientes; sirve para comparar modelos.
Prueba de R2
Se ha señalado que cuando se prueban
todos los coeficientes de la regresión, se
utiliza el coeficiente de determinación. En
este caso, se prueba si hay una relación
lineal entre la variable criterio y el conjunto
de variables independientes o predictores
del modelo.
Hipótesis a probar:
H0: β1=… βk= 0
H1: al menos un parámetro es no cero,
βk ≠ 0
Puesto que no se conoce la forma de la
distribución de probabilidad del estadístico
R2, se utiliza en su lugar el estadístico F
(ANOVA aplicado a la regresión).
¿Qué tipo de prueba ha de
usarse?
La distribución utilizada se denomina distribución
de Fisher. El estadístico F toma la siguiente
forma.
Curva de la distribución de F
Area = 
F,v ,v
1
2
reject H0
Prueba de significación total.
Ejemplo hipotético
H0: β1 = β2 = … = βp = 0
H1: Al menos una βp  0
 = .05
gl= 4 y 14
Valor crítico:
Prueba estadística:
F 
23.751
Decisión:
Rechazo con  = 0.05
Conclusión:
 = 0.05
0
3.11
F
Hay evidencia de que al
menos una variable
independiente afecta a Y
(b) Significación individual de os
parámetros. Prueba de los
coeficientes individuales
Prueba de los coeficientes de la
regresión individuales
 Siguiendo los pasos del programa SPSS se
tiene:
 1. Cálculo de los coeficientes no estandarizados
 2. Estimación del error estándar de estos
coeficientes
 3. Obtención de los coeficientes beta
 4. Cómputo del valor de t de los coeficientes no
estandarizados
 5. Significación estadística de las t
Pruebas de hipótesis de los
parámetros estimados ‘β’
 Prueba de una cola
H0: βj = 0
H1: βj > 0, o βj < 0
Prueba de dos colas
H 0 : βj = 0
H 1 : βj ≠ 0
La prueba es de una cola o dos según la
hipótesis a probar sea unidireccional o
bidireccional (no importa que el valor del
estadístico sea mayor o menor que cero). ..//..
 Prueba estadística:

t b /s
bj
Se utiliza la t de Student: el valor estimado del
parámetro partido por su error estándar.
 Región de rechazo de H0:
to > t (o to < t)
|to| > t/2
Sea, por ejemplo, el siguiente
modelo
Y = β0 + β1X1 + β2X2 + β3X3 + β4X4 + e
Prueba de H0: bi = 0
H0: β1 = 0 (X1 no contribuye)
H1: β1 ≠ 0 (X1 contribuye)
H0: β2 = 0 (X2 no contribuye)
H1: β2 ≠ 0 (X2 contribuye)
H0: β3 = 0 (X3 no contribuye)
H1: β3 ≠ 0 (X3 contribuye)
sigue…
H0: β4 = 0 (X4 no contribuye)
H1: β4 ≠ 0 (X4 contribuye)
Pruebas estadísticas
b1
t= s
b1
rechazar Ho si |t| > t /2,n-k-1
(1- ) 100% Intervalo de confianza
bi - t/2,n-k-1sbi
a
bi + t/2,n-k-1sbi
Significación coeficientes
individuales
Obsérvese que sólo el coeficiente
asociado a la variable ingresos es
estadísticamente significativo.
t Test : Ejemplo hipotético
Test con un  = 0.05.
H0: β2 = 0
Prueba estadística:
H1: β2  0
t Test Statistic = 3.491
Decisión:
Reject H0 con  = 0.05
gl = 14
Valores críticos:
Rechazo H0
.025
-2.145
Rechazo H 0
.025
0 2.145
Conclusión:
Hay evidencia de un efecto
significativo.
t
Intervalos de confianza
 Algunos autores prefieren los intervalos de
confianza a la prueba t.
 El Intervalo de confianza se refiere al intervalo
que, a un cierto nivel de confianza, contiene al
parámetro estimando.
 Nivel de confianza es la probabilidad de que el
intervalo calculado contenga el verdadero valor
del parámetro.
 El cálculo es como sigue:
b ± t(/2, g.l.)sb
Donde t es el valor teórico del estadístico para
/2 y los grados de libertad asociados a la
SCR (g.l. de la Suma de Cuadrados Residual
del ANOVA); sb el error estándar de b.
 El IC se representa por (1-)100%.
 Calculemos el intervalo de confianza del 95%
para un valor estimado de b = 1.18 y sb = .28.
Entrando en las tablas de t con un alfa de .05/2
=.025, y por ejemplo, con 18 g.l. (t =2.101).
 El intervalo de confianza del 95% es
1.18 ± (2.101)(.28) = .59 y 1.77
Con el intervalo de confianza, la prueba de la
hipótesis nula, β = 0, viene a ser un caso
especial. Con el ejemplo presente, 0 no está
incluido en el rango y la hipótesis de β = 0 es
por lo tanto rechazada con un  = 0.05
(c)
Prueba de significación de
modelos parciales
Prueba de modelos parciales
 Se examina la contribución de un
conjunto de variables en Y.
 La forma como se analiza la contribución
específica del conjunto de variables
define el procedimiento o método a
seguir.
 Varios procedimientos permiten evaluar
la contribución particular de cada
variable o predictor.
Métodos de selección de
variables
Cantidad de modelos
 Con el programa SPSS es posible construir
diferentes modelos a partir de las mismas
variables independientes.
 Así, con 5 variables independientes es posible
construir 32 modelos diferentes: 1 modelo con
sólo la constante, 5 modelos con sólo una
variable independiente, 10 modelos con 2
variables independientes, 10 modelos con 3
variables independientes, 5 modelos con 4
variables independientes y 1 modelo con 5
variables independientes.
Procedimientos a seguir
Con pocas variables independientes es
posible evaluar todos los posibles
modelos.
Con muchas variables independientes se
utilizan, por lo general, métodos que
añaden y quitan secuencialmente las
variables del modelo.
Tipos de procedimientos
Procedimiento enter o global
Jerárquico (de acuerdo a un orden)
Método simultáneo (Enter)
 En el método simultáneo, denominado en el
SPSS por ENTER, el investigador define e
introduce en el sistema el conjunto de
predictores que forman el modelo. A
continuación se evalúa la capacidad de este
modelo en predecir la variable criterio.
 Se trata, en definitiva, de probar un modelo
global o completo.
Métodos jerárquicos de
selección de variables
 En los métodos jerárquicos, las variables entran
en el modelo de acuerdo con un orden
determinado. El orden depende de las
consideraciones teóricas o de resultados
previos.
 Desde la perspectiva estadística, el orden de
entrada de las variables en el modelo viene
determinado por la fuerza de su correlación con
la variable criterio.
 En la actualidad hay diferentes versiones de
este método: stepwise selection, forward
selection, backward selection y remove.
Forward selection
 Forward selection: con el programa SPSS se
entran las variables una a un tiempo, de
acuerdo con la intensidad de su correlación con
la variable criterio. Se evalúa el efecto de haber
sido añadida al modelo.
 El procedimiento se para cuando no hay más
variables independientes que incrementen la
significación del estadístico (R2).
Backward selection
 La Backward selection empieza con todas las
variables del modelo y elimina la menos útil a un
tiempo.
 Una vez eliminada la variable del modelo, no
puede ser entrada de nuevo en un paso
posterior.
Remove
 El Remove es un procedimiento de selección de
variables en que se eliminan todas las variables
de un bloque en un solo paso.
Diagnóstico del modelo
Consideraciones generales
 Por lo general, para verificar si se cumplen o
violan los supuestos del modelo de la regresión,
se utilizan los residuales.
 Cuando se estudian las relaciones entre las
variables se desconoce si los datos violan los
supuestos del análisis de la regresión.
 No se sabe si hay una relación lineal entre las
variables (dependiente e independientes), si la
distribución de la variable dependiente es
normal y tiene variancia igual para todas las
combinaciones
de
valores
de
las
independientes, etc.
Enfoques del diagnóstico
 Finalizada la prueba de significación del modelo
o de los coeficientes, es posible llevar a cabo un
análisis de residuales de forma gráfica
(mediante los correspondientes plots) o bien la
prueba de Durbin-Watson (para comprobar si ha
correlación serial entre los residuales).
Verificación del supuesto de
no-colinealidad
Estadísticos de colinealidad:
Tolerancia y VIF (factor de
inflación de la varianza )
 Tolerancia: es una primera medida de la fuerza
de dependencia lineal entre las variables
independientes (Tp = 1 – Rp2).
 Un valor máximo de 1 indica que la variabilidad
de una variable independiente es escasamente
explicada por las otras. Un valor 0 indica que la
variable viene a ser una combinación lineal de
las restantes. Se dice, en este caso, que hay
multicolinealidad. Es deseable que, en general,
sea mayor a .40
sigue…
 VIF (variance inflation factor): a medida que la
multicolinealidad de uno de los regresores
aumenta, la variancia de su coeficiente
comienza a crecer. La multicolinealidad infla la
variancia del coeficiente (VIFp= 1/(1-Rxp2).
• La VIF tomará un valor mínimo de 1 cuando no
hay colinealidad y no tiene límite superior en el
caso de multicolinealidad. Por lo general,
valores superiores a 2 se consideran
problemáticos.
sigue..
 Ante
la
presencia
de
colinealidad
o
multicolinealidad, una solución lógica consiste
en quitar del modelo aquellas variables con más
alto VIF (o más baja tolerancia).
 Estos dos coeficientes (tolerancia y VIF) son
recíprocos, de modo que valores bajos para la
tolerancia o altos para FIV indica la existencia
de colinealidad. El problema es que este
procedimiento no expresa las variables
involucradas.
Diagnóstico de la colinealidad
Diagnósticos de la colinealidad
 Dimensiones: factores diferentes que subyacen
en el conjunto de las variables independientes.
 Autovalores o raíces características: ordenados
de mayor a menor, los valores próximos a 0
indican colinealidad.
 Índices de condición: raíz cuadrada (autovalor
mayor/autovalor). Valores por encima de 15 (30)
indican posibles problema de colinealidad
 Proporciones de variancia: proporción de la
variancia de cada coeficiente de la regresión
parcial bj que está explicada por cada factor.
sigue…
 Proporciones de variancia: Hay problema de
colinealidad si una dimensión (de índice de
condición alto) explica gran cantidad de la
variancia de dos o más variables.
 Si no existe colinealidad entonces cada
dimensión explica casi la varianza de un solo
coeficiente (salvo el b0 o Constante que va
asociado a uno de los otros coeficientes). Hay
problema de colinealidad si una dimensión (de
índice de condición alto) explica gran cantidad
de la varianza de dos o más variables.
Resto de supuestos: mediante
plots de los residuales
Obtención de los plots en el
SPSS
 En el modelo de la Regresión múltiple,
marcamos la opción plots.
 Al abrirse cuadro de diálogo, tenemos las
siguientes opciones:
– Obtener un scatterplot seleccionando las variables
del listado (una se mueve al recuadro Y y la otra al
recuadro X).
– Generar todos los plots parciales.
– Obtener el histograma y el plot de probabilidad
normal.
Variables disponibles (listadas
en el recuadro)
 DEPENDEN : variable dependiente
 ZPRED: valores predichos estandarizados de la
variable dependiente; valores pronósticos
divididos por su desviación estándar (media de
0 y desviación 1).
 ZREDI: residuales estandarizados.
 DRESID: residuales eliminados; es decir, al
efectuar los pronósticos se elimina de la
ecuación el caso sobre el que se efectúa el
pronóstico.
Variables disponibles (listadas
en el recuadro)
 DEPENDEN : variable dependiente
 ZPRED: pronósticos tipificados; pronósticos
divididos por su desviación estándar (media de
0 y desviación 1)
 ZREDI: residuos tipificados
 DRESID: residuos eliminados; es decir, al
efectuar los pronósticos se eliminan de la
ecuación el caso sobre el que se efectúa el
pronóstico
sigue…
 ADJPRED: valores predichos ajustados; es decir,
valores pronosticados sin incluir el caso
pronosticado.
 SRESID: residual estudentizado; dividido por su
desviación estándar que varía de un caso a otro
y se distribuye según la t de Student.
 SDRESID: residuales estudentizados eliminados
de la ecuación de la regresión.
1) Prueba de la linealidad
 Por lo general, la prueba de linealidad o ajuste
lineal es mediante el gráfico de la variable
dependiente contra la variable independiente. Si
los puntos se hallan cercanos a un línea recta
se infiere el supuesto. Se puede evaluar,
también, la linealidad con el scatterplot de los
residuales estandarizados o estudentizados
contra los valores predichos.
Scatterplot 1
Scatterplot 1
2) Prueba de independencia
Uno de los supuestos básicos del MRL
(modelos de la regresión lineal) es la
independencia entre las observaciones (y
en
consecuencia
residuales).
La
dependencia, por lo general, es un
problema cuando los datos se obtienen de
una serie.
sigue…
 Se puede probar la independencia mediante el
plot de los residuales estudentizados contra la
variable de secuencia (orden en que las
observaciones se obtienen).
 Cabe la posibilidad de utilizar el estadístico de
Durbin-Watson que aporta información sobre si
las
observaciones
adyacentes
están
correlacionadas. Si no hay correlación entre los
residuales, el valor del estadístico debería ser
cerca de 2. Un valor de 0 indicaría un
correlación positiva entre los residuales.
El estadístico de Durbin-Watson
 El estadístico de Durbin-Watson (DW)
proporciona información sobre el grado de
independencia entre los residuales. El
estadístico DW varía entre 0 y 4,y toma el valor
2 cuando los residuales son independientes.
Valores menores que 2 indica autocorrelación
positiva.
 A nivel práctico, se asume la independencia
entre los residuales cuando DW toma valores
entre 1.5 y 2.5
sigue..
El valor del residual es calculado por la
diferencia entre el correspondiente valor
empírico y teórico.
ei = Yi - Ŷi
3) Prueba de homoscedasticidad
 La variación de los residuos debe ser uniforme
en todo el rango de valores pronosticados; es
decir, el tamaño de los residuos es independiente
del tamaño de los pronósticos. O sea, el
diagrama de dispersión no debe mostrar ninguna
pauta de asociación entre los pronósticos y los
residuos.
 Para ello, ZRESID se traslada al eje Y y ZPRED
al eje X. Los residuales se dispersan
aleatoriamente alrededor de la línea horizontal
de 0.
Variancia constante
4) Prueba de normalidad
 Mediante el histograma de los residuos
estandarizados. La curva se construye con
media 0 y un desviación típica de 1. Estos no
ayuda ver si tienen una distribución normal.
 O bien, mediante el gráfico de probabilidad
normal. En el eje de las abscisas se representa
la probabilidad acumulada de cada residuo y en
el eje de las ordenadas la probabilidad
acumulada teórica o esperada.
Histograma de frecuencias
Plot de la probabilidad normal
Correlaciones
Correlaciones de orden cero: Una matriz
de correlaciones simple entre todas las
variables, incluyendo la variable de
control.
Correlaciones de Pearson
satvital
Pearson Correlationsatvital 1,000
edad
,800
ingresos ,889
nhijos
,811
salud
,425
Correlations
edad ingresos
,800
,889
1,000
,845
,845
1,000
,727
,789
,545
,516
nhijos
,811
,727
,789
1,000
,405
salud
,425
,545
,516
,405
1,000
Sig. (1-tailed)
satvital
edad
ingresos
nhijos
salud
.
,000
,000
,000
,031
,000
.
,000
,000
,006
,000
,000
.
,000
,010
,000
,000
,000
.
,038
,031
,006
,010
,038
.
N
satvital
edad
ingresos
nhijos
salud
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
20
Correlación parcial
 Correlación parcial: La correlación que hay entre
dos variables excluyendo el efecto que una
tercera variable puede tener sobre ambas. Es
pues, la correlación entre la variable
dependiente y una variable independiente
cuando los efectos lineales de las otras
variables independientes del modelo han sido
removidos. Neutralizando su efecto sobre la
dependiente e independiente.
Resumen correlaciones
sigue…
 Part Correlation (semiparcial). Denota la posible
relación entre un variable dependiente e
independiente, controlando la relación que esta
variable independiente pueda tener con otra u
otras variables independientes. Se neutraliza la
relación entre las dos independientes. Por lo
tanto, la correlación es semiparcial.
 Es referida, también, al cambio en R2 cuando
una variable es añadida una variable a la
ecuación (el cuadrado de la semiparcial es igual
al coeficiente de determinación de esta variable
cuando es añadida al modelo).
sigue…
 El procedimiento de Correlaciones Parciales
calcula los coeficientes de correlación parcial
que describen la relación lineal entre dos
variables mientras se controlan los efectos de
una o más variables adicionales.
 Las correlaciones son medidas de asociación
lineal.
Dos
variables
pueden
estar
perfectamente correlacionadas, pero si la
relación es no linear, un coeficiente de
correlación no es una estadístico apropiado
para medir su asociación.
Fin parte teórica
Descargar

Modelo lineal general - Universitat de Barcelona