Metodología de Investigación Científica
ANÁLISIS DE LA INFORMACIÓN
La relación entre variables.
Interpretación de resultados
Metodología de Investigación Científica
RELACIÓN ENTRE VARIABLES
El estudio de las relaciones de complementariedad
y/o dependencia entre 2 o mas variables nos
permite explicar (deducir) diversas interrogantes
científicas asociadas a un problema.
La técnica de deducción será importante para
determinar la calidad de nuestras conclusiones.
Metodología de Investigación Científica
RELACIÓN ENTRE VARIABLES
En la practica las medidas de tendencia central,
variabilidad, asimetría y curtosis de una única
variable deben ser complementadas con el
examen de las relaciones conjuntas entre otras
variables (dos o más variables conjuntamente). Por
ejemplo relación entre inteligencia y rendimiento,
etc.
Metodología de Investigación Científica
inteligencia
rendimiento
rendimiento
rendimiento
RELACIÓN ENTRE VARIABLES
inteligencia
inteligencia
Relación lineal
Sin
Relación lineal
negativa
relación
positiva
Nota: El coeficiente de correlación de Pearson mide
relación LINEAL.
Metodología de Investigación Científica
rendimiento
rendimiento
RELACIÓN ENTRE VARIABLES
inteligencia
Relación
lineal
inteligencia
Relación no
lineal
Nota: El coeficiente de correlación de Pearson mide
relación LINEAL.
Metodología de Investigación Científica
INDICE DE CORRELACIÓN DE PEARSON
• El coeficiente de correlación
lineal de Pearson de dos
variables, r, nos indica si los
puntos tienen una tendencia a
disponerse
alineadamente
(excluyendo rectas horizontales y
verticales).
r
S xy
SxS y
6
Metodología de Investigación Científica
INDICE DE CORRELACIÓN DE PEARSON
• Tiene el mismo signo que Sxy .
Por tanto de su signo obtenemos
el que la posible relación sea
directa o inversa.
• r es útil para determinar si hay
relación
lineal
entre
dos
variables, pero no servirá para
otro
tipo
de
relaciones
(cuadrática, logarítmica,...)
r
S xy
SxS y
7
Metodología de Investigación Científica
PROPIEDADES DE R
•
•
•
•
Es adimensional
Sólo toma valores en [-1,1].
Las variables son incorreladas  r = 0.
Relación lineal perfecta entre dos variables  r =
+1 o r = -1.
– Excluimos los casos de puntos alineados horiz.
o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el
grado de relación lineal.
– Siempre que no existan observaciones
anómalas.
Metodología de Investigación Científica
PROPIEDADES DE R
Relación
inversa
perfecta
-1
Variables
incorreladas
0
Relación
directa casi
perfecta
+1
Metodología de Investigación Científica
PROPIEDADES DE R
• ¿Si r = 0 eso quiere decir que
las variables son independientes?
– En la práctica, casi siempre sí, pero no tiene por qué ser
cierto en todos los casos.
– Lo contrario si es cierto. Independencia implica
incorrelación.
•
Me ha salido r = 1,2 ¿La relación es “superlineal” [sic]?
– ¿Superqué? Eso es un error de cálculo. Siempre debe
tomar un valor entre -1 y +1.
Metodología de Investigación Científica
PROPIEDADES DE R
•
¿A partir de qué valores se considera que hay “buena
relación lineal”?
– Es difícil dar un valor concreto (mirad los gráficos
anteriores). Para este curso digamos que si |r| > 0,7
hay buena relación lineal y que si |r| > 0,4 hay cierta
relación (por decir algo... la cosa es un poco más
complicada: observaciones anómalas,...)
11
Metodología de Investigación Científica
inteligencia
Relación lineal perfecta
(casi perfecta)
rendimiento
rendimiento
rendimiento
RELACIÓN ENTRE VARIABLES
inteligencia
Relación lineal
fuerte/moderada
inteligencia
Relación lineal débil
Ahora necesitamos un índice que nos informe tanto del grado en que X
e Y están relacionadas, y si la relación es positiva o negativa
Metodología de Investigación Científica
rendimiento
COVARIANZA E ÍNDICE DE CORRELACIÓN PEARSON
Caso 1
Observad que cuando la relación lineal es
positiva,
cuando
las
puntuaciones
diferenciales de X son positivas, las
puntuaciones diferenciales de Y suelen ser
positivas.
rendimiento
inteligencia
Caso 2
inteligencia
Observad que cuando la relación lineal es
negativa,
cuando
las
puntuaciones
diferenciales de X son positivas, las
puntuaciones diferenciales de Y suelen ser
negativas.
Metodología de Investigación Científica
COVARIANZA
La covarianza aprovecha esta característica
señalada en la transparencia anterior (al emplear
el producto de las puntuaciones diferencias de X e
Y). He aquí la fórmula:
n
sxy 
 X
i 1
i
 X Yi  Y 
n
Metodología de Investigación Científica
COVARIANZA
En el caso 1, la covarianza será un valor positivo, y en
el caso 2, la covarianza será un valor negativo. Por
tanto la covarianza nos da una idea de si la relación
entre X e Y es positiva o negativa.
Problema: la covarianza no en un índice acotado (v.g.,
cómo interpretar una covarianza de 6 en términos del
grado de asociación), y no tiene en cuenta la
variabilidad de las variables. Por eso se emplea el
siguiente índice....
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
El coeficiente de correlación de Pearson parte
de la covarianza:
n
rxy 
 X
i 1
i
 X Yi  Y 
n  sx  s y
rxy 
sxy
sx  s y
Ahora veremos varias propiedades del índice..
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
Propiedad 1. El índice de correlación de Pearson
no puede valer menos de -1 ni más de +1.
Un índice de correlación de Pearson de -1 indica
una relación lineal negativa perfecta
Un índice de correlación de Pearson de +1 indica
una relación lineal positiva perfecta.
Un índice de correlación de Pearson de 0 indica
ausencia de relación lineal. (Observad que un valor
cercano a 0 del índice no implica que no haya algún
tipo de relación no lineal: el índice de Pearson mide
relación lineal.)
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
Propiedad 2. El índice de correlación de Pearson
(en valor absoluto) no varía cuando se transforman
linealmente las variables.
Por ejemplo, la correlación de Pearson entre la
temperatura (en grados celsius) y el nivel de
depresión es la misma que la correlación entre la
temperatura (medida en grados Fahrenheit) y el
nivel de depresión.
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
Propiedad 2. El índice de correlación de Pearson
(en valor absoluto) no varía cuando se transforman
linealmente las variables.
Evidentemente, el índice de correlación de Pearson
es el mismo entre las puntaciones directas de X e
Y, o entre las puntuaciones diferenciales de X e Y, o
entre las puntuaciones típicas de X e Y. (Recordad
que las puntuaciones diferenciales y las
puntuaciones típicas son transformaciones lineales
de las puntuaciones directas.)
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
Interpretación
Hemos de tener en cuenta qué es lo que estamos midiendo para
poder interpretar cuán grande es la relación entre las variables
bajo estudio. En muchos casos, depende del área bajo estudio.
rendimiento
En todo caso, es muy importante
efectuar el diagrama de dispersión.
Por ejemplo, en el caso de la
izquierda, es claro que no hay relación
entre inteligencia y rendimiento. Sin
embargo, si calculamos el índice de
correlación de Pearson nos dará un
valor muy elevado, causado por la
puntuación atípica en la esquina
superior derecha.
inteligencia
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
Interpretación (2)
Es importante indicar que “CORRELACIÓN
NO IMPLICA CAUSACIÓN”. El que dos
variables estén altamente correlaciones no
implica que X causa Y ni que Y causa X.
(Esa es una de las razones empleadas por las
tabaqueras en el tema de la correlación entre
cáncer de pulmón y el hecho de fumar.)
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
Interpretación (3)
que el coeficiente de correlación de Pearson puede verse afectado
por la influencia de terceras variables.
Por ejemplo, si fuéramos a un colegio y medimos la estatura y
pasamos una prueba de habilidad verbal, saldrá que los más altos
también tienen más habilidad verbal...claro, que eso puede ser
debido simplemente a que en el colegio los niños más altos serán
mayores en edad que los más bajos.
Habilidad
numérica
14 a
12 a
10 a
8a
6 años
Estatura
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
Habilidad
numérica
14 a
12 a
Si se parcializa esta “tercera”
variable (mediante “correlación
parcial”, que ya veremos más
adelante), difícilmente habrá una
relación de importancia entre
estatura y habilidad numérica.
10 a
8a
6 años
Estatura
Hay muchos casos en que es la
tercera variable la causante de
una alta relación entre X e Y (y
ello muchas veces es difícil de
identificar)
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
Interpretación (3)
Rendimiento
Por otra parte, el valor del coeficiente de Pearson depende
en parte de la variabilidad del grupo.
Si efectuamos el coeficiente de
Pearson
entre
inteligencia
y
rendimiento con todos los sujetos, el
valor del coeficiente de Pearson
será bastante elevado.
CI bajo
CI alto
inteligencia
Sin
embargo,
si
empleamos
únicamente los individuos con CI
bajo (o CI alto) y calculamos la
correlación con Rendimiendo, el
valor del coeficiente de Pearson
será claramente menor.
Metodología de Investigación Científica
COEFICIENTE CORRELACIÓN (LINEAL) DE PEARSON
Rendimiento
Interpretación (3)
Un grupo heterogéneo daría pues
un mayor grado de relación entre
variables
que
un
grupo
homogéneo.
CI bajo
CI alto
inteligencia
Metodología de Investigación Científica
INTRODUCCIÓN A LA CORRELACIÓN MÚLTIPLE
En este caso, se estudian conjuntamente 3 o
más variables. Veremos ahora dos casos:
•El análisis de la correlación de una de las
variables con las otras dos consideradas
conjuntamente (correlación múltiple)
•La correlación existente entre dos variables,
eliminando el influjo de la tercera variable
(correlación parcial)
Metodología de Investigación Científica
INTRODUCCIÓN A LA CORRELACIÓN MÚLTIPLE
El coeficiente de correlación múltiple es un índice que
mide la relación existente entre una variable X1 y otras
variables,
X2,
X3,
....,
consideradas
éstas
conjuntamente.
Para simplificar veremos el caso de tres variables. Es
decir, el coeficiente de correlación múltiple medirá la
relación entre X1 y las variables X2 y X3 consideradas
conjuntamente.
R1.23
r122  r132  r12  r13  r23

1  r232
(hay otras fórmulas)
Metodología de Investigación Científica
INTRODUCCIÓN A LA CORRELACIÓN MÚLTIPLE
El coeficiente de correlación múltiple es aceptado
como positivo; no obstante, no tiene sentido hablar de
sentido (positivo/negativo), dado que es función de
varias correlaciones, algunas de las cuales pueden
ser positivas y otras negativas. Su valor está entre 0 y
1.
El valor del coeficiente de correlación múltiple tiende a
aumentar cuando aumentan r12 y r13 , y disminuye r23
R1.23
r122  r132  r12  r13  r23

1  r232
Metodología de Investigación Científica
INTRODUCCIÓN A LA CORRELACIÓN MÚLTIPLE
Datos (N=5)
X1
X2
X3
Rendim Ansied Neurot
9
3
5
3
12
15
6
8
8
2
9
7
7
7
6
Correlaciones
RENDIM
ANSIE
NEURO
Correlación de Pearson
Sig . (bilateral)
N
Correlación de Pearson
Sig . (bilateral)
N
Correlación de Pearson
Sig . (bilateral)
N
RENDIM
1
.
5
-.865
.058
5
-.600
.285
5
ANSIE
-.865
.058
5
1
.
5
.853
.066
5
NEURO
-.600
.285
5
.853
.066
5
1
.
5
r12  0'865
r13  0'600
r23  0'853
Metodología de Investigación Científica
INTRODUCCIÓN A LA CORRELACIÓN MÚLTIPLE
Datos (N=5)
Rendim
9
3
6
2
7
R1.23
Ansied Neurot
3
5
12
15
8
8
9
7
7
6
(0'865)2  (0'600) 2  (0'865)(0'600)(0'853)

1  (0'853)2
R1.23  0'904
Resumen del modelo
Modelo
1
R
.904a
R cuadrado
.817
R cuadrado
correg ida
.634
Error típ. de la
estimación
1.744
a. Variables predictoras: (Constante), NEURO, ANSIE
Observad que este coeficiente es
sólo un poco mayor que el que
había entre las variables X1 y X2
Metodología de Investigación Científica
INTRODUCCIÓN A LA CORRELACIÓN MÚLTIPLE
Nuevo Conjunto Datos (N=5)
Rendim
9
3
6
2
7
Ansied Extrov
3
20
12
10
8
11
9
14
7
7
Correlaciones
RENDIM
ANSIE
EXTRO
Correlación de Pearson
Sig . (bilateral)
N
Correlación de Pearson
Sig . (bilateral)
N
Correlación de Pearson
Sig . (bilateral)
N
RENDIM
1
.
5
-.865
.058
5
.320
.599
5
ANSIE
-.865
.058
5
1
.
5
-.629
.255
5
EXTRO
.320
.599
5
-.629
.255
5
1
.
5
Observad que ahora la
correlación entre X1 y X3
es de menor grado que
antes; pero veremos que
se compensa por el hecho
de que la correlación de
X2 y X3 es también menor.
Metodología de Investigación Científica
INTRODUCCIÓN A LA CORRELACIÓN MÚLTIPLE
Nuevo Conjunto Datos (N=5)
Rendim
9
3
6
2
7
Ansied Extrov
3
20
12
10
8
11
9
14
7
7
Resumen del modelo
Modelo
1
R
.912a
R cuadrado
.831
R cuadrado
correg ida
.662
Error típ. de la
estimación
1.675
a. Variables predictoras: (Constante), EXTRO, ANSIE
Podéis ver que ahora el
coeficiente de correlación
múltiple es (ligeramente)
mayor que en el caso
anterior.
Veremos más sobre todo esto en el tema siguiente (apartado de “regresión múltiple”)
Metodología de Investigación Científica
CORRELACIÓN PARCIAL
Ya vimos antes que efectuar la correlación de Pearson
entre la estatura y la habilidad numérica en un grupo
de niños podía estar influida por la edad (es decir, al
aumentar la edad aumenta la estatura y aumenta la
habilidad numérica).
¿Cómo controlamos el efecto de la edad en tal caso?
Primera posibilidad (eliminación empírica)
Se trataría de formar subgrupos de edad, en el que
cada uno de ellos la edad fuera similar y se calcular el
coeficiente de Pearson para cada subgrupo. Esto es
correcto, pero quizás ahora cada uno de estos
coeficientes se calcule con pocos individuo, lo que
puede restar cierta estabilidad.
Metodología de Investigación Científica
CORRELACIÓN PARCIAL
Segunda posibilidad (eliminación estadística)
Se trataría de utilizar los datos del grupo completo y
se elimina la influencia de la tercera variable de
manera estadística.
r12.3 
r12  r13  r23
1  r132 1  r232
Evidentemente, el valor de este índice estará entre
-1 y +1, y la interpretación es análoga al coeficiente
de correlación de Pearson.
Metodología de Investigación Científica
CORRELACIÓN PARCIAL
Datos (N=5)
Rendim
9
3
6
2
7
Ansied Neurot
3
5
12
15
8
8
9
7
7
6
Queremos calcular la correlación de Pearson entre Rendimiento y Ansiedad,
manteniendo constante la influencia de la variable “neuroticismo”
r12.3 
(0'865)  (0'600)(0'853)
1  (0'600)
2
1  (0'853)
2
r12.3  0'845
Es un valor muy parecido al que
teníamos sin controlar el “neuroticismo”
Metodología de Investigación Científica
REGRESIÓN LINEAL
• El término regresión fue introducido por
Galton en su libro “Natural inheritance”
(1889) refiriéndose a la “ley de la
regresión universal”:
– “Cada peculiaridad en un hombre es
compartida por sus descendientes,
pero en media, en un grado menor.”
• Regresión a la media
Francis Galton
36
Metodología de Investigación Científica
REGRESIÓN LINEAL
• El término regresión fue introducido por
Galton en su libro “Natural inheritance”
(1889) refiriéndose a la “ley de la
regresión universal”:
– Su trabajo se centraba en la
descripción de los rasgos físicos de
los descendientes (una variable) a
partir de los de sus padres (otra
variable).
Francis Galton
37
Metodología de Investigación Científica
REGRESIÓN LINEAL
Pearson (un amigo suyo) realizó un estudio con
más de 1000 registros de grupos familiares
observando una relación del tipo:
• Altura del hijo = 85cm + 0,5 • altura del
padre (aprox.)
Conclusión: los padres muy altos tienen
tendencia a tener hijos que heredan parte de esta
altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de
los padres muy bajos.
• Hoy en día el sentido de regresión es el de
predicción de una medida basándonos en el
conocimiento de otra.
38
Metodología de Investigación Científica
REGRESIÓN LINEAL SIMPLE
• El análisis de regresión sirve para predecir
una medida en función de otra medida (o
varias: regresión múltiple).
– Y = Variable dependiente
• predicha, medida, es una variable
aleatoria. Explicada
– X = Variable independiente
• predictora, controlada, no es una
variable aleatoria. Explicativa
39
Metodología de Investigación Científica
REGRESIÓN LINEAL SIMPLE
• El análisis de regresión sirve para predecir
una medida en función de otra medida (o
varias: regresión múltiple).
– ¿Es posible descubrir una relación?
• Y = f(X) + error
–f es una función de un tipo
determinado
–el error es aleatorio, pequeño, y no
depende de X
40
Metodología de Investigación Científica
MODELO DE REGRESIÓN LINEAL SIMPLE
• En el modelo de regresión lineal simple, dado
dos variables
– Y (dependiente)
– X (independiente, explicativa)
• buscamos encontrar una función de X muy
simple (lineal) que nos permita aproximar Y
mediante
– Ŷ = b 0 + b 1X
• b0 (ordenada en el origen, constante)
• b1 (pendiente de la recta)
Metodología de Investigación Científica
MODELO DE REGRESIÓN LINEAL SIMPLE
• Y e Ŷ rara vez coincidirán por muy bueno que
sea el modelo de regresión. A la cantidad
– e = Y-Ŷ se le denomina residuo o error
residual.
Metodología de Investigación Científica
MODELO DE REGRESIÓN LINEAL SIMPLE
•
El modelo lineal de regresión se construye utilizando la técnica de
estimación mínimo cuadrática:
– Buscar b0, b1 de tal manera que se minimice la cantidad
• Σi ei2 = Σi (Yi -Ŷ )2
•
Se comprueba que para lograr dicho resultado basta con elegir:
b1  r
Sy
Sx
r
b0  y  b1 x
•
La recta de regresión estimada será:
•
Se obtiene además unas ventajas “de regalo”:
S xy
SxS y
yˆ  y  b1 ( x  x )
– El error residual medio es nulo.
– La varianza del error residual es mínima para dicha estimación.
Metodología de Investigación Científica
MODELO DE REGRESIÓN LINEAL SIMPLE
•
Que el error medio de las predicciones
sea nulo no quiere decir que las
predicciones sean buenas.
•
Hay que encontrar un medio de
expresar la bondad del ajuste (bondad
de la predicción).
No importa. Con los dos
últimos clientes me
equivoqué en +10 y +20.
En término medio el error
es cero.
Cometió un
error de - 30 en
su última
predicción
44
Metodología de Investigación Científica
¿CÓMO MEDIR LA BONDAD DE UNA REGRESIÓN?
Imaginemos un diagrama de
dispersión, y vamos a tratar de
comprender en primer lugar qué
es el error residual, su relación
con la varianza de Y, y de ahí,
cómo medir la bondad de un
ajuste.
45
Metodología de Investigación Científica
INTERPRETACIÓN DE LA VARIABILIDAD EN Y
En primer lugar olvidemos que
existe la variable X. Veamos cuál
es la variabilidad en el eje Y.
Y
La franja sombreada indica la zona
donde varían los valores de Y.
Proyección sobre el
eje Y = olvidar X.
46
Metodología de Investigación Científica
INTERPRETACIÓN DEL RESIDUO
Fijémonos ahora en los errores de predicción
(líneas verticales). Los proyectamos sobre el
eje Y.
Y
Se observa que los errores de predicción,
residuos, están menos dispersos que la
variable Y original.
Cuanto menos dispersos sean los residuos,
mejor será la bondad del ajuste.
47
Metodología de Investigación Científica
BONDAD DE UN AJUSTE
Y
Resumiendo:
• La dispersión del error residual será una fracción de
la dispersión original de Y.
•Cuanto menor sea la dispersión del error residual
mejor será el ajuste de regresión.
Eso hace que definamos como medida
de bondad de un ajuste de regresión,
o coeficiente de determinación a:
S
R  1
S
2
2
e
2
y
S  S
2
e
2
Y
48
Descargar

METODOLOGIA DE LA INVESTIGACION