UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE SOCIOLOGÍA
DEPARTAMENTO DE ESTADÍSTICA
RELACIÓN ENTRE
VARIABLES
Profa.: Brenda Yépez-Martínez
RELACIÓN ENTRE
VARIABLES
Profa.: Brenda Yépez-Martínez
Tema 3: Descripción Global de un Colectivo y Comparaciones desde la Perspectiva Bivariable
Relación entre variables cuantitativas
 Ecuación de una recta.
 Regresión: definición e importancia
 El método de los mínimos cuadrados: definición e importancia.
 Estimación de una ecuación de regresión lineal simple por el método de los Mínimos Cuadrados.
 Coeficiente de Correlación y Determinación: definición, cálculo e interpretación.
Relación entre variables cualitativas
 El Coeficiente de correlación por Rangos de Pearson: definición, cálculo, importancia e interpretación.
 La prueba Chi-Cuadrado de Pearson: definición, cálculo, interpretación e importancia.
 Coeficientes de Asociación
_____________________Relación entre variables cuantitativas
ANÁLISIS ESTADÍSTICO DE DOS VARIABLES CUANTITATIVAS
Nivel de Medición: Intervalo, Razón
La asociación entre variables presenta dos aspectos distintos pero estrechamente relaciona
ANÁLISIS DE REGRESIÓN SIMPLE
Establece la naturaleza de la relación entre
variables, estudia la relación funcional entre las
variables y por tanto proporciona un mecanismo de
predicción o pronóstico
ANÁLISIS DE CORRELACIÓN SIMPLE
Determina el grado o la fuerza de la relación o
asociación entre las variables
_____________________Relación entre variables cuantitativas
Objetivo del Análisis de Regresión
El análisis de regresión se utiliza con el propósito de hacer predicciones, y su objetivo es el
desarrollo de un modelo estadístico que pueda ser utilizado para predecir los valores de una
variable de respuesta o dependiente basados en los valores de una variable independiente o
explicativa.
En regresión los datos provienen de observaciones efectuadas en dos variables, las
distribuciones formadas para tales conjuntos de datos se denominan bivariantes o bivariadas.
Representación Gráfica de una Distribución Bidimensional.
Sean las siguientes Observaciones:
Y
Diagrama de Dispersión
NUBE DE PUNTOS
(X1 , Y1)
Y1
X1
X
X1 , X2 … Xn
Y1 , Y2 … Yn
_____________________Relación entre variables cuantitativas
Y
Y
Y
Relación Curvilinea
Positiva
Relación Lineal Positiva
X
Y
Y
Relación Lineal Positiva
Perfecta
X
Y
Relación Curvilinea
Negativa
Relación Lineal Negativa
X
Relación Lineal Negativa X
Perfecta
X
X
Y
Y
No exixte relación
X
Relación Curvilinea
Positiva
X
_____________________Relación entre variables cuantitativas
En el caso de que el Diagrama de Dispersión indique una relación de tipo lineal muchas son las
rectas que se pueden ajustar a la nube de puntos.
El Mátemático
Francés Adrian
Legendre (s.XIX)
Definió el método
que implica encontrar
la Línea Recta que
mejor se ajuste a los
datos
Dado un conjunto de datos bivariados (x,y)
Cómo se obtiene la recta de mejor ajuste?
Cómo elegir una recta de tal modo que los
errores o diferencias que se generan entre el
valor real y el valor obtenido a través de la recta
ajustada sean mínimos?
MÉTODO DE LOS MÍNIMOS CUADRADOS
Posee la propiedad de que la suma de los
cuadrados de las desviaciones de los valores
reales de “Y” o las distancias verticales de los
puntos a la línea recta sea mínima .
Simbólicamente:
2
n
 y
i
 yˆ 
i 1
y i  Valor Observado
yˆ  Valor Calculado
(MMC con e
de y
de y
l valor co rrespondie nte de x para y )
_____________________Relación entre variables cuantitativas
Y
Y2
(X2 , Y2)
e2+
(X2 , Ŷ2)
(X1 , Ŷ1)
Y1
e1(X1 , Y1)
X1
X2
X
Supongase que Ŷ=a+bx es la ecuación de una recta, donde (Ŷ) representa el valor predicho (Y)
que corresponde a un valor particular de (X). El criterio de los MINIMOS CUADRADOS requiere
2
n
que se encuentren constantes a y b tales que la suma
sea tan pequeña como sea
 y i  yˆ 

posible.
i 1
_____________________Relación entre variables cuantitativas
IMPORTANCIA DEL MÉTODO DE LOS MÍNIMOS CUADRADOS
• Permite realizar una estimación confiable ya que garantiza que la suma de los
errores o desvíos al cuadrado sea mínima
• El procedimiento para adaptar una recta a un conjunto de puntos presenta una
recta resultante con las siguientes características:
•
Es nula la suma de las desviaciones verticales de los puntos a partir de la
recta
• Es mínima la suma de los cuadrados de las desviaciones .
SU IMPORTANCIA FUNDAMENTAL RADICA EN QUE NINGUNA OTRA RECTA
DARÍA LA SUMA MENOR DE LAS DESVIACIONES ELEVADAS AL
CUADRADO.
_____________________Relación entre variables cuantitativas
Estimación de una Ecuación de Regresión Lineal Simple por el Método de los Mínimos
Cuadrados
El Análisis de Regresión Lineal Simple incluye dos aspectos fundamentales:
Encontrar una ecuación para
describir la forma de relación
entre las variables
La ecuación de la Línea recta es:
Y=a+bx
donde:
Y= Variable dependiente
a= Valor de la ordenada en el
origen
b= Pendiente de la recta
X= Variable independiente
Estimar una variable a partir de otra
variable; la variable que se estima es la
dependiente y la variable a partir del cual
se estima es la independiente.
X en Y
Y en X
_____________________Relación entre variables cuantitativas
La Ecuación de la Recta de mejor ajuste está determinado por:
• La pendiente (b) indica la inclinación de la recta respecto al eje X.
• La ordenada en el origen (a) denominada intercepto o punto de corte de la recta con el eje de las
ordenadas.
Los valores de las Constantes que satisfacen el criterio de los Mínimos Cuadrados se obtienen por
medio del siguiente sistema de Ecuaciones Normales:
y  a  bx
Resolviendo el Sistema de Ecuaciones

1ra Ecuación Normal
y  Na  b  x
 xy
 a x  b x
2
2da Ecuación Normal
a  y  bx
b 
N  xy  
N
 x
2
 y  x 
   x 
2
El coeficientes de regresión “a” es el valor que toma la variable dependiente “y” cuando la variable
independiente “x” vale cero.
El coeficientes de regresión “b” es el incremento negativo o positivo que sufre la variable dependiente “y”
cada vez que la variable independiente “x” se incrementa en una unidad.
_____________________Relación entre variables cuantitativas
La recta de regresión por Mínimos Cuadrados de “y” sobre “x” encontrada será:
yˆ  a  bx
Una vez llevado a cabo el ajuste se hace necesario medir la dispersión que existe entre
los valores reales y los obtenidos a través de la recta ajustada.
Varianza de la Recta de Regresión de
y/x:
n
2
ˆ


y

y

Sy
2
x

i 1
N
Desviación Estándar o Error Estándar de Estimación permite conocer la dispersión
existente entre los valores reales y los estimados. Proporciona la desviación de los
errores de predicción y por lo tanto es una indicación de la variabilidad de los valores
reales respecto a los obtenidos con la recta de regresión.
_____________________Relación entre variables cuantitativas
Objetivo
del
Correlación
Análisis
de
Un modelo que nos permite hacer estimaciones o predicciones no estaría completo sí no conocemos
acerca de la intensidad de la relación o el grado de asociación entre las dos variables en estudio.
El análisis de correlación se utiliza con el propósito de de disponer de un
indicador cuantitativo que permite sintetizar el grado de la asociación entre
variables.
Aspectos que contempla el Análisis de Correlación
La relación que pueda
existir
La dirección o tipo de
asociación
El grado de intensidad
_____________________Relación entre variables cuantitativas
Coeficiente de Correlación r de Pearson (r), (Rxy): Es un coeficiente que mide el grado de la
relación de dependencia que existe entre las variables (x,y), cuyos valores van desde –1,
correspondiente a una correlación negativa perfecta, hasta 1, correspondiente a una correlación
positiva perfecta.
Y
Y
Correlación Positiva Perfecta
r=1
“y” aumenta de una
manera perfectamente
predecible conforme se
incrementa “x”
X
Correlación Negativa Perfecta
r=- 1
“y” disminuirá de una
manera perfectamente
predecible en la medida
en que “x” aumenta
Y
X
Sin Correlación
r=0
X
No esiste relación entre “x” e
“y”.
_____________________Relación entre variables cuantitativas
Para llevarse a cabo un análisis de correlación de un conjunto de datos, el
coeficiente de correlación se calcula trabajando directamente con los valores de
las variables:
 n
  n
 n

N    x i y i      x i      y i  
 i 1
  i 1
  i 1

r 
2
  n
 n
 
2 
 N   xi     xi  
  i 1
 
  i  1
r  Coeficient
N  Numero
e de Correlació
2
  n
 n
 
2 
 N   yi     yi  
  i 1
 
  i  1
n Lineal
total de pares de valores
(x, y)
x  Puntaje
no elaborado
de una variable
y  Puntaje
no elaborado
de la otra variable
 x  Suma de los valores de " x "
 x  Suma de los cuadrados de " x"
 y  Suma de los cuadrados de " y"
 xy  Suma de los productos " xy"
 x   Cuadrado de la suma de " x"
2
2
2
 y 
2
 Cuadrado
de la suma de " y"
La magnitud del Coeficiente de
Correlación (r) indica cuan cerca
están los puntos de la recta
• Cuando r = -1 existe una correlación negativa
perfecta, inversamente proporcional
• Cuando r = 1 existe una correlación positiva
perfecta, directamente proporcional
• Cuando r = 0 las variables se denominan
incorrelacionadas o con ausencia asociación o
dependencia entre ellas
El grado de intensidad del coeficiente de
correlación será más fuerte, mientras más
se aleje r del valor cero.
_____________________Relación entre variables cuantitativas
Otra medida que se puede utilizar para expresar la relación entre dos variables aleatorias es la
COVARIANZA ya que constituye una medida numérica de la variación simultánea de las dos
variables aleatoria “x” y “y” es decir, indica la medida en la que dos variables VARÍAN
JUNTAS. Al igual que para el coeficiente de correlación, un signo positivo indica una relación
directa, en tanto que un signo negativo indica una relación inversa.
n
  x
Cov
(x,y)

i
 x  y i  y 
i 1
n
Cuando el valor observado de “y” tiende a variar en la misma dirección con respecto a su media,
entonces los productos de esas desviaciones tienden a ser positivos. Por ello la suma de esos
productos sería positiva, indicando una relación directa.
r 
Para transformar la Covarianza en el coeficiente de
correlación es:
Donde Cov (xy) expresa el valor esperado del producto
 x  x ( y 
Y Sx, Sy las desviaciones estándar
Cov  xy 
 Sx  Sy 
y)
El valor estadístico r es la covarianza entre “x” y
“y”.
_____________________Relación entre variables cuantitativas

Cuando se estudia la Varianza
como una medida de aproximación del ajuste, se
requiere también una medida que indique que tan bueno es el ajuste que se ha
realizado. Una medida utíl es:
2
COEFICIENTE DE DETERMINACIÓN: Es un coeficiente que se encuentra asociado a la
línea de regresión y es el grado en que las predicciones que se basan en la ecuación de
regresión son superiores a las basadas en el valor( ypromedio
de “y”
es deir, sí las
)
proyecciones que se fundamentan en la recta no son mejores que las que utiliza el valor
promedio de “y” no tiene sentido contar con una ecuación de regresión.
Y
Y
yˆ
y
Dispersión de puntos respecto de la X
media del grupo
Dispersión de puntos en lo referente
a la línea
X
_____________________Relación entre variables cuantitativas
Y
VNE   y i  yˆ i 
yˆ  a  bx
VT   y i  y 
VE   yˆ i  y 
y
y
X
VT   y i  y  Distancia Total a
y “Error Total” o “Variación total”
VE   yˆ i  y  Distancia de la línea de regresión a la y
VNE   y i  yˆ i  Distancia de una observación individual a la línea de regresión
_____________________Relación entre variables cuantitativas
La dispersión (error) asociada a la recta es mucho menor que la dispersión (error) relacionada
y con
,las predicciones que se basan en la línea serán mejores que las basadas
en
.
y
La variación de los puntos respecto dey
VariaciónT otal 
 y
i
 y
recibe el nombre de variación total
2
Suma de lo s reales m enos la me dia
Variación
No Explicada

 y
i
 yˆ 
2
Suma de lo s reales m enos los e stimados al cuadrado
Variación
Explicada

  yˆ
i
 y
Suma de lo s estimado s menos la
2
media al c uadrado
El porcentaje de variación explicada, r2 , Es la razón de la variación explicada a la variación total
r
2

Variación
Variación
Explicada
T otal
Donde :
VariaciónE xplicada  VT  VNE
VariaciónT otal  VE  VNE
0 r
2
1
_____________________Relación entre variables cualitativas
Relación entre dos Variables Cualitativas
Nivel de Medición: Ordinal y Nominal
El coeficiente de Correlación por Rango de Spearman también conocido como Coeficiente de
Determinación Gradual o rho de Spearman es una medida de asociación que requiere que ambas
variables en estudio sean medidas por lo menos en una escala ordinal de manera que los objetos
o individuos en estudio puedan colocarse en dos series ordenadas.
Procedimiento:
1.- Se ordenan los valores de una de las variables y lo acompañamos de su correspondiente valor
ordenado en la otra variable
2.- Para cada par de observaciones (rangos) calculamos su diferencia
di= rango de ui – rango de vi
3.- Se eleva al cuadrado cada di y se suman todos los valores encontrados
4.- Se calcula para determinar la discrepancia entre los rangos la siguiente fórmula:
 1  rs  1
rs  1 
6  di
2
n n  1 
2
rs= -1 La asociación es negativa e inversa, las
ordenaciones son perfectamente contrarias
rs= 0 No existe asociación
rs= 1 Las ordenaciones son todas
concordantes
_____________________Relación entre variables cualitativas
Relación entre dos variables nominales: Ji Cuadrado de Pearson
La prueba Ji Cuadrado de Pearson es una medida para proporcionar el grado de asociación
entre dos variables nominales, busca evidenciar la diferencia que existe entre los valores
observados en las casillas y los que se habrían obtenido en el supuesto de que las dos
variables no estuvieran relacionadas o fuesen independientes. Esta diferencia viene dada por
el estadístico Ji cuadrado.
T
A
B
L
A
D
E
C
O
N
T
I
N
G
E
N
C
I
A
O11
E11
O12
E12
O13
E13
O1 .
O21
E21
O22
E22
O23
E23
O2 .
O.1
O.2
O.3
O..
Total Marginal por fila
Total General
Total Marginal por Columna
n
 
2

i 1
E Casilla 
Total M arg inal por F ila para l a casilla
* Total M
Total Gene ral
O
 E ij 
2
ij
E ij
arg inal por C olumna par a la casil la
  Medida de
2
las difere ncias entr e las fo y fe
O ij  Frecuenci a observad a de una c asilla
E ij  Frecuenci a esperada
de una ca silla
_____________________Relación entre variables cualitativas
Coeficientes de Asociación
El Coeficiente PHI denotado (Φ) , es un caso particular del coeficiente de correlación
de Pearson, y se utiliza para conocer el grado de asociación entre dos variables
supeditadas al diseño 2x2.
A fin de utilizar adecuadamente el coeficiente PHI como medida de asociación entre las variables
“x” y “y” dicotomizadas, de deben tomar en cuenta las siguientes condiciones:
 Datos nominales: Las variables “x” y “y”, deben ser nominales, ya que se requerirán las
frecuencias observadas.
 Tablas de contingencia 2x2: Los datos deben poder colocarse en un diseno 2x2 (2
renglones y 2 columnas). Es inadecuado aplicar el coeficiente PHI a disenos mayores de 2x2,
donde se comparan varios grupos o varias categorías.
 Muestreo aleatorio: Para poder comprobar la significancia y validez de PHI, la muestra en
estudio debe haber sido extraída en forma aleatoria.
 Límite Máximo: Aunque su límite máximo es igual a 1, algunas veces el máximo que se puede
alcanzar es inferior a la unidad.
Para interpretar el coeficiente PHI, es preciso calcular el PHI máximo y tener un punto de
referencia respecto a la cuantía de la relación:
 máx 
 PJ Q K 
Q J  PK 

2


2
N
donde :
PK  Mayor prop orción de
los cuatro
PJ  Mayor pro porción de
la otra
Q K ,Q J  Complemen tarias de
totales
var iable
las anteri ores
_____________________Relación entre variables cualitativas
Coeficientes de Asociación
El Coeficiente de Contingencia denotado (C) y El Coeficiente V de Cramer denotado (V),
son medidas que determina el grado de asociación o relación entre dos conjuntos de
atributos colocados en una tabla de contingencia (doble entrada) con un diseño mayor de
2x2.
Características de los Coeficientes de Asociación :
a) Cuando exista una completa carencia de asociación, el coeficiente debe ser nulo, igual a
cero.
b) Cuando las variables muestran completa dependencia entre sí, estando perfectamente
correlacionadas, el coeficiente debe ser igual a la unidad.
Coeficiente de Contingencia
Coeficiente V de Cramer

C 
2
N 
0  C  Lím
2
Donde:
X2= Valor Calculado de Ji Cuadrado
N = Número Total de Casos
sup erior
El límite superior es una función del número de categorías. Cuando K=r
(Columnas = filas), el límite superior es
K 1
Limitación en b
K
Donde :
K  Número de
categorías
de una ta bla
V 

2
n l  1 
0V 1
Donde:
X2= Valor Calculado de Ji Cuadrado
n = Número Total de Casos
l = Columna o renglón más pequeño de los dos
CONCLUSIÓN
Tema 3: Descripción Global de un Colectivo y Comparaciones desde la Perspectiva Bivariable
Relación entre variables cuantitativas
Ecuación de una recta
Regresión: definición e importancia
El método de los mínimos cuadrados
Estimación de una ecuación (MMC)
Coeficiente de Correlación y Determinación
Relación entre variables cualitativas
El Coeficiente de correlación por Rangos de Pearson
La prueba Ji-Cuadrado de Pearson
Coeficientes de Asociación