Capítulo 6
Distribuciones de frecuencias
bidimensionales
Contenidos:







Distribución bidimensional de frecuencias
Representaciones gráficas
Momentos en distribuciones bidimensionales
Método reducido para el cálculo de varianzas y covarianzas
Valor de la covarianza en caso de independencia estadística
Coeficiente de correlación lineal
Coeficientes de Asociación para variables nominales: Chi-Cuadrado
y C de contingencia
Estadística Económica
2007-2008. Sara Mateo.
Tabla de Correlación o
Contingencia (atributos)
(al final del capítulo)
Tabla de Correlación o Contingencia
Permite ayudarnos a determinar si existe relación de interdependencia
entre 2 variables, es decir, si se influyen mutuamente.
donde nij es el número de
observaciones que presentan
simultáneamente las
características i, j de las variables A
y B, respectivamente.
Así, una tabla de contingencia es una una tabla de doble
entrada, donde en cada casilla figurará el número de casos
o individuos que poseen un nivel de una de las
características analizadas y otro nivel de la otra
característica.
Al analizar una distribución bidimensional, uno puede centrar su
estudio en el comportamiento de una de las variables, con
independencia de como se comporta la otra. Estaríamos así en el
análisis de una distribución marginal.
Distribución marginal de A
Ai
ni.
A1
n1.
A2
n2.
…
Distribución marginal de B
…
Bj
B1
B2
…
n.j
n.1
n.2
…
An-1
nn-1.
Bm-1
n.m-1
An
nn.
Bm
n.m
Distribuciones marginales
k
n i   n i1  n i 2  n i 3  ...  n ij  ...  n ik 
n
ij
j 1
h
n  j  n1 j  n 2 j  n 3 j  ...  n ij  ...  n hj 
n
ij
i 1
Definimos:
J
ni  
n
I
ij
j 1
n j 
n
i 1
h
n
k
i
n

i 1
J
fi 

j 1
son las frecuencias absolutas marginales
de las variables A y B, respectivamente.
ij
n ij
n
j 1
I
f j 

i 1
n ij
n
h
 j

k
n
i 1
ij
 N
j 1
son las frecuencias relativas marginales
de las variables A y B, respectivamente.
En las tablas de contingencia:
a) Distribuciones marginales
b) Distribuciones de frecuencias relativas
Estadística Económica
2007-2008. Sara Mateo.
c) Perfiles fila
Del total de
individuos con la
característica “A1”
que porcentaje
comparte a su vez la
“B1”
d) Perfiles columna
Cómo es lógico, el
porcentaje de
individuos con “A1”
que, o bien
comparten B1 o B2 y
hasta Bj será el
100% = 1
Distribución de una de las variables
siempre que la otra cumpla una
condición específica.
xi
ni.
(Frecuencia cuando y=valor específico)
x1
n1.
x2
n2.
…
…
xn-1
nn-1.
xn
nn.
X: Gasto en material escolar
Y: Número de hijos
Distrib. Condicionada: Por ejemplo, gasto en material escolar
cuando el número de hijos es <3. También podría ser simplemente
cuando y=número, sólo sería coger esa columna sin sumar nada.
0
5
50
8
100
5
150
8
200
4
Suma de frecuencias
cuando y=0, y=1, y= 2.
Que tienen un gasto de 50.
n ij
N
Graves Y
Averias
0
1
2
3
4
5
Leves X
0
0,2308
0,1692
0,0769
0,0923
0,0615
0,0308
1
0,0385
0,0615
0,0385
0,0615
0,0308
0,0077
2
0,0077
0,0231
0,0154
0,0077
0,0000
0,0000
3
Marginal de leves
0,0000
0,2769
0,0077
0,2615
0,0154
0,1462
0,0154
0,1769
0,0077
0,1000
0,0000
0,0385
0,6615
0,2385
0,0538
0,0462
ni.
N
Marginal de Graves
1
n. j
N
Si
n i . n. j
N
N
Estadística Económica
2007-2008. Sara Mateo.

n ij
 i j  In d ep en d en cia
N
Representación gráfica: Nube de
puntos o diagrama de dispersión
h
V ar ( X ) 

( xi  x ) ni
2
i 1
Varianza de X
 SX
2
N
k

Varianza de Y
V a r (Y ) 
( y j  y ) n j
2
j 1
2
N
h
k
  (x
C ov ( X , Y ) 
 SY
i
 x )( y j  y ) n ij
i 1 j 1
N
Estadística Económica
2007-2008. Sara Mateo.
 S XY
Covarianza entre X e Y
Mide si existe asociación lineal
entre X e Y. Positiva o negativa
pero no la intensidad
Momento
rs con respecto origen:
a rs 
h
k
x
i 1
r
i
s
j
y n ij
j 1
N
Momento rs con respecto a las medias:
h
k

m rs 
i 1
( x i  x ) ( y j  y ) n ij
r
j 1
Estadística Económica
2007-2008. Sara Mateo.
N
s
Se efectúa la transformación:
x '  c1  p1 x
y '  c2  p2 y
x i '  c1  p 1 x i
y j '  c2  p2 y j
Resultado de las Medias de las nuevas variables
( S X ')  p S
2
De las nuevas varianzas:
Estadística Económica
2007-2008. Sara Mateo.
2
1
( S Y ')  p S
De la nueva covarianza:
2
2
2
2
X
2
Y
S XY '  p1 p 2 S XY
Coeficiente de correlación lineal
El valor de la covarianza dependerá de los valores de las
variables, por tanto de sus unidades. Para poder eliminar las
unidades y tener una medida adimensional utilizamos el
COEFICIENTE DE CORRELACIÓN LINEAL ( rxy )
rxy 
S xy
SxS y
rxy
siendo invariante frente a transformaciones lineales (cambio de origen
y escala) de las variable.
Propiedades:
•Es un coeficiente adimensional
• -1  r  1
•Si hay relación lineal positiva r > 0 y próximo a 1
•Si hay relación lineal negativa r < 0 y próximo a -1
•Si no hay relación lineal r se aproxima a 0
•Si X e Y son independientes Sxy = 0 y por tanto r = 0
Importante:
Si las dos variables son independientes, su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si
dos variables tienen covarianza cero, no significa que sean independientes. Linealmente NO tienen relación. Pero pueden
pueden ser dependientes.
VARIABLES CUALITATIVAS
1) Coeficiente de Asociación Chi-Cuadrado (χ2):
I

2

J

i 1 j 1
Si 
2
n ij  e ij 
2
e ij
n ij
e ij 
 Frecuencia observada
ni  n j
n
Frecuencia
esperada
≈ 0 no habrá asociación  inexistencia de asociación
Problema: no tiene límite superior por lo que no permite
conocer el grado de asociación.
2) Coeficiente “C” de contingencia de Karl Pearson:
C 


2
2
n
Si C ≈0
Si C ≈1
Estadística Económica
2007-2008. Sara Mateo.
lím ite _ m áxim o 
1
1
min( I , J )
Nunca superior a uno
inexistencia de asociación
perfecta asociación entre las variables
Coeficiente de Correlación por Rangos de Spearman:
• El Coeficiente de Correlación por Rangos de Spearman permite determinar
la correlación de datos de carácter ordinal midiendo la concordancia o
discordancia entre las clasificaciones.
• Formulación:
Si no hay empates
D: diferencia de valores para las
dos variables.
• Interpretación:
 Si ρ= 1: Correlación por rangos perfecta y positiva. La concordancia entre los
rangos es perfecta
Si ρ = -1: Correlación por rangos perfecta y negativa. La concordancia entre los
rangos es perfecta
Si ρ = 0: Correlación por rangos nula. No hay concordancia entre los rangos
Si 0 < ρ < 1: Correlación por rangos positiva y si -1 < ρ <0: Correlación por
rangos negativa
Estadística Económica
2007-2008. Sara Mateo.
EJEMPLOS EN CLASE
Descargar

Document