Curso de Estadística Básica
SESION 6
ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS
DE DOS VARIABLES
MCC. Manuel Uribe Saldaña
MCC. José Gonzalo Lugo Pérez
Estadística Básica
Objetivo
Representar datos de dos variables de forma
tabular y gráfica. Comprender la distinción entre los
propósitos básicos del análisis de correlación y
regresión lineal. (Sesión 6 y 7)
Estadística Básica
Agenda Sesión 6
•
•
•
•
Datos de dos
variables
Correlación lineal
(Sesión 6)
Regresión lineal
(Sesión 7)
Evaluación
(Sesión 7)
Estadística Básica
Casos
•
A medida que una persona crece, por lo general
aumenta de peso. Alguien podría preguntar,
“¿existe alguna relación entre la estatura y el
peso?”
• Médicos dedicados a la investigación, prueban
fármacos nuevos y obsoletos prescribiendo dosis
diferentes en pacientes y observando sus
respuestas. Una de las preguntas podría ser, “¿la
dosis del medicamento prescrito determina la
cantidad de tiempo de recuperación que necesita el
paciente?”
Estadística Básica
Datos de dos variables
Estos datos constan de los valores de dos variables respuesta
diferentes que se obtienen del mismo elemento de la población.
Cada una puede ser cualitativa o cuantitativa. Como resultado, los
datos bivariados pueden formarse mediante tres combinaciones de
variable:
1.
Ambas variables son cualitativas (de atributo)
2.
Una variable es cualitativa y otra cuantitativa (numérica)
3.
Ambas variables son cuantitativas
Estadística Básica
Dos variables cualitativas
Cuando los datos bivariados resultan de dos variables cualitativas, los
datos se disponen en una tabla cruzada o de contingencia.
Género
Masculino
Femenino
Totales por
columna
Especialización
Administración de
Filosofía y Letras
Empresas
5
6
5
5
10
11
Tecnología
Totales por renglón
7
2
18
12
9
30
Estadística Básica
Ejemplo
Treinta estudiantes de una Universidad fueron
identificados y clasificados aleatoriamente
según dos variables:
• Género (M/F)
• Especialización (Filosofía y Letras,
Administración de Empresas, Tecnología)
A continuación se muestran los datos en la tabla:
Estadística Básica
Nombre
Género
Especialización
Adams
Argento
Baker
M
F
M
FyL
AE
FyL
Bennet
Brock
Brand
Chun
Crain
F
M
M
F
M
Cross
Ellis
Feeney
Flanigau
Hodge
Holmes
Jopson
Nombre
Género
Especialización
Kee
Kleeberg
Light
M
M
M
AE
FyL
FyL
FyL
AE
T
FyL
T
Linton
Lopez
McGowan
Mowers
Ornt
F
M
M
F
M
FyL
T
AE
AE
T
F
F
M
FyL
FyL
T
Palmer
Pullen
Rattan
F
M
M
AE
T
AE
M
F
M
F
AE
AE
T
T
Sherman
Small
Tate
Yamamoto
F
F
M
M
AE
T
AE
FyL
Estadística Básica
Tabla cruzada
Estos datos pueden resumirse en una tabla
cruzada o de contingencia de 2 x 3 donde se
presenta la frecuencia para cada categoría
cruzada de las dos variables junto con los
totales por renglón y por columna
denominados
totales
marginales
(o
marginales). El total de los totales marginales
es el gran total y es igual a n, el tamaño de la
muestra.
Estadística Básica
Tabla cruzada
Género
Masculino
Femenino
Totales por
columna
Especialización
Administración de
Filosofía y Letras
Empresas
5
6
5
5
10
11
Tecnología
Totales por renglón
7
2
18
12
9
30
Estadística Básica
Frecuencias relativas
Las tablas de contingencia a menudo presentan
porcentajes (frecuencias relativas). Estos
porcentajes pueden estar basados en toda la
muestra o en las clasificaciones de la
submuestra (renglones o columnas).
Estadística Básica
Porcentajes basados en el
gran total (toda la muestra)
La tabla de contingencia puede convertirse
fácilmente en porcentajes del gran total, al dividir
cada frecuencia entre el gran total y multiplicar por
100 el resultado.
Género
Masculino
Femenino
Totales por
columna
Especialización
Administración de
Filosofía y Letras
Empresas
17%
20%
17%
17%
33%
37%
Tecnología
Totales por renglón
23%
7%
60%
40%
30%
100%
Estadística Básica
Porcentajes basados en el gran total
Con la tabla de contingencia expresada en
porcentajes puede verse fácilmente que el 60% de
la muestra son hombres, 40% mujeres, 30% están
especializándose en tecnología, etc.
Porcentajes basados en el gran total
25%
20%
15%
Masculino
10%
Femenino
5%
0%
Filosofía y Letras
Administración de
Empresas
Tecnología
Estadística Básica
Porcentajes basados en
los totales por renglón
Los elementos de la misma tabla de contingencia
pueden expresarse como porcentajes de los totales
por renglón (o género), al dividir cada elemento del
renglón entre el total de éste y multiplicar por 100 el
resultado.
Género
Masculino
Femenino
Totales por
columna
Especialización
Administración de
Filosofía y Letras
Empresas
28%
33%
42%
42%
33%
37%
Tecnología
Totales por renglón
39%
17%
100%
100%
30%
100%
Estadística Básica
Porcentajes basados en
los totales por renglón
En la tabla anterior se observa que el 28% de los
hombres están especializándose en Filosofía y
Letras, mientras que el 42% de las mujeres están
especializándose en la misma área.
Porcentajes basados en el género
45%
40%
35%
Filosofía y Letras
30%
25%
Administración de
Empresas
20%
15%
Tecnología
10%
5%
0%
Masculino
Femenino
Estadística Básica
Porcentajes basados en
los totales por columna
Los elementos de la tabla de contingencia también
pueden expresarse como porcentajes de los totales
por columna (o especialización), al dividir cada
elemento de la columna entre el total de ésta y
multiplicar por 100 el resultado.
Género
Masculino
Femenino
Totales por
columna
Especialización
Administración de
Filosofía y Letras
Empresas
50%
55%
50%
45%
100%
100%
Tecnología
Totales por renglón
78%
22%
60%
40%
100%
100%
Estadística Básica
Porcentajes basados en
los totales por columna
Con base en la tabla anterior, se observa que de
todos los estudiantes de Filosofía y Letras, la mitad
son hombres y la otra mitad son mujeres.
Porcentajes basados en la
especialización
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Masculino
Femenino
Filosofía y Letras
Administración de
Empresas
Tecnología
Estadística Básica
Una variable cualitativa y
otra cuantitativa
Cuando los datos bivariados se obtienen de una
variable cuantitativa y otra cualitativa, los valores
cuantitativos se consideran como muestras ajenas,
cada una identificada por niveles de la variable
cualitativa. Se aplica la estadística descriptiva vista
en sesiones anteriores como, la media, varianza,
desviación estándar, Q1, mediana, Q3, etc., y los
resultados se presentan uno junto al otro para
efectos de comparación.
Estadística Básica
Ejemplo
Para comparar la capacidad de frenado de tres
diseños de bandas de rodamiento, se midió la
distancia necesaria para detener un automóvil de
3000 libras que se desplazaba sobre pavimento
húmedo. Los neumáticos de cada diseño fueron
probados en el mismo vehículo que circulaba sobre
un pavimento húmedo controlado.
Diseño A
n=6
Diseño B
n=6
Diseño C
n=6
37
36
33
35
40
39
34
40
34
42
41
41
38
32
38
34
40
43
Estadística Básica
Nota
El diseño de la banda de rodamiento es una
variable cualitativa con tres niveles de respuesta y
la distancia de frenado es una variable cuantitativa.
La distribución de las distancias de frenado del
diseño A, de la banda de rodamiento, debe
compararse con las distribuciones de las distancias
de frenado de cada uno de los diseños de la banda.
Esta comparación puede efectuarse aplicando
técnicas numéricas y gráficas.
Estadística Básica
Resumen de cinco puntos
para cada diseño
Diseño A
Diseño B
Diseño C
40
42
43
Q3
37.8
37.3
41
Mediana
Q1
Mínimo
Media
Desviación estándar
36.5
34.5
32
36.2
2.9
34.5
34
33
36.0
3.4
40.5
40
39
40.7
1.4
Máximo
Estadística Básica
Dos variables cuantitativas
Cuando los datos bivariados son resultado de dos
variables cuantitativas, los datos matemáticos
suelen expresarse como pares ordenados (x, y),
donde x es la variable de entrada (variable
independiente) y y es la variable de salida
(variable dependiente).
En los problemas en que intervienen dos variables
cuantitativas, los datos de la muestra se presentan
gráficamente en un diagrama de dispersión
Estadística Básica
Diagrama de dispersión
Es la gráfica de todos los pares ordenados de datos
de dos variables que están en un sistema de ejes
coordenados . La variable de entrada, x, se grafica
en el eje horizontal y la variable de salida, y, se
grafica en el eje vertical.
Estadística Básica
Ejemplo
En la clase de educación física del señor Torres, se
tomaron varios puntajes de condición física. La
muestra siguiente es el número de “lagartijas” y
“sentadillas” realizadas por 10 estudiantes elegidos
aleatoriamente:
(27,30)
(52,40)
(22,26)
(35,32)
(15,25)
(55,54)
(35,42)
(40,50)
(30,38)
(40,43)
En la siguiente tabla se presentan estos datos
muestrales y un diagrama de dispersión de los
datos
Estadística Básica
2
22
26
3
15
25
4
35
42
6
52
40
7
35
32
8
55
54
9
40
50
Clase de educación física del señor
Torres
55
Sentadillas
Lagartijas (x)
Sentadillas (y)
1
27
30
Estudiante
5
30
38
45
35
25
15
25
35
45
55
Lagartijas
Estadística Básica
10
40
43
Correlación Lineal
El objetivo primordial del análisis de correlación lineal es medir la
intensidad de una relación lineal entre dos variables. Se aplica en
datos cuantitativos que muestran diferentes relaciones entre
variables independientes o de entrada, x, y variables dependientes
o de salida, y. Si a medida que crece x no hay un cambio definido
en los valores de y, se dice que no hay correlación o relación entre
x y y. Si a medida que crece x, hay un cambio en los valores de y,
existe una correlación. La correlación es positiva cuando y tiende a
crecer, y es negativa cuando y tiende a decrecer. Si los pares
ordenados (x, y) tienden a seguir un patrón de línea recta, se tiene
una correlación lineal. La precisión del cambio en y cuando crece x,
determina la intensidad de la correlación lineal.
Estadística Básica
Estadística Básica
Coeficiente de correlación lineal
El coeficiente de correlación lineal r, es la medida
numérica de la intensidad de la relación lineal entre
dos variables. El coeficiente refleja la consistencia
del efecto que el cambio en una variable tiene sobre
la otra. Este valor ayuda a responder a la pregunta
¿Existe una correlación lineal entre las dos
variables en consideración? El coeficiente de
correlación lineal, r, siempre tiene un valor entre -1
y +1. Un valor de +1 significa una correlación
positiva perfecta, y un valor de -1 indica una
correlación negativa perfecta.
Estadística Básica
Cálculo de r
El valor de r está definido por la fórmula producto momento de
Pearson:
r 
 ( x  x )( y  y )
( n  1) s x s y
Donde:
sx , sy
Son las desviaciones estándar de las variables x y y
Estadística Básica
Cálculo de r
El valor de r se puede calcular con una fórmula alternativa
equivalente al momento de Pearson como:
suma _ de _ los _ cuadrados
r 
( suma _ de _ los _ cuadrados
r 
_ de _ xy
_ de _ x )( suma _ de _ los _ cuadrados
_ de _ y )
SC ( xy )
SC ( x ) SC ( y )
Donde:
 x 

2
SC ( x ) 
x
2
n
 y 

2
SC ( y ) 
y
2
n
SC ( xy ) 

x

xy 
y
n
Estadística Básica
Ejemplo
Encuentre el coeficiente de correlación lineal para
los datos de “lagartijas” y “sentadillas” mostrados
anteriormente.
Solución:
Primero, es necesario, elaborar una tabla de
extensiones enumerando todos los pares de valores
(x, y) para poder encontrar las extensiones x2, xy y
y2, así como los totales en cada una de las cinco
columnas.
Estadística Básica
Tabla de extensiones
Estudiante Lagartijas (x)
1
27
2
22
3
15
4
35
5
30
6
52
7
35
8
55
9
40
10
40
Sumatoria
351
x2
729
484
225
1225
900
2704
1225
3025
1600
1600
13717
Sentadillas (y)
30
26
25
42
38
40
32
54
50
43
380
y2
900
676
625
1764
1444
1600
1024
2916
2500
1849
15298
xy
810
572
375
1470
1140
2080
1120
2970
2000
1720
14257
Estadística Básica
Cálculos
A continuación se realizan los preliminares,
sustituyendo las cinco sumatorias de la tabla de
extensiones en sus correspondientes fórmulas:
SC ( x ) 
SC ( y ) 
x

SC ( xy ) 
2

n
y

 x 2

 13717
2
( 351 )
2
 1396 . 9
10
 y 2

 15298

( 380 )
n
2
 858 . 0
10
x

xy 
n
y
 14257 
( 351 )( 380 )
 919 . 0
10
Estadística Básica
Cálculo de r
Finalmente se sustituyen las tres sumas de
cuadrados en el cálculo de r y se obtiene el valor
del coeficiente de correlación.
r 
SC ( xy )
SC ( x ) SC ( y )

919 . 0
 0 . 8394  0 . 84
(1396 . 9 )( 858 . 0 )
Nota: El valor de r suele redondearse a la centésima más próxima
Estadística Básica
Conclusión
El valor del coeficiente de correlación lineal calculado ayuda a
responder a la pregunta: “¿existe una correlación lineal entre las
dos variables en consideración?”. Cuando el valor calculado de r
está próximo a cero, se concluye que hay poca correlación lineal o
que no hay correlación lineal. A medida que el valor calculado de r
cambia de 0 a +1 ó -1, indica una correlación lineal cada vez más
fuerte entre las dos variables.
Desde el punto de vista gráfico, al calcular r, se mide qué tan bien
una recta describe el diagrama de dispersión de los pares
ordenados. Cuando el valor de r cambia de 0 a +1 ó -1, los puntos
de datos que crean un patrón se acercan más a una recta.
Estadística Básica
Estimación visual del coeficiente de
correlación lineal
El siguiente método para estimar r es rápido y en
general produce un estimado razonable cuando la
“ventana de datos” es aproximadamente cuadrada.
Procedimiento
1.
Coloque dos lápices sobre su diagrama de dispersión.
Manténgalos paralelos y muévalos de modo que estén lo más
cerca posible, de modo que todos los puntos del diagrama de
dispersión están entre ellos.
2.
Visualice una región rectangular acotada por los dos lápices y
que termina de manera justa en los puntos extremos del
diagrama de dispersión.
Estadística Básica
Ventana de datos
Estadística Básica
Estimación visual del coeficiente de
correlación lineal
3. Estime cuántas veces más largo que ancho es el
rectángulo. Una forma fácil de hacerlo es marcar
mentalmente cuadrados en el rectángulo. Denomine
k a este número de múltiplos.
k=2.5
Estadística Básica
Estimación visual del coeficiente de
correlación lineal
4. El valor de r puede estimarse como:
1

 1  
k

5. El signo de r se determina por la posición general
del largo de la región rectangular. Si el largo está en
posición creciente, r es positivo; si está en posición
decreciente, r es negativo. Si el rectángulo está en
posición horizontal o vertical, entonces r es cero, sin
importar la razón del largo al ancho.
Estadística Básica
Estimación de r para la relación entre el
número de lagartijas y sentadillas
Clase de educación física del señor
Torres
k=4
Sentadillas
55
45
35
25
15
25
35
45
55
Lagartijas
Estadística Básica
Cálculo de r
r   (1 
1
)   0 . 75
4
Estadística Básica
Coeficientes de correlación lineal
Estadística Básica
Problema
Suponga que la compañía Trigos Excelentes, S.A. le haya
pedido a varios de sus representantes regionales trabajar
tiempo extra para incrementar las ventas. Usted no está
convencido de que el tiempo extra sea necesario, ni que las
horas extras estén correlacionadas con el incremento de
ventas. La siguiente tabla de datos muestra el número de horas
mensuales que los representantes trabajaban anteriormente
junto con el promedio de ventas. La tabla de datos también
muestra el incremento de horas y las nuevas ventas. Compare
el incremento de horas con el incremento de ventas para
determinar si están correlacionados.
Estadística Básica
Problema
Estadística Básica
Descargar

Estadistica Basica Sesion 6