Contenidos
1. Medidas de Tendencia Central
2. Medidas de Variabilidad
3. Taller práctico
03/10/2015
Medidas Descriptivas
• Orden o Posición
– Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos. (percentiles, cuantiles, etc.)
• Centralización
– Indican valores con respecto a los que los datos parecen
agruparse ( Media, mediana y moda)
• Dispersión
– Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización ( Varianza, desviación
estándar, rango, coef. De variación, etc.)
• Forma
– Asimetría
– Apuntamiento o curtosis
03/10/2015
MEDIDAS
DE
TENDENCIA
CENTRAL
03/10/2015
Medidas de tendencia central
• Corresponde a aquellos valores hacia los cuales
tienden a aglomerarse los datos de una muestra.
• Las principales medidas de tendencia central son
tres: promedio o media aritmética, mediana y
moda.
03/10/2015
PROMEDIO O MEDIA ARITMÉTICA
• Estadígrafo de tendencia central más conocido y usado.
• Dada una colección de datos, el promedio se define
como LA SUMA DE LOS DATOS DIVIDIDA POR LA
CANTIDAD DE DATOS.
• Es aplicable a variables cuantitativas y no es aplicable a
escalas nominales.
• La media aritmética, a menudo, puede mal interpretarse
si los datos no entran en un grupo homogéneo.
03/10/2015
Si xi es el valor de la variable y ni su frecuencia,
tenemos que:
Si los datos están agrupados utilizamos las marcas
de clase, es decir ci en vez de xi.
03/10/2015
Ventajas y desventajas de usar la media
DESVENTAJAS
VENTAJAS.
•
Concepto familiar para la mayoría
de las personas y es intuitivamente
claro.
•
Cada conjunto de datos tiene una
media, es una medida que puede
calcularse y es única debido a que
cada conjunto de datos posee una
y sola una media.
•
Es útil para llevar a cabo
procedimientos estadísticos como
la comparación de medias de varios
conjuntos de datos.
.
03/10/2015
•
Puede verse afectada por valores
extremos que no son
representativos del resto de los
datos.
•
Resulta tedioso calcular la media
debido a que utilizamos cada uno
de los puntos de dato de nuestro
cálculo.
•
Somos incapaces de calcular la
media para un conjunto de datos
que tiene clases de extremo
abierto, ya sea en el inferior o en el
superior de la escala.
MEDIANA
• Es aquel valor que divide la muestra en dos partes
iguales, esto es la mitad de los casos caen por debajo
de la mediana y la otra mitad se ubican por encima de
la mediana.
• Requiere una ordenación previa de los datos; escala
ordinal y de intervalos.
03/10/2015
03/10/2015
Ventajas y desventajas de usar la
mediana
VENTAJAS.
•
•
.
•
•
Los valores extremos no afectan a
la mediana tan intensamente como
a la media.
La mediana es fácil de entender y
se puede calcular a partir de
cualquier tipo de datos – incluso a
partir de datos agrupados con
clases de extremo abierto – a
menos que la mediana entre en una
clase de extremo abierto.
Podemos encontrar la mediana
incluso cuando nuestros datos son
descripciones cualitativas, en lugar
de números.
.
03/10/2015
DESVENTAJAS.
•
Ciertos procedimientos estadísticos
que utilizan la mediana son más
complejos que aquellos que utilizan
la media.
•
Debido a que la mediana es una
posición promedio, debemos
ordenar los datos antes de llevar a
cabo cualquier cálculo. Esto implica
consumo de tiempo para cualquier
conjunto de datos que contenga un
gran número de elementos. Por
consiguiente, si deseamos utilizar
una estadística de muestra para
estimar un parámetro de población,
la media es más fácil de usar que la
mediana.
.
Ejemplo Mediana
Se tiene la edad de siete pacientes :
44, 42, 45, 42, 47, 52, 65
1.
Se ordenan según magnitud
42, 42, 44, 45, 47, 52, 65
a)
Cuando el número de datos es impar, la mediana es el valor
central => 45
b)
Cuando el número de datos es par, la mediana es el promedio
aritmético de los dos datos centrales
(44 + 45)/ 2 = 44,5
03/10/2015
MODA O MODO
• Es una categoría que ocurre con mayor frecuencia.
( valor que más se repite en una muestra).
• Se usa con cualquier nivel de medición.
• Para niveles de medición nominal , es la única medida
de posición que se puede determinar.
03/10/2015
03/10/2015
Ventajas y desventajas de usar la moda
VENTAJAS
•
La moda, al igual que la mediana, se
puede utilizar como una posición central
para datos tanto cualitativos como
cuantitativos.
•
También, al igual que la mediana, la
moda no se ve mayormente afectada por
los valores extremos. Incluso si los
valores extremos son muy altos o muy
bajos, nosotros escogemos el valor más
frecuente del conjunto de datos como el
valor modal.
•
Podemos utilizar la moda sin importar
qué tan grandes o qué tan pequeños
sean los valores del conjunto de datos, e
independientemente de cuál sea su
dispersión.
•
La podemos utilizar aun cuando una o
más clases sean de extremo abierto.
03/10/2015
DESVENTAJAS
•
Muy a menudo, no existe un valor modal
debido a que el conjunto de datos no
contiene valores que se presenten más
de una vez.
•
En otras ocasiones, cada valor es la
moda, pues cada uno de ellos se
presenta el mismo número de veces.
•
Otra desventaja consiste en que cuando
los datos contienen dos, tres o más
modas, resultan difíciles de interpretar y
comparar.
MEDIDAS DE
VARIABILIDAD
03/10/2015
La dispersión es importante porque:
1.
Proporciona información adicional que permite juzgar la confiabilidad de
la medida de tendencia central.
2.
Si los datos se encuentran ampliamente dispersos, la posición central es
menos representativa de los datos.
3.
Ya que existen problemas característicos para datos ampliamente
dispersos, debemos ser capaces de distinguir qué presentan esa
dispersión antes de abordar esos problemas.
03/10/2015
Tipos de medidas de dispersión
• ABSOLUTAS
• Están expresadas en la misma unidad de medida que los
datos
Ejemplo: desv. estándar, recorrido,fractiles
• RELATIVAS
• Se definen como el cuociente entre una medida de
dispersión absoluta y una medida de tendencia central.
Están expresadas independientemente d la unidad de
medida de los datos (excepto a la varianza)
Ejemplo : coeficiente de variación media de Pearson
03/10/2015
Cuales son las que veremos...........
• Amplitud, Rango, Recorrido,Recorrido intercuartilico
• Fractiles
• Varianza
•
Desviación Estándar
• Coeficiente de variación media de Pearson
03/10/2015
AMPLITUD, RANGO O RECORRIDO
• Se define como la diferencia entre el valor máximo y el valor mínimo
de una serie.
• Se define como XM - Xm (valor máx. – valor mín.).
• Cuando más grande sea el rango mayor será la dispersión de los
datos de una distribución.
• Su limitación es que este estadígrafo depende sólo de dos valores,
y frente a valores muy extremos no reflejaría la variabilidad real de
los valores.
• Ignora la naturaleza de la variación entre todas las demás
observaciones, y se ve muy influido por los valores extremos.
03/10/2015
Amplitud, Rango, Recorrido y
Recorrido Intercuartilico
• Las distribuciones de extremo abierto no tienen alcance, pues no
existe un valor más alto o más bajo en la clase de extremo abierto.
• Cuando los valores próximos al mínimo y al máximo de los datos
están excesivamente alejados del resto, es más representativo
trabajar con un recorrido más corto. Para ello se usa el recoorido
intercualitico que se define como :
RI = Q3 – Q1
ó
RI = P75 – P25
03/10/2015
FRACTILES
1.
En una distribución de frecuencias, una fracción o proporción dada
de los datos cae en un fractil o por debajo de éste. La mediana, por
ejemplo, es el fractil 0,5, puesto que la mitad de los datos es menor
o igual a este valor.
2.
Los fractiles dividen a la serie de observaciones ordenadas según
magnitud ,son parecidos a los porcentajes.
3.
Los fractiles tienen nombres especiales, dependiendo del número
de partes iguales en que se dividen los datos.
–
Los fractiles que los dividen en 10 partes iguales se conocen como
deciles.
Los cuartiles dividen los datos en cuatro partes iguales.
Los percentiles (p) dividen el conjunto de datos en 100 partes iguales.
–
–
4.
El punto fractil es siempre el punto en el o debajo del cual cae la
proporción establecida de valores.
03/10/2015
Ejemplos
• Mediana:
– Fractil 0,5
– Percentil 50
– Cuartil 2
• Cuartil
– Fractil 0,25
– Percentil 25
– Cuartil 1
• Déciles
– Fractil 0,1
– Percentil 10
03/10/2015
VARIANZA DE LA POBLACIÓN
• La varianza y la desviación estándar estiman
“cuánto se desvía, en
promedio, un conjunto de observaciones, respecto a su media.
•
Cada población tiene una varianza, que se simboliza con s 2 (sigma cuadrada).
•
Para calcular la varianza de una población, dividimos la suma de las distancias al
cuadrado entre la media y cada elemento de la población entre el número total
de observaciones de dicha población.
σ2
=  (x - m )2 / N
s 2 = varianza de la población.
m
= media de la población.
•
X = elemento u observación.
N = nº de elementos de la población.
La raíz cuadrada de un número positivo puede ser tanto positiva como negativa. Cuando
tomamos la raíz cuadrada de la varianza para calcular la desviación estándar, los
estadísticos solamente consideran la raíz cuadrada positiva.
03/10/2015
VARIANZA DE LA MUESTRA
• Cada muestra tiene una varianza, que se simboliza con s 2 (sigma
cuadrada).
• Para calcular la varianza de una muestra, dividimos la suma de las
distancias al cuadrado entre la media y cada elemento de la población
entre el número total de observaciones de dicha población.
s2 =  (x - x)2 / (n – 1)
• Estos resultados indican a cuántas desviaciones estándar se halla una
observación en particular por arriba o por debajo de la media de la
muestra.
03/10/2015
DESVIACIÓN ESTANDARD
• La varianza y la desviación estándar estiman “cuánto se desvía, en
promedio, un conjunto de observaciones, respecto a su media.
• Se expresa en las mismas unidades de la escala de medición de la
variable.
• Cuanto mayor es la dispersión de los datos alrededor de la media,
mayor es la desviación estándar.
• la desviación estardard se simboliza con “s” para la muestra y con σ
para la población
• La desviación estándar de la población, o s , es simplemente la raíz
cuadrada de la varianza de la población.
03/10/2015
Coef. de variación de Pearson
•
Cuando se quiere comparar el grado de dispersión de dos distribuciones
que no vienen dadas en las mismas unidades o que las medias no son
iguales se utiliza el coeficiente de variación de Pearson
•
Se define como el cociente entre la desviación típica y el valor absoluto de
la media aritmética
CV = S / I x I
•
CV representa el número de veces que la desviación típica contiene a la
media aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y
menor la representatividad de la media.
03/10/2015
NO
OLVIDAR
1. Las letras griegas siempre se refieren a parámetros de la
población y las letras latinas se refieren a estadísticas de la
muestra.
2. Recordar utilizar N como denominador cuando se calcula la
desviación estándar de la población,pero n – 1 para calcular la
desviación estándar de la muestra.
03/10/2015
Descargar

Diapositiva 1