Estadística Descriptiva
para una variable
Conceptos básicos. Tipos de variables
Organización de datos. Tablas de
frecuencias
Descripciones gráficas de los datos
Descripciones Numéricas
Ejercicios
Conceptos Básicos
La ESTADISTICA es la ciencia que se ocupa de la
• Sistematización, recogida, ordenación y presentación
de los datos referentes a un fenómeno que presenta
variabilidad o incertidumbre para su estudio
metódico, con objeto de
• deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener conclusiones.
Conceptos Básicos

Población: es el conjunto sobre el que estamos
interesados en obtener conclusiones (hacer
inferencia).
 Normalmente es demasiado grande para
poder abarcarlo.

Individuo: Cada uno de los elementos que
componen la población estadística en estudio. Es
un ser observable que no tiene por qué ser una
persona, puede ser un objeto, un ser vivo, etc…

Muestra: es un subconjunto de la población al que
tenemos acceso y sobre el que realmente hacemos
las observaciones (mediciones)
 Debería ser “representativo”
 Esta formado por miembros “seleccionados”
de la población (individuos, unidades
experimentales).
Conceptos Básicos
Caracteres o variables: Cualquier cualidad o propiedad inherente al individuo.
Una característica observable que varía entre los diferentes individuos de una
población. La información que disponemos de cada individuo es resumida en
variables, que representamos normalmente por las últimas letras mayúsculas X,
Y, Z,…
En los individuos de la población española, de uno a otro es variable:




El grupo sanguíneo
 {A, B, AB, O}  Var. Cualitativa
Su nivel de felicidad “declarado”
 {Deprimido, Ni fu ni fa, Muy Feliz}  Var. Ordinal
El número de hijos
 {0,1,2,3,...}  Var. Numérica discreta
La altura
 {1’62 ; 1’74; ...}  Var. Numérica continua
Podemos distinguir los siguientes tipos de variables:
Conceptos Básicos

Cualitativas
Si sus valores no se pueden asociar naturalmente a un número (no se pueden
hacer operaciones algebraicas con ellos)



Nominales: Si sus valores no se pueden ordenar
 Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)
Ordinales: Si sus valores se pueden ordenar
 Mejoría a un tratamiento, Grado de satisfacción, Intensidad del
dolor
Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos)


Discretas: Si toma valores enteros
 Número de hijos, Número de cigarrillos que fuma
Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
 Altura, Presión intraocular, Dosis de medicamento administrado
Conceptos Básicos




Es buena idea codificar las variables como números para poder procesarlas con
facilidad en un ordenador.
Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué
significan los códigos numéricos.
 Sexo (Cualit: Códigos arbitrarios)
 1 = Hombre
2 = Mujer
 Raza (Cualit: Códigos arbitrarios)
 1 = Blanca
2 = Negra,...
 Felicidad Ordinal: Respetar un orden al
codificar.
 1 = Muy feliz
 2 = Bastante feliz
 3 = No demasiado feliz
Se pueden asignar códigos a respuestas
especiales como
 0 = No sabe
9 = No contesta
Estas situaciones deberán ser tenidas en
cuenta en el análisis. Datos perdidos
(‘missing data’)
Conceptos Básicos


Aunque se codifiquen como números, debemos recordar siempre el
verdadero tipo de las variables y su significado cuando vayamos a usar
programas de cálculo estadístico.
No todo está permitido con cualquier tipo de variable.
Conceptos Básicos
Modalidades o valores de las variables: Cada uno de los posibles valores
que puede tomar una variable y se representan con las letras minúsculas x1, x2,
…, xn.
Ejemplo: La variable cualitativa estado civil puede tomar los valores o
modalidades: casado, soltero o viudo. La variable cuantitativa edad puede
tomar las modalidades o valores: 10 años, 12 años, 15 años, etc…

Las modalidades pueden agruparse en clases (intervalos)
 Edad (Menos de 20 años, de 20 a 50 años, más de 50 años)

Las modalidades/clases deben forman un sistema exhaustivo y excluyente:
 Exhaustivo: No podemos olvidar ningún posible valor de la variable
 Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?

Excluyente: Nadie puede presentar dos valores simultáneos de la
variable
 Mal: De los siguientes, qué le gusta: (deporte, cine)
Organización de los datos
Antes de trabajar con cualquier conjunto de datos obtenidos de un experimento
debemos organizarlos.
7
6
Género
Frec.
5
Hombre
4
4
3
Mujer
6
2
1
0
Hombre

Mujer
Las tablas de frecuencias y las representaciones gráficas son dos maneras
equivalentes de presentar la información. Las dos exponen ordenadamente la
información recogida en una muestra.
Organización de los datos

La tabla de frecuencias es la representación estructurada, en forma de tabla, de
toda la información que se ha recogido sobre la variable que se estudia. Exponen
la información recogida en la muestra, de forma que no se pierda nada de
información (o poca).



Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad
Frecuencias relativas (porcentajes): Idem, pero dividido por el total
Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas y
son muy útiles para calcular cuantiles (ver más adelante)


Variable
(Valor)
¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8
¿Entre 4 y 6 hijos? Sol 2ª: 97,3% - 83,8% = 13,5%
Frecuencias absolutas
Simple
Frecuencias relativas
Acumulada
Simple
x1
n1
N1= n1
f1 = n1 / N
F1= f1
x2
n2
N2= n1 + n2
f2 = n2 / N
F 2= f 1 + f 2
...
...
...
...
...
nn-1
Nn-1= n1 +
n2 + ...+ nn-1
fn-1 = nn-1 /
N
Fn-1= f1 + f2
+… + f n-1
nn
Nn = Sn =
N
fn = nn / N
Fn = Sf =1
xn-1
xn
Número de hijos
Acumulada
Frecuencia
Válidos
Total
Porcentaje
válido
Porcentaje
acumulado
0
419
27,6
27,8
27,8
1
255
16,8
16,9
44,7
2
375
24,7
24,9
69,5
3
215
14,2
14,2
83,8
4
127
8,4
8,4
92,2
5
54
3,6
3,6
95,8
6
24
1,6
1,6
97,3
7
23
1,5
1,5
98,9
Ocho o más
17
1,1
1,1
100,0
1509
99,5
100,0
8
,5
1517
100,0
Total
Perdidos
Porcentaje
No contesta
Organización de los datos
Ejemplo



¿Cuántos individuos tienen
menos de 2 hijos?
 frec. indiv. sin hijos
+
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos
¿Qué porcentaje de individuos
tiene 6 hijos o menos?
 97,3%
¿Qué cantidad de hijos es tal
que al menos el 50% de la
población tiene una cantidad
inferior o igual?
 2 hijos
Número de hijos
Frec.
Porcent.
(válido)
Porcent.
acum.
0
419
27,8
27,8
1
255
16,9
44,7
2
375
24,9
69,5
3
215
14,2
83,8
4
127
8,4
92,2
5
54
3,6
95,8
6
24
1,6
97,3
7
23
1,5
98,9
Ocho+
17
1,1
100,0
1509
100,0
Total
≥50%
Descripciones gráficas
Datos de un carácter cualitativo

Diagramas de barras



Diagramas de sectores (tartas, polares)



Alturas proporcionales a las frecuencias (abs. o rel.)
Se pueden aplicar también a variables discretas
No usarlo con variables ordinales.
El área de cada sector es proporcional a su
frecuencia (abs. o rel.)
Pictogramas


Fáciles de entender.
El área de cada modalidad debe ser proporcional a
la frecuencia.
Descripciones gráficas
Datos, sin agrupar, de un carácter cuantitativo
Diagrama de barras
Diagrama de frecuencias acumuladas
Nº de hijos (Xi)
0
1
2
3
4
Nº de familias (ni)
5
6
8
4
2
Descripciones gráficas
Datos, agrupados, de un carácter cuantitativo
Histogramas
Polígono de frecuencias acumuladas
Ii
ni
fi
Ni
Fi
7'5 - 9
3
0'088
3
0'088
9 – 10'5
8
0'236
11
0'324
10'5 - 12
10
0'294
21
0'618
12 - 13'5
10
0'294
31
0'912
13'5 - 15
1
0'029
32
0'941
15 - 16'5
2
0'059
34
1
Descripciones Numéricas




Posición
 Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
 Percentiles, cuartiles, deciles,...
Centralización
 Indican valores con respecto a los que los datos parecen agruparse.
 Media, mediana y moda
Dispersión
 Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización.
 Desviación típica, coeficiente de variación, rango, varianza
Forma
 Asimetría
 Apuntamiento o curtosis
Descripciones Numéricas
Medidas de posición
 Cuartiles: Sea q un número real tal que 0  q  4. El cuartil q (cq) es un
valor del recorrido de las observaciones tal que el q/4 de las observaciones
son menores o iguales que cq.. El cuartil 2 es la mediana
 Deciles: Sea q un número real tal que 0  q  10. El decil q (dq) es un
valor del recorrido de las observaciones tal que el q/10 de las observaciones
son menores o iguales que dq.. El decil 5 es la mediana.
 Percentiles: Sea q un número real tal que 0  q  100. El percentil q (pq)
es un valor del recorrido de las observaciones tal que el q % de las
observaciones son menores o iguales que pq. El percentil 50 es la mediana.
Descripciones Numéricas
Medidas de posición (EJEMPLO)
El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se
considera “demasiado bajo”?
 Percentil 5 o cuantil 0,05
0
5
10
15
20
25
Percentil 5 del peso
frecuencia

1
2
3
Peso al nacer (Kg) de 100 niños
4
5
Descripciones Numéricas
Medidas de posición (EJEMPLO)
¿Qué peso es superado sólo por el 25% de los individuos?
 Percentil 75 o tercer cuartil
20
15
10
5
0
frecuencia
25
30
Percentil 75 del peso
50
55
60
65
70
Peso (Kg) de 100 deportistas
75
80
85
Descripciones Numéricas
Medidas de posición (EJEMPLO)
El colesterol se distribuye simétricamente en la población. Supongamos
que se consideran patológicos los valores extremos. El 90% de los
individuos son normales ¿Entre qué valores se encuentran los individuos
normales?
0
5
10
15
20
Percentiles 5 y 95
frecuencia

180
200
220
Colesterol en 100 personas
240
260
Descripciones Numéricas
Medidas de centralización

Media Es la media aritmética (promedio) de los valores de una variable.
Suma de los valores dividido por el tamaño muestral.
 Media de 2,2,3,7 es (2+2+3+7)/4=3,5
 Conveniente cuando los datos se concentran simétricamente con
respecto a ese valor. Muy sensible a valores extremos.
 Centro de gravedad de los datos

Mediana Es el valor de la variable que divide a las observaciones en dos
grupos con el mismo número de individuos (percentil 50). Si el número de
datos es par, se elige el primer valor de la variable que cubra el 50%.
 Mediana de 1,2,4,5,6,6,8 es 5
 Es conveniente cuando los datos son asimétricos. No es sensible a
valores extremos.
 Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

Moda Es el/los valor/es donde la distribución de frecuencia alcanza un
máximo.
Descripciones Numéricas
Altura mediana
Descripciones Numéricas
Medidas de centralización
 Media
x
 Media Aritmética
x 
i
 ni
i
N
 Moda: Es el valor que más se repite en la muestra
 Mediana :
Datos sin agrupar
Datos agrupados
Me = x[N/2] + 1
Me = xj
Descripciones Numéricas
xi
ni
Ni
0
3
3
1
2
5
2
2
7
ordenamos los valores en orden creciente
0 0 0 1 1 2 2
el 1 será el valor que cumple la definición de mediana.
7
Ejemplo:
La distribución de frecuencias acumuladas del ejemplo del número de hijos era
Nº de hijos (xi)
0
1
2
3
4
Frec. Acumuladas (Ni)
5
11
19
23
25
y como es n/2=12'5 y 11 < 12'5 < 19, en consecuencia la mediana será Me= 2.
Descripciones Numéricas
Datos Agrupados: Las gráficas siguientes, correspondientes a polígonos de frecuencias
absolutas acumuladas, nos plantea dos situaciones diferentes a considerar:
El más sencillo, el de la derecha, en el que existe una frecuencia absoluta
acumulada Nj tal que n/2 = Nj, la mediana es Me = xj.
Si la situación es como la que se representa en la figura de la izquierda, en la
que Nj-l < n/2 < Nj entonces, la mediana, está en el intervalo [xj-1, xj), es decir
entre xj-1 y xj, tomándose en ese caso, por razonamientos de proporcionalidad,
como mediana el valor
Descripciones Numéricas
Ejemplo:
La distribución de frecuencias del ejemplo de los niveles de colinesterasa es:
Intervalo
Ii
7'5-9
9-10'5 10'5-12 12-13'5 13'5-15 15-16'5
Frecuencia
ni
3
8
10
10
1
2
Frecuencia
Acumulada
Ni
3
11
21
31
32
34
Al ser n/2 = 17 y estar 11 < 17 < 21 la mediana estará en el intervalo [10'5 ,
12), y aplicando la fórmula anterior, será
Descripciones Numéricas
Medidas de dispersión
Conjunto 1: 10 20 30 40 50 media = 30, mediana = 30, moda = no existe
Conjunto 2: 10 30 30 30 50 media = 30, mediana = 30, moda = 30
Conjunto 3: 30 30 30 30 30 media = 30, mediana = 30, moda = 30
A la vista de estas medidas podríamos llegar a la conclusión equivocada de que
los tres conjuntos de datos son muy similares. Sin embargo, si dibujamos los
histogramas:
vemos claramente la diferencia entre los tres conjuntos: en el primero, la
dispersión de los datos es total, en el tercero es la máxima concentración y el
segundo es una situación intermedia.
Descripciones Numéricas
Medidas de dispersión
P25
P50
Máx.
P75
0.03
Amplitud o Rango:
Diferencia entre observaciónes extremas.
 2,1,4,3,8,4. El rango es 8-1=7
 Es muy sensible a los valores extremos.
0.02

Mín.
0.04
0.05
Miden el grado de dispersión (variabilidad) de los datos, independientemente de
su causa.
25%
25% 25%
25%
Rango intercuartílico:
Rango
 Es la distancia entre primer y tercer cuartil.
 Rango intercuartílico = P75 - P25
150
160
170
180
190
 Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.

No es tan sensible a valores extremos.
0.00

0.01
Rango intercuartílico
Descripciones Numéricas

Medidas de dispersión
Varianza S2: Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.



Es sensible a valores extremos (alejados de la media).
Sus unidades son el cuadrado de las de la variable. De interpretación difícil
para un principiante.
La expresión es fea, pero de gran belleza ‘natural’ (físicamente). Contiene la
información geométrica relevante en muchas situaciones donde la energía
interna de un sistema depende de la posición de sus partículas.
 Energía de rotación (vía el coeficiente de inercia): patinadores con
brazos extendidos (dispersos) o recogidos (poco dispersos)
 Energía elástica: Muelles ‘estirados’ con respecto a su posición de
equilibrio (dispersos) frente a muelles en posición cercana a su posición
de equilibrio (poco dispersos)
Descripciones Numéricas
Medidas de dispersión
Desviación típica: Es la raíz cuadrada de la
varianza
S  

S
2
Tiene las misma dimensionalidad (unidades)
que la variable. Versión ‘estética’ de la
varianza.
50
40
30
20

10
Desv. típ. = 568,43
Media = 2023
N = 407,00
0
0
30
3.
0
90
2.
0
50
2.
0
10
2.
0
70
1.
0
30
1.
0
90
0
50
Cierta distribución que veremos más adelante
(normal o gaussiana) quedará completamente
determinada por la media y la desviación
típica.
 A una distancia de una desv. típica de la
media hay ‘más de la mitad’.
 A una distancia de dos desv. típica de la
media las tendremos casi todas.
Peso recién nacidos en partos gemelares
Descripciones Numéricas
0.01
0.01
0.02
0.02
0.03
0.03
0.04
0.04
0.05
0.05
Medidas de dispersión
x s
x 2s
95 %
0.00
0.00
68.5 %
150
160
170
180
190
150
160
170
180

Centrado en la media y a una desv. típica de distancia hay aproximadamente el
68% de las observaciones.

A dos desviaciones típicas tenemos el 95% (aprox.)
190
Descripciones Numéricas
Medidas de dispersión
Coeficiente de variación: Es la razón entre la desviación típica y la media.
Cv 

x


S
x
Mide la desviación típica en forma de “qué tamaño tiene con respecto a la
media”
 También se la denomina variabilidad relativa.
 Es frecuente mostrarla en porcentajes
 Si
la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para comparar la variabilidad de
diferentes variables.
 Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor
0 sea una cantidad fijada arbitrariamente
 Por ejemplo 0ºC ≠ 0ºF
Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su inverso).



Descripciones Numéricas
Medidas de forma
Asimetría o sesgo





Una distribución es simétrica si la mitad
izquierda de su distribución es la imagen
especular de su mitad derecha.
En las distribuciones simétricas media y
mediana coinciden. Si sólo hay una moda
también coincide
La asimetría es positiva o negativa en
función de a qué lado se encuentra la cola
de la distribución.
La media tiende a desplazarse hacia las
valores extremos (colas).
Las discrepancias entre las medidas de
centralización son indicación de asimetría.
Descripciones Numéricas
Medidas de forma
Asimetría o sesgo


Hay diferentes estadísticos que sirven para detectar asimetría.
 Basado en diferencia entre estadísticos de tendencia central.
 Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.
 Basados en desviaciones con signo al cubo con respecto a la media (coeficiente
de asimetría de Fisher).
 Los calculados con ordenador. Es pesado de hacer a mano
En función del signo del estadístico diremos que la asimetría es positiva o
negativa.
 Distribución simétrica  asimetría nula.
g1< 0  Asimétrica Negativa
g1 = 0  Simétrica
g1 > 0  Asimétrica Positiva
Descripciones Numéricas
Medidas de forma
Apuntamiento o Curtosis

La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.
g < 0  Platicúrtica




Platicúrtica (aplanada): curtosis < 0
Mesocúrtica (como la normal): curtosis = 0
Leptocúrtica (apuntada): curtosis > 0
2
g2 = 0  Mesocúrtica
g2 > 0  Leptocúrtica
En el curso serán de especial interés las mesocúrticas y simétricas (parecidas
a la normal).
Ejercicios
1) En una clínica infantil se han ido anotando, durante un mes, el número de
metros que el niño anda, seguido y sin caerse, el primer día que comienza a
caminar. Obteniéndose así la tabla adjunta:
Número de niños 2
6
10
5
10
3
2
2
Número de
metros
2
3
4
5
6
7
8
1
Se pide:
1. Tabla de frecuencias.
2. Diagrama de barras para frecuencias absolutas.
3. Diagramas de frecuencias acumuladas (absolutas).
4. Mediana, Moda y Cuartiles.
5. Media aritmética.
Ejercicios
2) Se han medido los pesos y alturas de seis personas, obteniéndose los datos
siguientes:
Pesos
65
60
65
63
68
68
Alturas
1,70
1,50
1,68
1,70
1,75
1,80
Se quiere saber:
a) ¿Qué medidas están más dispersas, los pesos o las alturas?.
b) ¿Cuál es el coeficiente de variación de Pearson en cada caso?.
Ejercicios
3) En la caja de reclutas se ha medido la altura de 110 jóvenes, obteniéndose la
siguiente tabla:
Altura
Nº jóvenes
1,55-1,60
18
1,60-1,70
31
1,70-1,80
24
1,80-1,90
20
1,90-2,00
17
Calcúlense:
a) Los percentiles 21 y 87 y los deciles 3 y 9.
b) Se consideran "bajos" a aquellos cuya altura esté bajo el percentil 3.
¿Cuál es la altura máxima que pueden alcanzar?
c) Se consideran "altos" aquellos cuya altura está sobre el percentil 82.
¿Cuál será su altura mínima?.
d) ¿En qué percentil estará un joven de altura 1,78?
e) Coeficiente de asimetría de Fisher.
Descargar

Funciones de Varias Variables