Universidad Nacional de Colombia
Curso Análisis de Datos Cuantitativos
Algunos conceptos indispensables:
Distribución de probabilidades empírica:
Como hemos visto a lo largo del curso las poblaciones pueden
tener diversas formas de distribuirse, es decir las frecuencias
de sus valores pueden cambiar. La representación de esto se
hace mediante las tablas de frecuencias y también
gráficamente mediante los histogramas de probabilidades, los
cuales nos describen las probabilidades de los diferentes
valores de una variable ligada a una población.

Por ejemplo las probabilidades de las edades de los estudiantes
de ciencias humanas, ya sea en tabla o en histograma.
Algunos conceptos indispensables:
Distribución teórica:
Existen distribuciones de probabilidades que pueden definirse
matemáticamente en sus propiedades, es decir sin referencia a
unos datos concretos.

• Ejemplos de lo anterior son la distribución Binomial o la distribución
Poisson ya vistas en clase.
Pese a lo anterior podemos aplicar esas definiciones y propiedades
a casos reales que se parecen a las distribuciones teóricas.
Si se definen correctamente unas condiciones en un experimento o
muestreo podemos garantizar que la aplicación a casos reales
pueda realizarse y describir el caso concreto en relación con una
buena construcción teórica de las distribución de probabilidad.
•
Ejemplos de lo anterior son las aplicaciones de la distribución Binomial o la
distribución Poisson para describir y predecir probabilidades en ejemplos
y experimentos reales correctamente construidos.
Algunos conceptos indispensables:
La estadística proporciona las descripciones y
los procedimientos para lograr que la relación
entre los hechos y la construcción matemática
sea la mas adecuada, pero el investigador es
quien las interpreta los resultados teniendo en
cuenta:
 Como se aplicó la teoría estadística al caso real
y también
 El conocimiento que tenga de la materia de
estudio.

Algunos conceptos indispensables:
En general la descripción y análisis estadístico de las
probabilidades se define mediante unos valores numéricos
llamados parámetros:
 Parámetro estadístico: Es un valor que nos define o describe
una población.







La media poblacional : µ
La varianza poblacional : σ2
La cantidad de datos o individuos de la población : N
La probabilidad de un evento : p
También la mediana, la moda, el CV, etc. etc…
Existen gran variedad de parámetros o formas posibles de
describir una población o una distribución teórica.
Dependiendo de la construcción conceptual de un experimento
real o de la construcción matemática de una distribución teórica
se pueden usar diferentes parámetros para realizar
descripciones pertinentes.
Algunos conceptos indispensables:
Estadística: Es un valor numérico que nos da una
idea sobre el valor de un parámetro. P ej. decir
que la media de las edades de los colombianos
es de 24 años.
 Estadístico: Es un procedimiento (fórmula
matemática) para hallar el valor de un parámetro,
es decir, para hallar una estadística.

 Por ejemplo el estadístico para la media de una
variable es sumar los valores y dividir entre el número
de valores.
Algunos conceptos indispensables:
Estimación. Es un valor que hallamos mediante un
estadístico cuando no contamos con toda la
información pertinente y por consiguiente no
sabemos el valor de un parámetro poblacional.
 Siempre se busca que sea lo mas cercano al
parámetro y pese a que nunca hay seguridad total y
absoluta de que coincida con él podemos saber que
probabilidad tenemos de estar errados.

 Por ejemplo, hacer un muestreo de colombianos sin saber
el valor real del promedio, y decir que el promedio de esa
muestra, 24.6 años, es muy aproximado a la edad
promedio de todos los colombianos: “La edad promedio
estimada según la muestra es de 24.6 años”.
Algunos conceptos indispensables:

Estimador: Es la estadística que usamos para estimar el
valor de un parámetro en una población a partir de
información parcial. En nuestro caso, a partir de una
muestra.
-
 Por ejemplo, la media muestral X barra es un estimador de la
media poblacional µ pues el valor de la media de una muestra
casi siempre es cercano al valor real de la media de la población.


Dependiendo de la cantidad de información que
tengamos y de los procedimientos para conseguirla, las
estimaciones pueden ser mejores o peores, es decir más
o menos aproximadas al valor real de parámetro.
Las propiedades matemáticas de los estimadores
pueden definirse de modo que podamos calcular la
probabilidad de que una estimación se aproxime con
buena precisión al valor real del parámetro.
Distribuciones muestrales
Definición:
La distribución de todos los valores posibles que
puede asumir una estadística, calculados a
partir de muestras del mismo tamaño,
seleccionadas aleatoriamente de la misma
población, se llama distribución muestral
de esa estadistica.
Distribuciones muestrales
¿Cómo hallarlas?
Existen dos maneras de saber cual es aproximadamente la
distribución muestral de una estadística:
1.
Mediante el análisis con poblaciones muy pequeñas y variables
discretas. El inconveniente es que con poblaciones mas
grandes, e incluso infinitas, este procedimiento se vuelve
extremadamente difícil o imposible.
2.
Mediante la definición matemática de las propiedades de los
estimadores y de las distribuciones teóricas.
A continuación se presentará un ejemplo con pocos datos para
ilustrar en que consiste la distribución muestral de la media.
Posteriormente se presentará una generalización a casos con
poblaciones mas grandes.
Para las definiciones matemáticas y demostraciones de la
generalización hay bastante bibliografía pertinente que puede
ser consultada.
Distribuciones muestrales
Elaboración
Las distribuciones muestrales pueden construirse
empíricamente a partir de poblaciones finitas y
discretas. Para ello, se procede como sigue:
 1. De una población finita de tamaño N, se
extraen de manera aleatoria todas las muestras
posibles de tamaño n.
 2. Se calcula Ia estadística de interés para cada
muestra.
 3. Se ordenan en una columna los distintos
valores observados de la estadística y, en otra
columna, las frecuencias de ocurrencia
correspondientes de cada valor observado.
(Tabla de frecuencias)
Distribuciones muestrales
Ejemplo
Tenemos una población de cinco personas
cuyas edades son 6,8,10,12 y 14 años.
La media poblacional µ es 10 años.
 La varianza poblacional σ2 es de 8 años 2.

Comprobar por su cuenta los cálculos.
Distribuciones muestrales
Ejemplo
Todas las posibles muestras de tamaño n =2 de una población de
tamaño N = 5. Las muestras arriba o abajo de la diagonal principal
resultan cuando el muestreo es sin remplazos.
Las medias de las muestras están entre paréntesis.
Distribuciones muestrales
Ejemplo
Hacemos la tabla de frecuencias de las medias de
todas las muestras posibles:
Distribuciones muestrales
Ejemplo
Podemos
comparar los
histogramas de
la población y de
las muestras
Distribuciones muestrales
Ejemplo_

Ahora, con los valores de la tabla, podemos
calcular la media de las medias de las muestras:

Vemos que la media de las muestras coincide
con la media de la población pues µ de la
población es 10, como ya lo habíamos calculado.
Distribuciones muestrales
Ejemplo_

Tambien podemos calcular la varianza de las
medias de las muestras:

Vemos que la varianza de las muestras NO
coincide con la media de la población pues σ2 de
la población es de 8 años 2 , como ya lo
habíamos calculado.
Distribuciones muestrales
Ejemplo
Sin embargo, es interesante constatar que la
varianza de todas las muestras posibles es la
misma de la población pero dividida entre el
tamaño de la muestra, 2 en este caso:
El resultado no es coincidencia, pues se puede
demostrar matemáticamente que siempre se
cumple esta relación entre la varianza de
cualquier población y la de todas la muestras
posibles tamaño n que se saquen de ella.
Distribuciones muestrales
Ejemplo

Podemos expresar la anterior relación en
términos de variación estándar simplemente
sacándole raíz cuadrada a la formula anterior:
A esta expresión se le llama Error Estándar de la
Media, o simplemente Error Estándar. Expresa
qué tan confiables son nuestras estimaciones de
la media a partir de una población.
TEOREMA DEL LÍMITE CENTRAL:

Dada una población de cualquier forma
funcional normal o no, con una media µ y
variancia finita σ2, la distribución muestral de
x barra, calculada a partir de muestras de
tamaño n de dicha población, será casi
normal con media igual a µ y variancia σ2 /n
cuando la muestra es muy grande.
Corrección para población finita:
Los cálculos anteriores son para un muestreo
con remplazo, es decir, sacar un individuo y
regresarlo a la población. ¿Qué pasa si el
muestreo es mas natural, simplemente de las
cinco personas de la población sacamos dos
y ya?
Corrección para población finita:
Lo que cambiaría sería que ya no tenemos la diagonal del
ejemplo anterior, pues el mismo individuo ya no puede
estar dos veces en la muestra:
Corrección para población finita:
Después de desarrollar la tabla de frecuencias y los cálculos
de varianza muestral, podemos constatar que en un
muestreo sin remplazo la distribución de la media
muestral tiene la siguiente varianza: (Comprobar por su
cuenta los cálculos).
Al término (N-n)/(N-1) se le llama Factor de Corrección por
población finita. Sin embargo cuando la población es muy
grande y la muestra es mucho mas pequeña que la
población este factor es despreciable y se puede usar
simplemente el error estándar.
Descargar

Distribuciones muestrales I Distribución de la media muestral