Conceptos de Estadística para
QSAR
Prof. Ramón Garduño Juárez
Modelado Molecular
Diseño de Fármacos
Conceptos de breves de Estadística
Cunado se analizan grupos de datos prácticos, es útil el poder definir un número pequeño de
valores que resuman las características principales presentes. Derivaremos (i) valores
representativos, (ii) medidas de su extensión y (iii) medidas de la asimetría y otras características.
Valores Representativos
Estos se llaman algunas veces las medidas de posición o medidas de la tendencia central.
1. Valor Azaroso
Dado un conjunto de datos S = { x1, x2, … , xn }, seleccionamos un número azaroso, digamos k,
en el intervalo de 1 a n y regresamos el valor de xk. Este método de generar un valor
representativo es una forma sencilla, pero sufre del hecho que los valores extremos puedan ocurrir
y que valores sucesivos puedan variar considerablemente uno de otro.
2. Promedio Aritmético
También conocido como el promedio. Para el conjunto S de arriba el promedio es:
x = {x1 + x2 + … + xn }/ n.
Si x1 ocurre f1 veces, x2 ocurre f2 veces y así sucesivamente, obtenemos la formula:
x = { f 1 x1 + f 2 x2 + … + f n xn } / { f1 + f 2 + … + f n } ,
escrita como
x =
 fx /  f
, donde  (sigma) denota una suma.
Ejemplo 1.
Los datos son las calificaciones que obtuvieron los estudiantes de una clase en el examen.
Encuentre la calificación promedio de la clase.
El primer punto es notar que las calificaciones Calif. Punto-Medio Numero de
están dadas como una escala, así que debemos
del intervalo Estudiantes
tener cuidado en la interpretación de la escala.
xi
fi
f i xi
Todos los intervalos deben tener el mismo
rango y no debe haber huecos en ellos.
0 - 19
10
2
20
Por ejemplo, interpretamos al intervalo 0-19 21 - 39
30
6
180
con valores más grandes que 0 y menores
40 - 59
50
12
600
que o igual a 20. Así, su punto medio es 10.
60 - 79
70
25
1750
Los otros intervalos se toman de igual manera. 80 - 99
90
5
450
Suma
50
3000
El promedio aritmético es x = 3000 / 50 = 60 de calificación.
Note que si los pesos de tamaño fi están
colgados de una vara en los puntos xi, luego el
promedio es el centro de gravedad de la
distribución. Consecuentemente, es muy,
sensible a valores periféricos.
x1
x2
f1
x
xn
fn
f2
Igualmente la población deberá ser homogénea para que el promedio tenga significado. Por
ejemplo, si se supone que la altura típica de las mujeres en la clase es menor que la de los
hombres, luego la altura promedio de los estudiantes no representa ni a las mujeres ni a los
hombres.
3. El Modo
Este es el valor en la distribución que ocurre
más frecuentemente. De común acuerdo,
se calcula del histograma usando interpolación
lineal en la clase modal.
Frecuencia
50
13 20
25
13
Los varios triángulos similares en el diagrama
generan las relaciones comunes. En nuestro caso,
el modo es
60 + 13 / 33 (20) = 67.8 de calificación.
20
12
6
2
20
5
40
60
80
40
60
80
100
4. La Mediana
Es el punto medio de la distribución. Es usado
con frecuencia en aplicaciones educativas. Si
{ x1, x2, … , xn } son las calificaciones de los
estudiantes en una clase, arreglados en orden no
decreciente, luego la mediana es la calificación
del estudiante (n + 1)/2.
Se calcula a menudo de la ojiva o diagrama de
frecuencia cumulativa. En este caso, la mediana
es
60 + 5.5 / 25 (20) = 64.4 de calificación.
50
Frecuencia
Cumulativa
25.5
20
100
Medida de la Dispersión o Scattering
Ejemplo 2. La siguiente distribución tiene la misma
media aritmética del ejemplo 1, pero los valores están
más dispersos. Esto ilustra el punto de que un valor
promedio en sí mismo puede no describir adecuadamente
distribuciones estadísticas.
Para diseñar una formula que atrape el grado en el cual una
distribución está concentrada alrededor del promedio,
consideramos las desviaciones del promedio.
Si la distribución está concentrada alrededor de la media,
luego las desviaciones serán pequeñas, mientras que si la
distribución es muy dispersa, luego las desviaciones serán
muy grandes. Al promedio de los cuadrados de las
desviaciones se le llama la varianza y es usada como una
medida de la dispersión.
Calif.
x
Frecuencia
f
10
30
50
70
90
Suma
6
8
6
15
15
50
fx
60
240
300
1050
1350
3000
x6
x5
x4
La raíz cuadrada de la varianza es llamada la desviación
estándar y tiene las mismas unidades de medición que los
valores originales y es la medida preferida de la dispersión
para muchas aplicaciones.
x3
x2
x1
x
Varianza & Desviación Estándar
s2 = VAR[X] = Promedio de las Desviaciones al Cuadrado
= S f { Desviaciones al Cuadrado } / S f
= S f { xi - x } 2 / S f
= S f xi 2 / S f - x 2 ,
llamada formula del producto del momento.
s = Desviación Estándar =  Varianza
Ejemplo 1
f
x
2
10
6
30
12
50
25
70
5
90
50
fx
20
180
600
1750
450
3000
f x2
200
5400
30000
122500
40500
198600
VAR [X] = 198600 / 50 - (60) 2
= 372 calificaciones2
Ejemplo 2
f
x
6
10
8
30
6
50
15
70
15
90
50
fx
60
240
300
1050
1350
3000
f x2
600
7200
15000
73500
121500
217800
VAR [X] = 217800 / 50 - (60)2
= 756 calificaciones2
Otro Resumen de Estadística
Oblicuidad (Skewness)
Un atributo importante de una distribución estadística está relacionada con su grado de simetría. La
palabra “skew” significa un sesgo, así que las distribuciones que tienen un gran sesgo de valores alejados
en la mano derecha se les llama sesgados positivamente o sesgados a la derecha. La noción de sesgos
negativos se definen de manera similar. Una formula simple para la oblicuidad es
Oblicuidad = ( Media - Modo ) / Desviación Estándar
que para el ejemplo 1 es:
Oblicuidad = (60 - 67.8) / 19.287 = - 0.4044.
Coeficiente de Variación
Esta formula fue diseñada para estandarizar la media aritmética de tal forma que las comparaciones
puedan hacerse entre distribuciones diferentes. Sin embargo, no ha ganada una aceptación universal.
Coeficiente de Variación = Media / Desviación Estándar.
Intervalos Semi-Intercuarticos
Así como la media corresponde a el punto 0.50 en una distribución, los cuarticos Q 1, Q2, Q3 corresponden
a los puntos 0.25, 0.50 y 0.75. Una medida alternativa de la dispersión es
Intervalo Semi-Intercuartico = ( Q3 - Q1 ) / 2.
Media Geométrica
Para datos que crecen geométricamente, tal como datos económicos con un efecto de inflación alta, una
alternativa a la media aritmética es preferida. Esto involucra el obtener la raíz a la potencia
N = S f de un producto de términos
Media Geometría = N x1f1 x2 f2 … xk fk
Regresión
[Ejemplo 3.] Como un ejemplo motivante, supóngase que estamos modelando las ventas
sobre un periodo de tiempo.
VENTAS
3
5
4
5
6
7
TIEMPO
1990
1991
1992
1993
1994
1995
Buscamos la línea recta “Y = m X + c” que mejor se
Y=mX+c
Y
Yi
aproxime a los datos. Por “mejor” en este caso, queremos
decir la línea que minimice la suma de cuadrados de las
desviaciones verticales de los puntos de la línea:
SS = S ( Yi - [ mXi + c ] ) 2.
m Xi + c
Tomando las derivadas parciales de SS respecto a m y
c como cero obtenemos las “ecuaciones normales”
S Y = m S X + n .c
, donde n = # puntos
0
X
2
S X .Y= m S X + c S X .
Xi
Hagamos que 1990 corresponda al Año 0.
Ventas
X.X X X.Y Y Y.Y
10
0
0
0
3
9
1
1
5
5
25
4
2
8
4
16
9
3
15
5
25
5
16 4
24
6
36
25 5
35
7
49
Tiempo
55 15
87 30
160
0
5
Ejemplo 3 - Desarrollo.
Las ecuaciones normales son:
30 = 15 m + 6 c =>
87 = 55 m + 15 c
=>
24 = 35 m
=>
150 = 75 m + 30 c
174 = 110 m + 30 c
30 = 15 (24 / 35) + 6 c
=>
c = 23/7
Así la regresión de la línea de Y en X es
Y = (24/35) X + (23/7)
y como para graficar una línea necesitamos dos puntos, así
X = 0 => Y = 23/7
y
X = 5 => Y = (24/35) 5 + 23/7 = 47/7.
Es fácil ver que ( X, Y ) satisface las ecuaciones normales, así que la línea de regresión de Y
en X pasa a través del “Centro de Gravedad” de los datos. Al expandir los términos,
obtenemos
S ( Yi - Y ) 2 = S ( Yi - [ m Xi + c ] ) 2
Suma Total
de Cuadrados
SST
=
Error de la Suma
de Cuadrados
SSE
+
+
S ( [ m Xi + c ] - Y ) 2
Y
Yi
Regresión de la Suma
de Cuadrados
Y
SSR
En regresión, nos referimos a la variable X como la variable
independiente y a Y como a la variable dependiente.
mXi +C
Y
X
X
Correlación
El coeficiente de determinación r2 ( que toma valores en el intervalo de 0 a 1 ) es una medida de
la proporción de la variación total que está asociada con el proceso de regresión:
r2
=
SSR/ SST
=
1 - SSE / SST.
El coeficiente de correlación r ( que toma valores en el intervalo de -1 a +1 ) se usa más
frecuentemente como una medida del grado en el cual una relación matemática existe entre X y
Y. Este puede ser calculado de la formula:
r =
S(X-X)(Y-Y)
S
=
( X - X )2 ( Y - Y ) 2
nSXY-S XSY
 { n S X 2 - ( S X )2 } { n S Y2 - ( S Y)2 }
Ejemplo. En nuestro caso r = {6(87) - (15)(30)}/  { 6(55) - (15)2 } { 6(160) - (30)2 } = 0.907.
r=-1
r=0
r=+1
Colinearidad
Si el valor del coeficiente de correlación es más grande que 0.9 o menor que - 0.9,
supondremos que existe una relación matemática entre las variables. Esto no implica que
exista una relación causa-y-efecto.
Considere un país con un tamaño de población que cambia lentamente, donde cierto partido
político retiene un porcentaje relativamente estable de los votos en las elecciones. Hagamos
X = Numero de gente que votó por el partido en una elección
Y = Numero de gente que murió debido a cierta enfermedad en un año
Z = Tamaño de la población.
Luego, el coeficiente de correlación entre X y Y probablemente este cercano a 1,indicando
que hay una relación matemática entre ellos (i.e.) X es una función de Z y también Y es una
función de Z. Sería muy tonto el sugerir que la incidencia de la enfermedad es causada por el
numero de gente que votó por un partido político dado. Este efecto es conocido como el
problema de la colinearidad.
Detectar dependencias ocultas puede ser muy difícil. La experimentación estadística solo
puede ser usada para desaprobar hipótesis, o para dar evidencia que apoye la visión que
presuntas relaciones entre variables puedan ser válidas. Así, el hecho de que se observe un
coeficiente de correlación alto entre muertes debidas a ataques de miocardio en un año dado
con el numero de cigarros consumidos veinte años antes no establece una relación causa-yefecto. Sin embargo, este resultado puede ser valioso en orientar la investigación biomédica
ne cierta dirección.
Resumen de la Teoría de Probabilidad
En la teoría estadística, un experimento es cualquier operación que pueda ser replicada infinitamente de
manera frecuente y que da origen a un conjunto de resultados elementales, a los que se les considera ser
igualmente probables. El espacio de muestreo S del experimento es el conjunto de todos los posibles
resultados del mismo. Cualquier subconjunto E del experimento es el conjunto de todos los posibles
resultados de este. Decimos que un evento E ocurre cuando cualquiera de sus elementos es un resultado
del experimento. La probabilidad de ocurrencia de E es
P {E} = Numero de resultados elementales en E
Numero de resultados elementales en S
S
E
El complemento E de un evento E es el conjunto de todos los elementos que pertenecen a S pero no a E.
La unión de dos eventos E1  E2 es el conjunto de todo los resultados que pertenecen a E1 o a E2 o a
ambos. La intersección de dos eventos E1  E2 es el conjunto de todos los eventos que pertenecen a
ambos E1 y E2. Los eventos son mutuamente excluyentes si la ocurrencia de cualquiera de ellos impide
la ocurrencia del otro (i.e) su intersección es el conjunto vacío  . Dos eventos son independientes si la
ocurrencia de cualquiera de ellos no es afectada por la ocurrencia o no ocurrencia del otro evento.
Teorema de Probabilidad Total.
P {E1  E2} = P{E1} + P{E2} - P{E1  E2}
Prueba. P{E1  E2} = (n1, 0 + n1, 2 + n0, 2) / n
= (n1, 0 + n1, 2) / n + (n1, 2 + n0, 2) / n - n1, 2 / n
= P{E1} + P{E2} - P{E1  E2}
Corolario.
Si E1 y E2 son mutuamente excluyentes, P{E1  E2} = P{E1} + P{E2}
S
n = n0, 0 + n1, 0 + n0, 2 + n1, 2
E1
n1, 0
E2
n1, 2
n0, 2
n0, 0
La probabilidad P{E1 | E2} que E1 ocurra, dado que E2 ha ocurrido (o debe ocurrir) es llamada la
probabilidad condicional de E1. nótese que en este caso, el único resultado posible del experimento
está limitado a E2 y no a S.
Teorema de la Probabilidad Compuesta
P{E1  E2} = P{E1 | E2} * P{E2}.
Prueba. P{E1  E2} = n1, 2 / n
= {n1, 2 / (n1, 2 + n0, 2) } * { n1, 2 + n0, 2) / n}
Corolario.
Si E1 y E2 son independientes, P{E1

S
E2
E1
n1, 0
n1, 2
n0, 2
n0, 0
E2} = P{E1} * P{E2}.
La habilidad de contar los posibles resultados en un evento es crucial para calcular las probabilidades.
Por una permutación de tamaño r de n diferentes artículos, queremos decir un arreglo de r de los
artículos, donde el orden del arreglo es importante. Si el orden no es importante, el arreglo es llamado
una combinación.
Ejemplo. Hay 5*4 permutaciones y 5*4 / (2*1) combinaciones de tamaño 2 de A, B, C, D, E
Permutaciones: AB, BA, AC, CA, AD, DA, AE, EA
BC, CB, BD, DB, BE, EB
CD, DC, CE, EC
DE, ED
Combinaciones: AB, AC, AD, AE, BC, BD, BE, CD, CE, DE
Los libros de referencia estándar en teoría de probabilidad dan un tratamiento más comprensivo de
cómo estas ideas se usan para calcular la probabilidad de ocurrencia de los resultados en juegos de azar.
Distribuciones Estadísticas
Si el experimento estadístico sólo da lugar a números reales, el resultado del experimento es
llamado una variable azarosa. Si una variable azarosa X
toma valores
X1, X2, … , Xn
con probabilidades
p1, p 2, … , pn
luego el valor esperado o promedio de X está definido como
n
E[X] =  pj Xj
y su varianza es
j =1
VAR[X] =
n
E[X2]
-
E[X]2
=  pj Xj2 - E[X]2.
j =1
Ejemplo. Hagamos que X sea una variable azarosa que
mide la distancia en Km que los niños viajan hasta la
escuela y suponga que los siguientes datos son
aplicables. Por lo tanto la media y la varianza son
E[X]
= 5.30 Kilómetros
VAR[X] = 33.80 - 5.302
= 5.71 Kilómetros2
Prob. Distancia
pj
Xj
pj Xj
p j Xj2
0.15
0.40
0.20
0.15
0.10
1.00
0.60
6.40
7.20
9.60
1.00
33.80
2.0
4.0
6.0
8.0
10.0
-
0.30
1.60
1.20
1.20
1.00
5.30
Conceptos similares se aplican a distribuciones continuas. La función de distribución esta
definida por
F(t) = P{ X  t} y su derivada es la función de frecuencia
f(t) = d F(t) / dt
t
de forma que
F(t) =  f(x) dx.

Sumas y Diferencias de Variables Azarosas
Defina la como alianza de dos variables azarosas como
COVAR [ X, Y] = E [(X - E[X]) (Y - E[Y]) ] = E[X Y] - E[X] E[Y].
Si X y Y son independientes, COVAR [X, Y] = 0.
Lemma
E[ X + Y]
= E[X] + E[Y]
VAR [ X + Y]
= VAR [X] + VAR [Y] + 2 COVAR [X, Y]
E[ k. X] = k .E[X] VAR[ k. X] = k2 .E[X] para una constante k.
Ejemplo. Una compañía registra el tiempo de viaje
X de un camión desde el deposito a los clientes
y el tiempo de descarga Y, como se muestra.
E[X]
= {1(10)+2(13)+3(17)+4(10)}/50 = 2.54
E[X2] = {12(10+22(13)+32(17)+42(10)}/50 = 7.5
VAR[X] = 7.5 - (2.54)2 = 1.0484
E[Y]
= {1(20)+2(19)+3(11)}/50 = 1.82
VAR[Y] = 3.9 - (1.82)2 = 0.5876
X=1
Y =1
7
2
2
3
1
Totales
10
2
5
6
2
13
3
4
8
5
17
4 Totales
4
20
3
19
3
11
10
50
E[Y2] = {12(20)+22(19)+32(11)}/50 = 3.9
E[X+Y]
= { 2(7)+3(5)+4(4)+5(4)+3(2)+4(6)+5(8)+6(3)+4(1)+5(2)+6(5)+7(3)}/50 = 4.36
2
E[(X + Y) ]
= {22(7)+32(5)+42(4)+52(4)+32(2)+42(6)+52(8)+62(3)+42(1)+52(2)+62(5)+72(3)}/50 = 21.04
VAR[(X+Y)] = 21.04 - (4.36)2 = 2.0304
E[X Y]
= {1(7)+2(5)+3(4)+4(4)+2(2)+4(6)+6(8)+8(3)+3(1)+6(2)+9(5)+12(3)}/50 = 4.82
COVAR (X, Y) = 4.82 - (2.54)(1.82) = 0.1972
VAR[X] + VAR[Y] + 2 COVAR[ X, Y] = 1.0484 + 0.5876 + 2 ( 0.1972) = 2.0304
Distribuciones Estadísticas Estándar
La mayoría de los libros básicos de estadística proveen una revisión de las distribuciones
estadísticas comúnmente empleadas. La razón para estudiar estas distribuciones son que
Tienen un amplio intervalo de distribuciones para el modelado de aplicaciones prácticas
Sus propiedades matemáticas son conocidas
Se describen en términos de pocos parámetros, los que tienen interpretaciones naturales.
1 Prob
1. Distribución de Bernoulli.
Se usa para modelar una prueba que da origen a dos resultados:
éxito/fallo, macho/hembra, 0 / 1. Sea p la probabilidad que
el resultado es uno y q = 1 - p haga que el resultado sea cero.
1-p
E[X]
= p (1) + (1 - p) (0) = p
VAR[X] = p (1)2 + (1 - p) (0)2 - E[X]2 = p (1 - p).
0
2. Distribución Binomial.
Suponga que estamos interesados en el numero de éxitos X en n
repeticiones independientes de una prueba de Bernoulli, donde
1
la probabilidad de éxito en una prueba individual es p. Luego
Prob{X = k} = nCk pk (1-p)n - k, (k = 0, 1, …, n)
E[X]
=np
VAR[X] = n p (1 - p).
Esta es la distribución apropiada para usar en el modelado del
numero de niños en una familia de n = 4 hijos, el numero de
componentes defectuosos en un lote de n = 10 componentes, etc.
Prob
np
p
p
1
(n=4, p=0.2)
4
3. Distribución de Poisson.
La distribución de Poisson surge como un caso limitante de la distribución binomial, donde
n  , p   de tal forma que n p    una constante). Su densidad es
Prob{X = k} = exp ( -  ) k / k ! k = , 1, 2, … ).
Nótese que exp (x) significa e a la potencia de x, donde e es
Prob
aproximadamente 2.71828.
1
E [X]
=
VAR [X] = .
La distribución de Poisson se usa para modelar el numero de
ocurrencias de un cierto fenómeno en un periodo fijo de
tiempo o espacio, como el numero de
5
O partículas emitidas por una fuente radioactiva en una dirección y periodo de
tiempo fijos
O las llamadas telefónicas en un conmutador durante un periodo de tiempo dado
O defectos en una longitud dada de tela o papel
O gente que forma una cola en un intervalo fijo de tiempo
O accidentes que ocurren en una extensión de carretera en un intervalo de tiempo
especificado.
4. Distribución Geométrica.
Está surge en el “tiempo” un número de pasos k al primer
éxito en una serie de pruebas independientes de Bernoulli.
La densidad es
Prob{X = k} = p (1 - p) k-1 (k = 1, 2, … ).
E[X] = 1/p
VAR [X] = (1 - p) /p2
X
Prob
1
X
5. Distribución Binomial Negativa
Esta se usa para modelar el número de fallos k que ocurren antes del rth éxito en una serie de
pruebas independientes de Bernoulli. La densidad es
Prob {X = k} = r+k-1Ck pr (1 - p)k
(k = 0, 1, 2, … )
Nótese E [X]
= r (1 - p) / p
VAR[X]
= r (1 - p) / p2.
6. Distribución Hipergeométrica
Considere una población de M artículos, de los cuales W están destinados a ser éxitos. Sea X
el número de éxitos que ocurren en una muestra de tamaño n, sacado sin reemplazo de la
población. La densidad es
Prob { X = k} = WCk M-WCn-k / MCn ( k = 0, 1, 2, … )
Luego E [X] = n W / M
VAR [X] = n W (M - W) (M - n) / { M2 (M - 1)}
7. Distribución Uniforme
Prob
Una variable azarosa X tiene una distribución uniforme
1
en el intervalo [a, b], si X tiene la densidad
f (X) = 1 / ( b - a)
para a < X < b
=0
de otra forma.
1 / (b-a)
X
Luego E [X] = (a + b) / 2
VAR [X] = (b - a)2 / 12
b
Números azarosos uniformemente distribuidos ocurren frecuentementea en los modelos
de
simulación. Sin embargo, los algoritmos basados en computadoras, sólo pueden aproximar
esta distribución así que mucho cuidado deberá tenerse en la interpretación de los resultados
del modelo de simulación.
Si X es una variable azarosa continua, luego la probabilidad de que X tome un valor en el
intervalo [a, b] es el área bajo la función de frecuencia f(x) entre estos puntos:
Prob { a < x < b } = F (b) - F (a) = ab f(x) dx.
En trabajo práctico, estas integrales son evaluadas al consultar tablas estadísticas.
9. Distribución Gaussiana o Normal
Una variable azarosa X tiene una distribución normal con media m y desviación estándar s si
ésta tiene la densidad
f (x)
=
1
Prob
exp { - ( x - m )2 }, -  x <  1
2 p s2
2 s2
=
0,
de otra manera
f(x)
E [ X]
=m
X
VAR [X] = s2.
0
m
Como se describe abajo, la distribución normal surge naturalmente como una distribución
limitante del promedio de un conjunto de variables azarosas independientes, idénticamente
distribuidas con varianzas finitas. Esta juega un papel central en la teoría de muestreo y es
una buena aproximación a una clase muy grande de distribuciones empíricas. Por esta razón,
una suposición por de facto en muchos estudios empíricos es que la distribución de cada
observación es aproximadamente normal. Por lo tanto, las tablas estadísticas de la
distribución normal son de gran importancia en el análisis práctico de grupos de datos. Se
dice que X es una variable normal estandarizada si m = 0 y s = 1.
10. Distribución Gamma
La distribución Gamma surge en teoría de colas como el tiempo de llegada del nth cliente de
una cola única, donde el coeficiente de delegada promedio es . la función de frecuencia es
f(x)
=  ( x )n - 1 exp ( -  x) / ( n - 1)! , x  0,  > 0, n = 1, 2, ...
= 0,
de otra forma.
E [X]
=n/
VAR [X] = n /  2
11. Distribución Exponencial
Esta es un caso especial de la distribución Gamma con n = 1 y y así es usado para modelar el
tiempo derribo de los clientes, o el tiempo de arribo del primer cliente, en una cola simple.
La función de frecuencia es
f (x)
=  exp ( -  x ),
x  0,  > 0
= 0,
de otra forma.
12. Distribución Ji-Cuadrada
Una variable azarosa X tiene una distribución Ji-cuadrada con n grados de libertad (donde n
es un entero positivo) si ésta es una distribución Gamma con  = 1, así su función de
frecuencia es
Prob
f (x)
= xn - 1 exp ( - x) / ( n - 1) !, x  o
= 0,
de otra forma.
c2 n (x)
X
Distribución Ji-cuadrada (continuación)
La distribución Ji-cuadrada surge en dos aplicaciones importantes:
O Si X1, X2, … , Xn es una secuencia de variables azarosas estandarizadas normales
independientemente distribuidas, la suma de cuadrados X12 + X22 + … + Xn2 tiene una
distribución Ji-cuadrada con n grados de libertad
O Si x1, x2, … , xn es una muestra azarosa de una distribución normal con media m
y varianza s2 al hacer
x =  xi / n
y S 2 =  ( x i - x ) 2 / s2 ,
luego S2 tiene una distribución Ji-cuadrada con n - 1 grados de libertad, y las
variables azarosas S2 y x son independientes.
13. Distribución Beta.
Una variable azarosa X tiene una distribución Beta con parámetros a > 0 y b > 0 si esta tiene una
función de frecuencia
f (x)
= G  a + b ) x a  1 ( 1 - x) b  1 / G (a) G b), 0 < x < 1
= 0,
de otra manera
E [X]
=a/a+b)
VAR [X] = a b/ [  a + b)2  a + b + 1) ]
Si n es un entero,
G (n) = ( n - 1 ) !
G (n + 1/2) = (n - 1/2) ( n - 3/2) …
con G (1) = 1
con G ( 1/2) =  p
14. Distribución Student t
Una variable azarosa X tiene una distribución t con n grados de libertad ( tn ) si ésta tiene una
densidad
f(x)
= G (n+1) / 2 )
 n p G  n / 2)
1 + x2 / n ) - (n+1) / 2
= 0,
La distribución t es simétrica alrededor del origen, con
E[X]
=0
VAR [X] = n / (n -2).
( -  < x < )
de otra forma.
Para valores pequeños de n, la distribución tn es muy plana. Cunado n es aumenta la densidad toma
una forma de campana. Para valores de n  25, la distribución tn es prácticamente indistinguible de la
curva normal estándar.
O Si X y Y son variables azarosas independientes
Si X tiene una distribución normal estándar y Y tiene una distribución cn2
luego X
tiene una distribución tn
Y/n
O Si x1, x2, … , xn es una muestra azarosa de una distribución normal, con media m
y varianza s2 y si definimos s2 = 1 / ( n - 1)  ( xi - x ) 2
luego ( x - m ) / ( s / n) tiene una distribución tn- 1
15. Distribución F
Una variable azarosa X tiene una distribución F con m y n grados de libertad si ésta tiene una densidad
f(x)
= G (m + n) / 2 ) m m / 2 n n / 2 x m / 2 - 1
G  m / 2) G  n / 2) (n + m
x>0
x) ( m + n ) / 2
= 0,
Nótese E[X]
= n / ( n - 2)
VAR [X] = 2 n2 (m + n - 2)
m (n - 4) ( n - 2 )2
Si
de otra forma.
if n > 4
if n > 4
O X y Y son variables azarosas independientes, X tiene una distribución cm2 y Y una cn2
X / m tiene una distribución Fm , n
Y/n
O Una consecuencia de esto es que la distribución F representa la distribución de la relación
de ciertas formas cual drásticas independientes que pueden ser construidas de
muestras azarosas obtenidas de distribuciones normales:
si x1, x2, … , xm ( m  2) es una muestra azarosa de una distribución
normal con media m1 y varianza s12, y
si y1, y2, … , yn ( n  2) es una muestra azarosa de una distribución
normal con media m2 y varianza s22, luego
 ( xi - x )2 / ( m - 1)
 ( yi - y )2 / ( n - 1)
tiene una distribución Fm - 1 , n - 1
La Teoría de Muestreo
El procedimiento para obtener una muestra azarosa de una distribución es que los números 1, 2,
… están asignados a los elementos de la distribución, y tablas de números azarosos son luego
usadas para decidir cuáles elementos están incluidas en la muestra. Si el mismo elemento no se
puede seleccionar más de una vez, decimos que la muestra se obtuvo sin reemplazamiento; de
otra forma, se dice que la muestra se obtuvo con reemplazamiento.
La convención usual en muestreo es que las letras minúsculas se usan para designar las
características de la muestra, las letras mayúsculas se usan para la población original.
Así, si el tamaño de la muestra es n, sus elementos son designados como, x 1, x2, …, xn, su
media es x y su varianza modificada es
s2 =
 (xi - x )2 / (n - 1).
Las las características correspondientes a la población original son N (o infinito), X y S 2.
Suponga que repetidamente obtenemos nuestras azarosas de tamaño n (con reemplazamiento)
de una distribución con media m y varianza s2. Hagamos x1, x2, … la colección de
promedios de muestra y hagamos
xi’ =
xi - m (i = 1, 2, … )
s/n
La colección x1’, x2’, … es llamada la distribución de muestreo de las medias.
Teorema del Limité Central.
En el límite, cuando n tiende a infinito, la distribución de muestreo de las
medias tiene una distribución normal estándar.
Muestreo de Atributos y Proporcionado
Si los elementos de muestra son una medida de alguna característica, decimos que tenemos
un muestreo de atributos. Por otra parte, si todos los elementos de muestras son 1 o 0
(éxito/fallo, acuerdo/no acuerdo), tenemos un muestreo proporcionado. Para el muestreo
proporcionado, el promedio de la muestra x y la proporción de la muestra p son sinónimos,
así como lo son la media m y la proporción P de la población original. De los resultados en la
distribución binominal, la varianza de la muestra es p (1 - p) y la varianza de la distribución
original es P (1 - P).
Podemos de generalizar el concepto de la distribución de muestreo de medias para obtener la
disminución de muestreo de cualquier estadística. Decimos que un muestreo de
características es una estimación sin tendencia de las características de la población original,
si la media de la distribución de muestreo correspondiente es igual a las características
originales.
Lemma.
El promedio de la muestra (proporción ) es una estimación sin tendencia
del promedio original (proporción):
E [ x] = m;
E [p] = P.
La cantidad  ( N - n) / ( N - 1) es llamada la corrección de población finita (fpc). Si la
población original es infinita o w tiene un muestreo con reemplazamiento, la fpc = 1.
Lemma.
E [s] = S * fpc.
Intervalos de Confianza
De las tablas estadísticas para una distribución normal
estándar, notamos que
Área Bajo la
Función de Densidad
0.90
0.95
0.99
Desde
Hasta
-1.64
-1.96
-2.58
1.64
1.96
2.58
n (0,1)
0.95
-1.96
0
+1.96
A partir del teorema del límite central, si x y s2 son la media y la varianza de un muestreo azaroso de
tamaño n (con n más grande que 25) obtenido de una población original muy grande, luego podemos
hacer las siguientes declaraciones acerca de la media original desconocida m
Prob { -1.64  x - m  1.)  .
s/n
i.e.
Prob { x - 1.64 s /  n  m  x + 1. s /  n }  .
La relación x + 1.64 s /  n
original m.
es conocida como el intervalo de confianza del 90% para la media
Ejemplo [ Muestreo de Atributos]
Una muestra azarosa de tamaño 25 tiene x = 15 y s = 2. Luego un intervalo de confianza del 95% para
m es
15 + 1.96 (2 / 5) (i.e.) 14.22 a 15.78
Ejemplo [ Muestreo Proporcionado]
Una muestra azarosa de tamaño n = 1000 tiene p = 0.40  1.96  p (1 - p) / (n - 1) = 0.03.
Un intervalo de confianza del 95% para P es 0.40 + 0.03 (i.e.) 0.37 a 0.43.
Teoría del Muestreo Pequeño
Para propósitos de referencia, es útil recordar la expresión
x + 1.96 s /  n
como la “fórmula de facto” para el intervalo de confianza y para modificarla para satisfacer
circunstancias particulares.
O Si tratamos con muestreo proporcionado, la proporción de muestra es la
media de la muestra y él término de error estándar (s.e.) s /  n se simplifica
como sigue:
x -> p y
s /  n ->  p(1 - p) / (n -1).
O Un intervalo de confianza 90% traerá el cambio
1.96 -> 1.64.
O Si el tamaño de muestra n es menor que 25, la distribución normal deberá ser
reemplazada por la distribución de Student t n - 1.
O Para el muestreo sin reemplazo de una población finita, un término fpc deberá
ser usado.
El ancho de la banda del intervalo de confianza aumenta con el nivel de confianza.
Ejemplo. Una muestra azarosa de tamaño n = 10, obtenida de una población original muy grande, tiene
una media x = 12 y una desviación estándar s = 2. Luego un intervalo de confianza del 99% para la
media original es
x + 3.25 s /  n (i.e.)
12 + 3.25 (2)/3
(i.e.)
9.83 to 14.17
y un intervalo de confianza del 95% para la media original es
x + 2.262 s /  n (i.e.)
12 + 2.262 (2)/3 (i.e.)
10.492 to 13.508.
Nótese que para n = 1000, 1.96  p (1 - p) / n  . para valores de p entre 0.3 y 0.7. esto da origen a la
declaración de las encuestas de opinión pública tienen un “error inherente de 3%”. Esto simplifica los
cálculos en el caso de las encuestas de opinión pública para el caso de partidos políticos muy grandes.
Descargar

Summary Statistics When analysing practical sets of data