Estimación
Sea  una característica, un parámetro poblacional
cuyo valor se desea conocer a partir de una muestra.
Sea ˆ un estadístico ( función de la muestra ) que
utilizamos para estimar el valor de  .
Observa que el estadístico:
ˆ  T ( X 1 , X 2 ,..., X n )
es una función que depende de la muestra y lo
llamaremos estimador. El valor concreto de ˆ es la
estimación.
Hay dos tipos básicos de estimación: puntual y por
intervalo de confianza.
-Estimación puntual
Provee un solo valor, un valor concreto para la estimación.
Un estimador puntual es simplemente un estadístico
(media aritmética, varianza, etc.) que se emplea para
estimar parámetros (media poblacional, varianza
poblacional, etc.).
Por ejemplo, cuando obtenemos una media aritmética a
partir de una muestra, tal valor puede ser empleado como
un estimador para el valor de la media poblacional.
Algunos autores comparan los estimadores con los
lanzamientos en una diana: el círculo central sería el valor
real del parámetro.
-Por intervalo
Determina dos valores (límites de confianza) entre
los que acepta puede estar el valor del estimador.
Hablaremos de nivel de confianza 1-α cuando en el intervalo se
encuentre el valor del estimador con probabilidad 1-α.
– Observa que la probabilidad de error (no contener al parámetro) es α.
– En general el tamaño del intervalo disminuye con el tamaño muestral y
aumenta con 1-α.
– En todo intervalo de confianza hay una noticia buena y otra mala:
• La buena: hemos usado una técnica que en % alto de casos acierta.
• La mala: no sabemos si ha acertado en nuestro caso.
Métodos de estimación puntual
Hemos visto que un estimador de la media poblacional es
la media muestral y de la varianza poblacional es la seudovarianza
muestral. Pero, ¿cómo determinar un estimador cuando no
se trata de la media o la varianza?
Por ejemplo, supongamos una población con función densidad:
f ( x) 

(1  x )
1 
x  0,   0
¿Cómo estimar
el parámetro θ?
Método de los momentos
Método de máxima verosimilitud
Método de mínimos cuadrados
(Lo veremos más adelante en el tema
de regresión)
Método de los momentos
Si una distribución tiene k parámetros, el procedimiento
consiste en calcular los primeros k momentos muestrales de la
distribución y usarlos como estimadores de los
correspondientes momentos poblacionales.
La media poblacional  es el primer momento de la
distribución alrededor del origen. La media muestral x es el
promedio aritmético de las observaciones muestrales x1, x2, ...,
xn. El método de los momentos toma a la media muestral como
una estimación de la media poblacional.
De la misma manera, la varianza de una variable aleatoria es 2
y se denomina segundo momento alrededor de la media. La
varianza muestral s2 se usa como un estimador de la varianza
poblacional de la distribución.
Recordemos que el momento muestral centrado en el origen
de orden r se define como:
1 n r
m r   xi
n i 1
Para el ejemplo anterior, los momentos de primer orden centrados
en el origen de la población y la muestra son respectivamente:




x
m1 
(1  x )
1
1 
n
x

n
i 1
i
Igualando:
1 
dx 
  1 
1
1 n
  xi

  1 n i 1


Luego podemos usar como
estimador:
ˆ 
n
1
n
x
i 1
i
Método de máxima verosimilitud
Sea X una variable aleatoria cuya distribución de
probabilidad depende del parámetro desconocido .
Sea la función de densidad de probabilidad de la población
f(x, ). Se toma una muestra aleatoria x1, x2, ..., xn de
observaciones independientes y se calcula la densidad
conjunta de la muestra: la función de verosimilitud y se
expresa como:
L(x 1 ,...,x n , θ )  f(x 1 , θ )  f(x 2 , θ )  ...  f(x n , θ )
n
L(x 1 ,...,x n , θ ) 
 f x , 
i
i 1
Si de una población cualquiera hemos obtenido una muestra
particular, es razonable pensar que la muestra obtenida era
la que mayor probabilidad tenía de ser escogida.
L
Función
máxima
verosimilitud
ˆ
ˆ
MV
Valor del estimador máxima
verosimilitud
Si los valores posibles de  son discretos, el procedimiento es
evaluar L(x,) para cada valor posible y elegir el valor de  para
el cual L alcanza su máximo.
Por otro lado, si L(x,) es diferenciable se puede maximizar L
sobre el rango de valores posibles de  obteniéndose
condiciones de primer y segundo orden.
En la práctica es más fácil maximizar el logaritmo de la función
de verosimilitud. Como la función logaritmo es una
transformación monótona, maximizar L(x,) es equivalente a
maximizar Ln(L(x,)).
Ejemplo: Sea una urna con bolas rojas y blancas en proporciones
desconocidas. Extraemos 10 bolas con reemplazo (n = 10) y
obtenemos 3R y 7B. Llamemos p a la proporción de R en la urna.
L ( p )  p (1  p ) PR
3
L ( p )
p
Soluciones:
7
10
3,7
 p (1  p )
3
 p (1  p ) ( 3  10 p )
2
6
7
10 !
3!7!
10 !
0
3!7!
p=0
Imposible porque
hemos extraído 3R
p=1
Imposible porque
hemos extraído 7B
p = 3/10
Que además
hace máxima
la función L(p)
 L( p)
2
p
0
2
p  3 / 10
f ( x) 
Volvamos al ejemplo:

n
L(x 1 ,...,x n , θ ) 
 f x ,  
i
i 1

(1  x )
1 
x  0,   0
n
n
 1  x 
1 
Construimos la función
máxima verosimilitud
i
i 1
n
Ln L(x 1 ,...,x n , θ )  nLn   (1   )  Ln 1  x i 
i 1
 Ln L(x 1 ,...,x n , θ )
θ
 ˆ 

n

Extraemos logaritmos
a ambos lados
n

 Ln 1  x   0
i
i 1
n
Derivamos e igualamos
a cero para encontrar
el máximo de la función
n
 Ln 1  x 
i
i 1
 Ln L(x 1 ,...,x n , θ )
2
θ
2
  ˆ
n
 2 0
ˆ
Observemos que no
coincide con el estimador
que nos propone el método
de los momentos.
Propiedades deseables en los estimadores
Los dos procedimientos que repasamos hace un momento
(más el método de mínimos cuadrados que veremos luego)
eligen a la media muestral como estimador del parámetro .
Sin embargo, otras veces obtenemos estimadores distintos
para el mismo parámetro, como ocurre con 2. O como
hemos visto para el caso del parámetro  del ejemplo.
En esos casos, ¿cuál es el mejor estimador?
1. Ausencia de sesgo
2. Consistencia
3. Eficiencia
4. Suficiencia
1. Estimador insesgado. Diremos que  es un
estimador insesgado de  si:

E ˆ  ET  X 1 ,..., X n   
Vimos que la media muestral es un estimador
insesgado de la media poblacional.
Vimos que la varianza muestral no es un estimador
insesgado de la varianza poblacional, es sesgado.
b( )  Eˆ 
se llama sesgo de
ˆ
Recuerda que construimos la cuasivarianza que sí es
un estimador insesgado de la varianza poblacional.
Sea una población N(, ) y construyamos los estimadores de
varianza: varianza muestral y cuasivarianza muestral.
2
ˆ
1  s 
1
n
(x

n
j
 x)
ˆ2  s*2 
2
j 1
n
1
n 1
 (x j  x)
j 1
Vimos que si la población es normal, entonces el estimador:
( n  1) s *
2

2
se distribuye
2
E [ˆ2 ]  E [ s * ] 
E [ˆ1 ] 
n 1
n

 n 1
2
como
2
n 1
E [ˆ2 ] 
E [  n 1 ]  
2
n 1
n

2
2

2
 
n

2
sesgo
2
Propiedades en muestras grandes
Muchos estimadores no tienen buenas propiedades
para muestras pequeñas, pero cuando el tamaño
muestral aumenta, muchas de las propiedades
deseables pueden cumplirse. En esta situación se
habla de propiedades asintóticas de los estimadores.
Como el estimador va a depender del tamaño de la
muestra vamos a expresarlo utilizando el símbolo ˆn
Por ejemplo, el sesgo puede depender del tamaño de
la muestra. Si el sesgo tiende a cero cuando el tamaño
de la muestra crece hasta infinito decimos que el
estimador es asintóticamente insesgado.
Ausencia de sesgo asintótica
Definición: Un estimador ˆn se dice que es
asintóticamente insesgado si
lim E [ ˆn ]  
n 
o equivalentemente:
lim [ E [ˆn ]   ]  0
n 
2. Consistencia. Se dice que un estimador es
consistente si se cumple que


lim P ˆn      1
n 
o


lim P ˆn      1
n 
E [ˆn ]  
Var [ˆn ]  0
Es decir, a medida que se incrementa el tamaño muestral, el
estimador se acerca más y más al valor del parámetro. La
“consistencia” es una propiedad asintótica.
Tanto la media muestral como la cuasivarianza son
estimadores consistentes. La varianza muestral es un
estimador consistente de la varianza poblacional, dado que
a medida que el tamaño muestral se incrementa, el sesgo
disminuye.
Ejemplo: supongamos que la población es no normal y de media
desconocida. Construyamos estadísticos media muestral:
Para cada tamaño muestral n tenemos:
E ( xn )  
Var ( xn ) 
2
n
Por el teorema de Chebychev:


P xn  E ( xn )  k Var ( xn )  1 
P  xn       1 
con k 
n



2
n
2
1
k
2
 lim P  xn       1
n 
La media muestral es un estimador
consistente de la media poblacional.
3. Eficiencia. Utilizar las varianzas de los estimadores
insesgados como una forma de elegir entre ellos.
La varianza de una variable aleatoria mide la dispersión
alrededor de la media. Menor varianza para una variable
aleatoria significa que, en promedio, sus valores fluctúan poco
alrededor de la media comparados con los valores de otra
variable aleatoria con la misma media y mayor varianza. Menor
varianza implica mayor precisión y entonces el estimador que
tenga menor varianza es claramente más deseable porque, en
promedio, está mas cerca del verdadero valor de .

Si E ˆ   , decimos que ˆ es un estimador insesgado
eficiente o de varianza mínima para  , si cualquier otro
~
estimador insesgado de  , digamos  , verifica que:
~
ˆ
Var    Var  
Sean ˆ1 y
parámetro .
ˆ2
dos estimadores insesgados del
Si Var ( ˆ1) < Var ( ˆ2) decimos que
eficiente que ˆ2 .
ˆ1
es más
El cociente Var ( ˆ1) / Var ( ˆ2 ) se llama eficiencia
relativa.
Entre todos los estimadores insesgados de , el que tenga
menor varianza es el estimador insesgado de mínima
varianza. Pero, ¿cómo podemos encontrarlo?
Cota de Cramér-Rao:
Sea una población con densidad de probabilidad
f(x, ), entonces se cumple que:
Var ˆ 
 1  b' ( ) 
2
  2 ln f ( x,  ) 
nE 

2



Si un estimador tiene una varianza que coincide con la cota
de Cramér-Rao se dice que es un estimador eficiente.
Si además en insesgado, se dice que es un estimador de
eficiencia absoluta o completa.
Ejemplo: Sea una población que se distribuye normalmente
con desviación típica conocida y media desconocida. Como
estimador utilizaremos la media muestral. Sabemos que
la distribución del estimador es también una normal con
la misma media  y varianza  2 / n . Luego el estimador
es insesgado: b() = 0. Calculemos la cota de Cramér-Rao (CCR).
f ( x, ) 

 Ln f ( x ,  )

 (x   )2
exp  
2
2

2

1

x 

2
2

1
(x   )

 ; Ln f ( x ,  )  Ln
2
2


2


 Ln f ( x ,  )
2
;

2

1

2
  2 Ln f ( x ,  ) 
1
 1 
E

E




2
2
 2







CCR 
1
  ln f ( x ,  ) 
nE 

2




2


n
2
; Var ( x )  CCR
Eficiencia asintótica
Cuando trabajamos con estimadores consistentes el
rango de valores de  para el cual un estimador es más
eficiente que otro disminuye a medida que n crece. En
el límite cuando n tiene a infinito la distribución de
todos los estimadores consistentes colapsa en el
verdadero parámetro . Entonces deberíamos preferir
aquel estimador que se aproxime más rápidamente (es
decir, aquel cuya varianza converge más rápido a cero)
En términos intuitivos, un estimador consistente es
asintóticamente eficiente si para muestras grandes su
varianza es menor que la de cualquier otro estimador
consistente.
Definición: un estimador consistente ˆ1 se dice que es
asintóticamente eficiente si para cualquier otro
estimador ˆ2 el
 Var (ˆ ) 
2
lim 
  1
n   Var (
ˆ )

1 

4. Suficiencia. Diremos que  es un estimador
suficiente del parámetro  si dicho estimador basta por
sí solo para estimar  . Si el conocimiento pormenorizado
de los elementos la muestra no añade ninguna
información sobre .
Ejemplo: Supongamos una población binomial de la que
desconocemos la proporción  = p. Extraemos una muestra
de tamaño n = 50.

xi  

1 si es éxito
0 si es fracaso
50
T1 ( X ) 
x
i
 35 ; T 2 ( X )  max { x i }  1
i 1
Estimador suficiente, p aprox. 35/50.
Error cuadrático medio (ECM)
Consideremos dos estimadores, uno insesgado y el
otro es sesgado pero con una varianza bastante menor,
de modo que en promedio puede estar más cerca de la
verdadera media que el estimador insesgado.
En esta situación podríamos admitir algo de sesgo con
la intención de obtener una mayor precisión en la
estimación (menor varianza del estimador).
Una medida que refleja este compromiso (“trade off”)
entre ausencia de sesgo y varianza es el ECM.
El error cuadrático medio de un estimador se define como
ECM (ˆ) = E[( ˆ -  )2] . Esto es la esperanza de la desviación
al cuadrado del estimador con respecto al parámetro de interés.
Si ˆ1 , ˆ2 son dos estimadores alternativos de  y ECM ( ˆ1 ) <
ECM ( ˆ2 ) entonces ˆ1 se dice que es eficiente en el sentido
del ECM comparado con ˆ2 . Si los dos son insesgados,
entonces ˆ1 es más eficiente.
Entre todos los posibles estimadores de , aquel que tenga el
menor ECM es el llamado estimador de mínimo error
cuadrático medio.
ECM = Var( ˆ ) + sesgo2.
es decir que el ECM es igual a la suma de la varianza más el
sesgo al cuadrado.


ECM (ˆ )  E [( ˆ   ) ]  E ˆ  E ( )  E (ˆ )  ˆ  
2
2
Constante
Variable aleatoria
0
 

2
2
ˆ
ˆ
ˆ
E [   E ( )  ]  E [  E ( )    ]  2 ˆ  E (ˆ ) E [ E (ˆ )   ]
  
constante
 Var (ˆ )  b (ˆ ) 
2
ˆ1
ˆ 2
E (ˆ2 )
  E (ˆ1 )
sesgo 2
Compromiso
entre varianza y
sesgo de los
estimadores.
Ejemplos: Supongamos una población de la que conocemos
la media y la varianza (= 100). Tomemos muestras n = 10.
Consideremos los dos estimadores de la media siguientes:
ˆ1  x 
1
n
x

n
i 1
i
; ˆ2 
E [ˆ2 ] 
1
n 1
Var (ˆ2 ) 
n

n
1
( n  1)
2

i 1
i
i 1


2
2
2
n 1
  n
  1000


  ECM (ˆ1 ) 
2
2
( n  1)
121
n

Var (ˆ1 ) 
2
( n  1) 
E [ xi ] 
i 1
n
x

n 1

ˆ
E [ 1 ]   E [ x i ]  

2
n i 1

100

ˆ

ECM
(

)


 10

1
2
n
n
10
1
 
ˆ
ˆ
Var ( 1 )  2  Var ( 1 ) 
n i 1
n 
n
1
1
n

Dependiendo de la media de la población nos interesará tomar un estimador u otro.
Propiedades de los estimadores de máxima
verosimilitud
Los estimadores máximo verosímiles son:
Asintóticamente insesgados
Asintóticamente normales
Asintóticamente eficientes
Invariantes bajo transformaciones biunívocas
Si  estimador suficiente, ˆMV es suficiente
Descargar

Estimación puntual - CFIE de Valladolid