La reemergencia
bayesiana en el Siglo
XXI: los detalles de
un episodio simple y
elocuente
Universidad Autónoma de Barcelona
Servei d'Estadística
Luis Carlos Silva Ayçaguer
Barcelona
2 de diciembre, 2011
CNICM, La Habana
Thomas S. Kuhn (1922-1996)
La estructura de las
revoluciones científicas (1962).
PARADIGMAS“(...)realizaciones científicas universalmente
reconocidas que, durante cierto tiempo, proporcionan modelos de
problemas y soluciones a una comunidad científica”.
Deconstrucción : “Desmontaje de un concepto o de una
construcción intelectual por medio de su análisis, mostrando
así contradicciones y ambigüedades”.
Diccionario de la Real Academia Española
Valoración
crítica de los
valores “p” y
las pruebas de
significación
Anderson DR, Burnham KR (2002) Avoiding pitfalls
when using information–theoretic methods. Journal
of Wildlife Management 66: 912–918.
“la
utilidad de los valores p es
completamente limitada y
nosotros nos mantenemos
reclamando eutanasia para
tales procedimientos”
Loftus GR (1991) On the tyranny of hypothesis
testing in the social sciences. Contemporary
Psychology 36:102-105.
“es difícil imaginar una
manera menos apropiada
para traducir los datos en
conclusiones”
Gill J (2004) Grappling with Fisher’s Legacy in
Social Science Hypothesis Testing: Journal de la
Société Française de Statistique
psblade.ucdavis.edu/papers/denis.pdf
“Las PSE no deberían siquiera existir,
mucho menos deberían prosperar como
el método dominante para presentar
evidencias estadísticas en las ciencias
sociales. Ellas entrañan una bancarrota
intelectual y son profundamente
inconsistentes tanto desde una
perspectiva lógica como práctica.”
Rozeboom WW (1997) Good science is abductive, not
hypothetico-deductive. En LL Harlow, SA Mulaik, & JH
Steiger (Eds.), What if there were no significance tests?
(pp. 335–391). Hillsdale, NJ: Erlbaum.
“Las
PSE constituyen con toda
seguridad el más idiota
proceder jamás
institucionalizado en el
entrenamiento maquinal de los
estudiantes de ciencia”
INFERENCIA ESTADÍSTICA
A principios de siglo XX las
anécdotas clínicas poblaban
las revistas médicas
EDITORES
¿Qué significaban los resultados?
¿Cómo cuantificar la evidencia
y complementar los razonamientos
verbales?
Karl Pearson (1857-1939)
Biometrika ( A journal for the statistical study of biological problems), fue
fundada en 1901por Galton, Weldon, Pearson y Davenport.
Ronald Fisher
(Londres, 1890-Australia, 1962)
Aportes a la estadística:
• introducción de los valores p
•análisis de la varianza
• principio de la aleatorización
• idea de la replicación
Ho: la Sra. no tiene ese don
T
L
L
L
T
L
T
L
T
T
L
T
T
L
T
L
Se observa el número de aciertos obtenidos
d0
p  P ( aciertos  d 0 H 0 )
Si
p 
se dice que hay una diferencia
estadísticamente significativa
¿   0 , 05 ?
INFERENCIA ESTADÍSTICA
Fisher (década de los 20)
Se observa
Ho: d=0
d0
p  P (d  d 0 H 0 )
Medida de la discrepancia de los datos con la hipótesis,
llamada a tener un papel informal (no especificado), junto
con el resto de la información, en el flujo inferencial
En la década de los 30...
Jerzy Neyman
...los valores p no resuelven el problema inferencial
Egon Pearson
INFERENCIA ESTADÍSTICA
Ho: d=0
Neyman y Pearson
(década de los 30)
Se observa
d0
H1: d0
se computa
Y se adopta una
Si
Si
p 
p 
p  P(D  d0 H 0 )
decisión
se rechaza
Ho: d=0
Se acepta
Ho: d=0
(1899)
(1925)
(1935)
(1956)
(1928)
Departamento de EC, MP
(1941)
Los padres de la estadística se
divorcian
• Neyman :”los métodos de Fisher
eran "peores que inútiles".
• Fisher: “ Neyman bien podría haber
seleccionado un tema acerca del cual
pudiera disertar con alguna
autoridad"
Pero también se divorcian de Bayes (Pearson, Neyman y
Fisher eran antibayesianos furiosos
Falacia
Transposición de condicionantes
P(H|D) = P(D|H)
p  Pr( D  d 0 H 0 )
¿Cuál es la probabilidad de que un velocista que gane una medalla
olímpica (M) sea negro (N)?
P(N|M) =0.98 o más
¿Cuál es la probabilidad de que una persona de raza negra elegido al
azar (N) sea medallista olímplico (M)?
P(M|N)=0.0001 o menos
p  Pr( D  d 0 H 0 )
p= P(H0|D)
“Normas
para la presentación de comunicaciones libres a
premio al mejor trabajo” del XIII CONGRESO NACIONAL
DE MEDICINA en Argentina del año 2003
“Las abreviaturas y siglas en tablas y figuras,
deben aclararse en las leyendas respectivas,
pero NS (no significativo), ES (error estándar), DS
(desvío estándar), IC95 (intervalo de confianza
del 95 %) y p (probabilidad de que la hipótesis
nula sea cierta) no requieren aclararse.”
Rossi JS (1997) A case study in the failure of psychology as a
cumulative science: The spontaneous recovery of verbal learning. En
L. L. Harlow, S. A. Mulaik, & J. H. Steiger (Eds.), What if there were no
significance tests? (pp. 175–197). Hillsdale, NJ: Erlbaum.
Es importante que los investigadores
sean precavidos con la potencia de sus
experimentos; no solo han de poder
detectarse los efectos buscados, sino que
también debe evitarse la detección de
pequeños efectos triviales.
Sacket (1979)
Las muestras demasiado
pequeñas pueden servir para
no probar nada, las muestras
demasiado grandes pueden
servir para no probar nada.
¿ SON IGUALES ESTAS DOS HORMIGAS?
¿ SON IGUALES ESTAS DOS HORMIGAS?
Eligiendo entre dos trayectos
urbanos en París
Trayecto1
10 veces
12 veces
1
2
3
4
5
6
7
8
9
10
11
12
Promedio
Prueba t
12
7
10
11
10
12
9
54
30
62
Trayecto2
97
15
13
91
8
15
14
11
17
85
10
115
22
41
t(20)=0,86
p=0,18
Eligiendo entre dos trayectos
urbanos en París
n=10
tm=22 min
p=0,18
n=12
tm=41 min
Eligiendo entre dos trayectos
urbanos en París
n=232
tm=31 min
P=0,02
n=225
tm=34 min
31 min
34 min
“En lo que concierne al tamaño muestral, es concebible que las
diferencias en homeostasis de la glucosa y en la distribución de
tejido adiposo entre los grupos pudiera haber sido detectadas con
un tamaño de muestra mayor”. (Bitnun, 2003)
“Se tomaron mediciones de la RVIP, pero no mostraron efectos de
la ingestión de agua; sin embargo, no podemos descartar la
posibilidad de que se hubieran detectado cambios con un tamaño
de muestra mayor”. (Neave, Scholey, Emmett, Moss, Kennedy y
Wesnes, 2001)
“Es de esperar que en un estudio con un tamaño de muestra
mayor, la diferencia entre estos valores y los del resto del grupo
sea estadísticamente significativa”. (Perich, González, Valdés,
Arranz, 2002)
“El presente estudio, de Salud mostró un aumento en el riesgo
para la mortalidad neonatal, pero éste no fue significativo. Sin
embargo, …con un mayor tamaño de muestra esta asociación,
después del ajuste, podría ser significativa”. (Delgado, Muñoz,
Orejuela y Sierra, 2003)
“Con un tamaño de muestra mayor, estas diferencias pudieran
pasar a ser estadísticamente significativas”. (Kowatch y col, 2000)
“Aunque no confiable a los niveles convencionales de
significación estadística, la tendencia de los datos sugiere que de
haber tenido una muestra mayor, y por tanto mayor potencia, los
hallazgos relacionados con el folato hubieran sido similares a los
hallados para la vitamina B12”. (Bunce, Kivipelto y Wahlin, 2004)
“La adición de fluoxetina a la PUVA ha mostrado una tendencia
hacia una más rápida mejoría, pero no alcanza el nivel de
significación estadística. Por lo tanto, una muestra mayor puede
ser considerada”. (Mitra, 2001)
CIENCIA FICCIÓN:
“Obsérvese que si bien hallamos que la diferencia entre
el consumo de opiáceos para mujeres y hombres fue
significativa, con, una muestra MENOR probablemente
no la hubiéramos encontrado”. (Silva, 2011)
BAYES Y LA INFERENCIA
INDUCTIVA
BAYES CAPTÓ LA IMPORTANCIA
DE DESARROLLAR UNA TEORÍA
CUANTITATIVA Y EXACTA DEL
RAZONAMIENTO INDUCTIVO
BAYES - PRICE -LAPLACE
1702-1761
1723-1791
1749-1827
El código “ENIGMA” y la 2ª
Guerra Mundial
ALAN TURING (1912 – 1954)
Número de artículos registrados en PUBMED en
cuyos títulos y resúmenes aparece el término
“bayesian” en dos decenios consecutivos
Período
Artículos en PUBMED 1990-1999
2000-2009
Títulos
566
3132
Resúmenes
1469
9890
Si la distribución a priori para  es N( pr , pr)
entonces la distribución a posteriori es N( pt , pt)
Los valores  pt , pt dependerán de  pr , pr y de los datos
que se observaron ( dt , dt ) según las fórmulas siguientes:
μ pr
μ pt 

2
pr
1

2
pr


μ dt

2
dt
1

2
dt
1
σ pt 
1

2
pr

1

2
dt
Vivienda
Mueren
13
Sobreviven
150
Hospital
23
125
Total
311
Total
163
148
Tasa
8.00%
15.50%
36
275
15,5 - 8.0
Reducción relativa:
15,5
OR 
13 * 125
 0 , 47
23 * 150
IC(95%): 0,23 – 0,97
 0 , 49
Pocock SJ, Spiegelhalter DJ (1992) Grampian region early
anistreplase trial, British Medical Journal 305: 1015.
Editor: Mucha publicidad se ha dado, y se dará, a los hallazgos del
ensayo con anistreplase en la región de Grampian en la que los
pacientes que recibieron tratamiento trombolítico en la vivienda tuvieron
un 49% menos de muertes que aquellos que la recibieron en el hospital.
Desafortunadamente, el ensayo fue ciertamente muy pequeño como
para estimar de una manera confiable una reducción en la mortalidad,
de modo tal que la significación pudiera haberse alcanzado solo si (en
virtud del azar o de un sesgo) una poco plausible diferencia muy grande
se hubiera observado. En tales circunstancias un análisis bayesiano
provee una interpretación útil una vez que se coloque un hallazgo
sorprendente en el contexto de una visión a priori más cautelosa
En el propio artículo del grupo
GREAT se decía:
Valoración a priori de Pocock y Spiegelhalter:
¿Cuál ha de ser la tasa inherente al trombolítico para tener
una reducción de 17% ?
tm trombol
tm trombol  12 ,9
 1  0 ,17  0 ,83
15 . 5
¿Cuál sería el odds ratio en esta situación?
Vivienda
129
871
Hospital
155
845
Total
1000
1000
Tasa
12.90%
15.50%
Mueren
Sobreviven
OR 
129 845
155 871
 0 ,80
IC(95%): 0,6 – 1,0
EN GENERAL, SE TIENE:
Admitamos que sabemos que [Inf, Sup] es un intervalo de confianza
para OR y que ln(OR) se distribuye normal N(,2) . ¿Cuál sería el valor
estimado de  y ?
Evidentemente, tendríamos:

ln( Inf )
  ln( OR )
ln( Sup )
Por otra parte:

ln( Inf )
ln( Sup )
1 . 96 
De modo que se tiene:
 
ln( Sup )    1 . 96 
ln( Sup )  ln( Inf )
2 * 1 . 96

y el valor de  es:
ln( Sup )  ln( Inf )
3 . 92
EN SINTESIS:
Si [Inf, Sup] es un intervalo de confianza para
OR, aceptando que ln(OR) se distribuye
normal N(,2), tenemos:
  ln( OR )
 
ln( Sup )  ln( Inf )
3 . 92
Consideremos que:
lnOR (priori) se distribuye N( pr , pr )
lnOR (datos) se distribuye N( dt , dt )
Si llamamos ORpr al OR a priori y
llamamos Infpr y Suppr a sus límites
de confianza, tendremos:
Si llamamos ORdt al OR procedente de
los datos y llamamos Infdt y Supdt a
sus límites de confianza, tendremos:
 pr  ln( OR

pr

ln( Sup
pr
pr
)  ln( Inf
3 . 92
 dt  ln( OR dt )
)
pr
)
 dt 
ln( Sup dt )  ln( Inf dt )
3 . 92
lnOR (posteriori) se distribuye N( pt , pdt )
 pt ,pt se pueden obtener ahora en función de  pr , pr y  dt , dt
En nuestro caso teníamos:
A PRIORI
DATOS
OR  0 ,80
OR  0 , 47
IC(95%): 0,6 – 1,0
IC(95%): 0,23 – 0,97
 dt  ln( 0 , 47 )   0 , 755
 pr  ln( 0 . 8 )   0 . 223

pr

ln( 1)  ln( 0 , 6 )
3 . 92
 0 . 130
 dt 
ln( 0 ,97 )  ln( 0 , 23 )
3 . 92
 0 . 367
Ya sabíamos que si la distribución a priori para 
es N( pr , pr) entonces la distribución a posteriori
es N( pt , pt) donde :
μ pr
μ pt 

2
pr
1

2
pr


μ dt

2
dt
1

2
dt
1
σ pt 
1

2
pr

1

2
dt
Usando toda la formulación anterior podemos calcular  pt y pt ,
y con esos datos, ya se pueden obtener el OR a posteriori y su
Intervalo de confianza:
- 0,223
μ pt 
0 ,130
0 , 367
1
0 ,130
σ pt 

2
 0 , 755
2

2
  0 , 283
1
0 , 367
2
1
1
0 ,130
2

 0 ,123
1
0 , 367
2
Finalmente, la estimación de OR a posteriori es
exp(  0 , 283 )  0 , 75
El intervalo de probabilidad para  pt lo definen los extremos:
 pt -1,96  pt =-0,524
 pt +1,96  pt =-0,042
Aplicando exponencial a cada uno de estos extremos, se obtiene el intervalo de
probabilidad al 95% para el OR a posteriori:
exp(  0 ,556 )  0 ,59
exp(  0 , 065 )  0 ,96
OR  0 , 73
IC(95%): 0,57 – 0,94
A priori
Datos empíricos
A poteriori
or
Inf
Sup
or
Inf
Sup
0.80
0.60
1.00
0.47
0.23
0.97
Bayes
or
Inf
Sup
0.73
0.57
0.94
O sea, el OR a priori 0,47 pasa a ser a posteriori 0,73
Y la reducción relativa del riesgo pasa de 49% a 25% aproximadamente
Finalmente, aplicando el exponencial al promedio de ambos
extremos se obtiene la estimación de OR (pt) y aplicando
exponencial a los propios extremos, el intervalo de probabilidad
al 95% para el OR a posteriori:
OR  0 , 73
IC(95%): 0,6 – 0,9
O sea, el OR a priori 0,47 pasa a ser a posteriori 0,73
Y la reducción del riesgo pasa de 49% a 25% aproximadamente
Y ESTO ES VIRTUALMENTE LO MISMO QUE PRODUJO UN
METANÁLISIS DESARROLLADO CASI 10 MÁS TARDE
Morrison, L., P. R. Verbeek, A. McDonald, B. Sawadsky, D. Cook. 2000. Mortality
and prehospital thrombolysis for acute myocardial infarction: a meta-analysis.
Journal of the American Medical Association 283: 2686-2692.
Lo cual dio lugar a los artículos de prensa
URUGUAY
COLOMBIA
Silva LC, Muñoz A (2000) Debate
sobre métodos frecuentistas vs
bayesianos. Gaceta Sanitaria
14(6): 482-494.
http://www.lcsilva.sbhac.net
How Statistical Expertise Is Used
in Medical Research
D. G. Altman, S. N. Goodman, S.
Schroter
http://jam a.am a-assn.org/issues/v287n21/abs/joc11896.htm l
Douglas Altman
Steven Goodman
Goodman, S. (1999a). Toward evidencebased medical statistics, 1: the p value
fallacy. Annals of Internal Medicine, 130,
995–1004.
Goodman, S. (1999b). Toward evidencebased medical statistics, 2: the Bayes
factor. Annals of Internal Medicine, 130,
1005–1013.
D. G. Altman, S. N. Goodman, S. Schroter
http://jama.ama-assn.org/issues/v287n21/abs/joc11896.html
JAMA 2002
Dear Luis Carlos:
My brief answer is this. In medical research we do not in general seek a
yes/no answer, as is provided by significant/nonsignificant decisions, but
rather hope to estimate the effect(s) of interest. By contrast, in the sort of
study we did we were more interested in seeking evidence whether
certain aspects of publications were related to the statistical involvement,
and perhaps the magnitude of the effect is not of direct importance. But
you are right that it is a bit inconsistent, for which I plead guilty. We
were also under extreme pressure from JAMA to keep the manuscript
brief, but I do not consider that that can be a real excuse.
Even Bayesians (I do not consider myself one) do some (or many) of
their statistical analyses using frequentist methods and they may even
quote P values. There are many approaches and one chooses for each
part of each study the one which seems most appropriate.
Best wishes
Doug Altman
Luis Carlos Silva Ayçaguer
Investigador Titular
Centro Nacional de Información de
Ciencias Médicas (INFOMED)
:
[email protected]
http://lcsilva.sbhac.net
Descargar

Diapositiva 1