Análisis de supervivencia
Tema 5
Itziar Aretxaga
Transformadas de Fourier
Correlaciones con límites superiores e inferiores
♦ Coeficiente generalizado de rangos de Kendall o test BHK (Brown,
Hollander & Korwar)
• Recomendaciones: funciona para variables ordinales o continuas
derivadas de cualquier distribución, pero en condiciones de muchas
ligaduras, deja de ser efectivo. El test es no paramétrico.
• Método:
mn mn
S 
a
i 1
ij
b ij
j 1
con m detecciones y n cotas (límites superiores o inferiores), donde
  1 si x i  x j

a ij   0 si x i  x j
 1 si x  x
i
j


2
S
y bij de define de forma análoga con las y
mn mn mn

    a ij a ik 
n ( n  1)( n  2 )  i 1 j 1 k 1
4
 mn mn mn
 a       bij bik 
j 1
  i 1 j 1 k 1
mn mm

i 1
2
ij

b 
j 1

mn mm

i 1
2
ij
mn mn 2  mn mn 2 

   a ij     b ij 
n ( n  1)  i  1 j  1   i  1 j  1 
2
La significancia de que x,y sean independientes viene dada por z=S/σS que
está distribuida de forma normal
(Isobe et al 1986, ApJ, 306, 490)
Métodos de regresión con valores censados
En Estadística se denomina
• cota derecha el valor de una variable de la que sólo se sabe que se
encuentra entre [A,+∞] ≡ límite inferior
• cota izquierda el valor de una variable de la que sólo se sabe que se
encuentra entre [−∞,C] ≡ límite superior
En Astrofísica nos encontramos casi siempre con cotas izquierdas,
mientras que las técnicas de análisis de supervivencia se han desarrollado
para cotas derechas. Sin embargo, es posible transformar unas en otras
mediante una constante M: Ci=M−Ai
Ejemplo: {30,24−,11,19−} con M=30 se convierten en {0,6+,19,11+}
♦ Algoritmo EM de expectación y maximización (Nelson & Hahn 1972)
Sea {xi,yi}i=1,…,n+m tal que fijado x, la distribución de y sea gaussiana. El
test es paramétrico, y análogo a un ajuste por mínimos cuadrados.
Definimos los residuos del ajuste lineal dado por los coeficientes ak, bk y la
desviación estándar del ajuste σk como z i   y i  ( a k  b k x i )  /  k
La probabilidad de que un punto se detecte en un intervalo Δz es
P ( zi )  f ( zi )z
,
f ( zi )  e
2
 zi / 2
/
2
La probabilidad de que un dato se acote (a la derecha) viene dado por la


t / 2
función de supervivencia S ( z j ) 
f
(
t
)
dt
,
S
(
z
)

1
/
2

e
dt
j


2
zj
zj
(Isobe et al 1986, ApJ, 306, 490)
Métodos de regresión con valores censados
La función de probabilidad de tener m observaciones detectadas y n
acotadas viene dada por
m
n
L

i 1
tomando logaritmosm
 ln
ln L 
f ( z i ) S ( z j ) (  z )
m
cte
j 1
z = y/k
m
f ( zi ) 
i 1
 ln
S ( z j )  m ln  k  cte
j 1
Los parámetros vienen de la maximización
 ln L
a k
L
ak

1
k

1
k
mn
m

zi 
i 1
  yˆ i  ( a k
i 1
1
k
n

j 1
f (z j )
0
,
S (z j )
 ln L
 bk

1
k
m

z i xi 
i 1
1
k
n

j 1
f (z j )
S (z j )
yi

 b k x i )  z i donde yˆ i  
 ( a k  bk xi )   k f ( z i ) / S ( z i )
donde la variancia
k 
2
1
i 1
si está detectado
si está acotado
2
mn
 yˆ

mn2
x j 0
i
 ( a k  bk x i ) 
El método implica: 1. estimar a1, b1, σ1 de una regresión por mínimos
cuadrados sin utilizar los valores censados.
2. estimar los valores acotados yˆ i
3. calcular a2, b2, σ2
4. estimar yˆ i e iterar hasta que converja
(codificado en IRAF)
(Isobe et al 1986, ApJ, 306, 790)
(Isobe et al 1986, ApJ, 306, 790)
Métodos de regresión con valores censados
Para mejorar la convergencia en el caso de muchas cotas
 ln L
0
 k
se redefine
1
k
 y
m
k 

z 
2
i
i 1
1
k
n

j 1
f (z j )
S (z j )
zj 
m
k
2
m
i 1
m
(Aitkin 1981)
i
n
j 1
 ( a k  bk x i ) 
z j f (z j ) / S (z j )
Los errores en los parámetros vienen dados por la diagonal de la matriz de
covariancia V=I-1 donde



I  




 ln L
2
a
 ln L
2
2

2
ab
2
 ln L
a
 ln L


ab
2
 ln L
b
2
 ln L
2
b
 ln L 


a

2
 ln L 

b 
2
 ln L 

2  a  ak

 b  bk
2
c  ck
(Isobe et al 1986, ApJ, 306, 790)
Métodos de regresión con valores censados
♦ Algoritmo EM con el estimador de Kaplan-Meier
El estimador de Kaplan-Meier provee de una estimación no paramétrica de
la función de supervivencia.
Se define la muestra de riesgo R(zi) como el conjunto de datos que, con
toda seguridad, no se ha detectado antes de zi.
Ejemplo: y(1) < y(2) < y(3)+ < y(4)
R[y(1)]={ y(1), y(2), y(3)+, y(4)} , R[y(2)]={y(2),y(3)+,y(4)} , R[y(4)]={y(4)}
no existe la muestra de riesgo de valores censados
El estimador de Kaplan-Meier se define formalmente como

j
si z i  z 1


1

d
/
n


j
j
ˆ
S ( zi )   j,z  z
j
i
si z i  z 1

1

donde los zi han sido indexados de forma creciente: z1≤…≤zn+m
ni es el tamaño de la muestra de riesgo R(zi)
 1 si z j está detectado
j 
di es el número de detecciones con valor zi
 0 si z j está acotado
Sˆ ( z i ) es una función escalón decreciente que sólo salta en las detecciones.
(Feigelson & Nelson 1985, ApJ, 293, 192)
Ejemplo: {0,6+,19,11+,3,19,6,2+}
xi
0
3
6
19
>19
ni
8
6
5
2
di
1
1
1
2
1-di /ni
0.8750
0.8333
0.8000
0.0000
S(xi)
1
0.8750
0.7292
0.5833
0
Métodos de regresión con valores censados
Para realizar un ajuste con este método se debe obtener una estimación
de los coeficientes ak, bk sin tomar en cuenta los valores censados, y de
forma iterativa encontrar el valor más probable de los coeficientes con


yˆ i   b x 
k i


donde los pesos
w ij 
Sˆ ( j  1)  Sˆ ( j )
yi
w
si detectado
ij
( b k ) j
i j
,  j  y j  bk x j
1  Sˆ ( j )
si acotado
y  j se ordenan de forma creciente.
Los coeficientes en el paso k serán
mn
bk 

mn
yˆ i ( x i  x ) /
i 1
 (x
i
 x)
2
,
a k  y  bk x
i 1
Buckley & James (1979) recomiendan usar como estimador de la
desviación estándar σk la fórmula empírica

2
k

1
m
y

m2
i
 y D  bk ( x i  x D ) 
2
i 1
D
Donde D denota que sólo se2 utilizan valores detectados. El error de la
k
pendiente es  ( b ) 
y puede estimar la significancia del
k
m
2
ajuste
(x  x )

i 1
i
D
Métodos de ajuste con valores censados:
caso general
Para el caso general de querer obtener el ajuste de una función
 no-lineal
φ(x,a), definimos de igual manera los residuos z i   y i   ( x i , a )  /  i
y podemos plantear la maximización de la probabilidad
m
L

i 1
n
f ( z i ) S ( z j ) (  z )
m
j 1
que en general, puede no tener una solución analítica. Lo que siempre se
puede intentar es la minimización con un algoritmo adaptable, tal como
amoeba.
Ejemplo:
(Aretxaga, Hughes & Dunlop MNRAS, 2003, in prep)
Comparación de distribuciones con cotas
• Suposiciones: tests no paramétricos formulados para cotas derechas
Sean
 T ij si T ij  Aij
 1 si T ij  Aij (detectado )
 ij  
x ij  
 Aij si T ij  Aij
 0 si T ij  Aij
( acotado )
los valores de una distribución, donde i recorre las distribuciones i=1,2; y j
recorre el número de puntos j=1,2,...,Ni; y Aij denota las cotas
• Método: se formula la hipótesis nula de que las dos distribuciones son
iguales. Sean y1< y2< ...< yr con r≤N1+N2 los valores detectados en
ambas distribuciones de forma conjunta, ordenados de forma creciente. Se
definen las variables:
d ij  número ( x ik  y j ), i  1, 2 ; j  1,..., r
n ij  número ( x ik  y j ), i  1, 2 ; j  1,..., r
n  N1  N 2
m ij  número ( x ik tal que y j  x ik  y j 1 ,  ik  0 ),
i  1, 2 ; j  1,..., r , y 0   , y r 1  
d j  d1 j  d 2 j
m j  m1 j  m 2 j
n j  n1 j  n 2 j
La estadística de rangos lineales con cotas se calcula mediante
Ln 

r
j 1
w j ( d 1 j  d j n1 j / n j )
n j
Gehan
1
logrank
donde wj son pesos asociados a diferentes estadísticas: w j  
(Feigelson & Nelson 1985, ApJ, 293, 192)
Comparación de distribuciones con cotas
Para n grande, Ln es aproximadamente gaussiana, con media 0 y variancia
n 
2

r
j 1
d j w j ( n1 j / n j )( n 2 j / n j )( n j  d j ) /( n j  1)
2
de forma que a un nivel h se puede decir que las dos distribuciones
difieren si L n /  n  z h / 2 donde zh/2 es el intervalo para el cual el área de la
distribución normal entre [−zh/2,zh/2] es igual a 1−h , y la significancia de
este resultado viene dada por el área de la distribución normal con valores
mayores que
Ln /  n
Ejemplo: {30,24−,11,19−,27,11,24,28−} y {3,23,17−,8−,10,5−}
se convierten en cotas
derechas con una traslación con M=30. Utilizando las definiciones del análisis de supervivencia
tenemos N1=8, N2=6, n=14, r=7
logrank da Ln=2.5 σn=1.1 que es significante con una probabilidad p=0.032
Gehan da Ln= 23 σn=11 que es significativo con una probabilidad p=0.056
Latta (1981) introduce unos nuevos pesos que dan lugar al test PetoPrentice, que supuestamente es menos sensible a diferencias de acotado
(Feigelson & Nelson 1985, ApJ, 293, 192)
Descargar

Análisis de supervivencia