Donuts, Scratches and Blanks:
Robust Model-Based
Segmentation of Microarray
Images
Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka
Yee Yeung, Adrian E. Raftery
January 2005
Método: Diagrama de Flujo
Aplicación automática de una grilla
Suma de las intensidades para cada pixel.
Clustering de pixels con, a lo sumo, 3 grupos
Encontrar componentes de cada cluster conectados espacialmente
Umbral de componentes conectados por tamaño: menor o igual a 100 pixels
No
Un grupo?
Foreground: componente conectado
más brillante
Background: componente conectado
más oscuro
Si
El spot es un blanco,
Foreground: background
Background: media del grupo
Aplicación Automática de una Grilla
• Identificar la ubicación de cada spot.
• Para ubicar los spots, no se necesita encontrar los centros, sino los
bordes del target mask, es decir, el rectángulo que contiene al spot.
• Siempre que el rectángulo contenga sólo los pixels de un único spot, el
target mask es válido.
• El algoritmo es:
• Sumar las intensidades de los pixels en cada fila y en cada columna.
• Determinar el mínimo local de la suma de las intensidades
utilizando una ventana deslizable con un paso aproximadamente igual
al ancho de un spot típico.
• Los únicos parámetros a especificar son: el número de spots en cada fila
o columna, y el tamaño de la ventana deslizable.
Aplicación Automática de una Grilla
Aplicación Automática de una Grilla
Filas
Columnas
Clustering de Pixels basado en el Modelo
• El nivel de expresión de un gen es proporcional a las intensidades de los
pixels de un spot.
• Los pixels de un artefacto, como ser un “scratch”, tendrán intensidades
distintas a los del background o foreground.
• En clustering basado en el modelo, los datos de intensidades se
consideran como provenientes de una mezcla de densidades:
• Para un número fijo de clusters, K, los parámetros pueden estimarse
utilizando el algoritmo EM del clustering jerárquico basado en el modelo.
Clustering de Pixels basado en el Modelo
• El número de clusters, K, puede estimarse maximizando el Criterio de
Información de Bayes (BIC).
• Para combinar las señales de dos canales, se suman las intensidades roja
y verde.
• En la mayoría de los casos se espera que el número de grupos, K, sea a
lo sumo 3. Utilizamos el BIC para determinar el K, pero restringimos las
posibles opciones a K menor o igual a 3.
• K = 1, no hay spot, es un blanco.
• K = 2, hay un spot y el background.
• K = 3, hay un spot, un artefacto o agujero interno y background.
Extracción del Componente Conectado Espacialmente
• Los artefactos, por lo general, se encuentran en grupos pequeños
inconexos. Por este motivo, establecer una tamaño límite de componentes
conectados en un cluster permite identificar clusters formados por
artefactos.
• Para dividir a los clusters en componentes conectados espacialmente, se
utiliza el procedimiento de etiquetado de los 4 componentes vecinos
conectados (4-neighbor connected component labeling procedure).
• Por defecto, sólo se conservan los componentes conectados con un
tamaño mayor a los 100 pixels, que representa la sexta parte del tamaño
típico de un spot.
• Los clusters más brillantes y más oscuros que pasen el tamaño límite se
clasifican como foreground y background, respectivamente.
• Si sólo un cluster pasa el tamaño límite, se concluye que no hay spot y
que esa ubicación está en blanco.
Estimación de la Intensidad
•La estimación de la intensidad del foreground en el canal Cy3 es el
promedio de los pixels en el cluster foreground. Lo mismo ocurre para el
canal foreground Cy5, donde los mismos pixels están en el cluster para
ambos canales.
• Las intensidades del background para los dos canales se estiman de la
misma manera.
• Cuando se identifican 3 clusters, el cluster intermedio también se
descarta, pues generalmente consiste en pixels “sospechosos, como por
ej., un agujero interno, un artefacto, o un borde difuso.
• La señal estimada es: Is = If – Ib, donde If e Ib son las intensidades medias
del foreground y background, respectivamente. La señal verdad es
siempre >0, pero ocasionalmente, la señal estimada puede ser < 0. En este
caso se asume que la intensidad verdadera es pequeña pero positiva, y se
setea Is como el 5to percentil de las señales del spot en el arreglo.
Estabilidad entre Replicados
• La estabilidad en la estimación de las intensidades se evalúa como la
variación en el estimador del logaritmo del cociente, l = log2 I1 / I2, sobre
los replicados, donde y son los estimadores de las señales de los canales
1 y 2, respectivamente.
• La estabilidad se mide como la suma de las diferencias al cuadrado,
según:
donde
N = número total de spots en el arreglo.
R = número total de réplicas
li,r = log-cociente del i-ésimo spot en el r-ésimo replicado
= promedio de los log-cocientes dentro de todos los
replicados para el i-ésimo spot.
• Si no se logra identificar un foreground, I1 / I2 = 1
Software
• Se utiliza el paquete spotSegmentation del lenguaje R, que
consiste en dos funciones básicas. La primera:
• spotgrid: determina rectángulos dentro de los arreglos de cDNA
en los cuales se ubican los spots.
- Aplica un grillado al arreglo, separando los spots individuales.
-Toma como datos a las intensidades de los dos canales, los números
de filas y columnas de spots en el arreglo.
- La salida da las ubicaciones de filas y columnas que definen una
grilla que separa los spots individuales.
- Tiene la opción de mostrar la grilla superpuesta sobre la imagen.
Software
• La segunda:
• spotseg: determina las señales foreground y background dentro de
los spots.
-Segmenta los spots individuales.
- Toma como datos a las intensidades de los dos canales, los
delimitadores de filas y columnas de los spots dentro de un bloque.
- La media y mediana de las intensidades de los pixels del foreground y
background para cada canal y cada spot, puede recuperarse mediante la
función summary aplicada a la salida de spotseg.
- La función spotseg requiere el paquete MCLUST para la fase de
clustering.
• El paquete spotSegmentation está disponible por BioConductor.
Discusión
• Se describió un método de dos pasos para segmentar imágenes de
microarreglos y estimar intensidades: clustering de intensidades de pixels
basado en el modelo, y extracción de componentes conectados
espacialmente.
• El método provee los principios de la base estadística para determinar si
un gen se expresa o no en un spot, y por lo tanto, encara a spots blancos.
• También maneja efectivamente los spots con forma de donuts, con
agujeros internos y con artefactos.
• En experimentos replicados se lograron resultados más estables que la
segmentación por círculo fijo o por forma variable, sin introducir sesgo
apreciable en los niveles de expresión estimados de los genes expresados
diferencialmente.
• Antes de utilizar el método es necesario realizar un grillado automático.
Cualquier grillado es aplicable pero el propuesto es más simple.
Descargar

Donuts, Scratches and Blanks: Robust Model