Análisis de datos de microarrays
Conceptos, Problemas,
Métodos
Objetivos generales
 Panorámica general


Tipos de estudios
El “pipe-line” básico,
 Familiarizarse con el proceso



Input/Output a cada paso,
Dificultades y opciones para resolverlas,
Interpretación de los resultados.
 Basado en ejemplos.
Tipos de estudios
(1): Class comparison
Tipos de estudios
(2): Class discovery
Tipos de estudios
(3): Class prediction
Y muchos más tipos …
 Time Course

Perfiles de expresión a lo largo del tiempo
 Pathway Analysis-(Systems Biology)

Reconstrucción de redes metabólicas a
partir de datos de expressión
 Whole Genome, CGH, Alternative
Splicing


Estudios con datos de distintos tipos
Integración.
Workflow for a typical microarray experiment
Ejemplos
8
Efecto de la estimulación
mediante LPS
 Journal of Leukocyte Biology (2006;79:1314-1327).
 Objetivo: Comprender las bases moleculares de los
procesos regulados por la citokina en ratones.
 Comparan RNA de

Ratones estimulados mediante LPS y sin estimular
 Se sabe que la edad influye en la regulación

Ratones de dos grupos de edad (jovenes y viejos)
 No se dispone de información sobre


Cómo se asignaron tratamientos a individuos,
Cómo se llevaron a cabo los arrays (día, lote, técnico…)
9
Diferentes perfiles de expresión en AML
con trisomía 8 o citogenética normal
 PNAS, January 30, 2001 vol. 98 (3)
 Objetivo: Comparar perfiles de
expresión en enfermos de AML+8 con
enfermos AML y individuos sanos.
 Estudio antiguo Datos de peor
calidad y posibles lotes relacionados
con procesado
El Diseño Experimental (DE)
Start here
Origen de la variabilidad
• Biological Heterogeneity in
Population
• Specimen Collection/ Handling
Effects
– Tumor: surgical bx, FNA
– Cell Line: culture condition,
confluence level
• Biological Heterogeneity in
Specimen
• RNA extraction
• RNA amplification
• Fluor labeling
• Hybridization
• Scanning
– PMT2001)
voltage
(Geschwind, Nature Reviews Neuroscience,
Tratamiento de la variabilidad
 Distintos tipos de variabilidad

Sistemática / Aleatoria
 Distintas formas de
controlarla/considerarla

Sistemática


Estimar la correccion a partir de los datos:
Calibración, Normalización
Aleatoria
Diseño Experimental: controlar su influencia
 Estudios de potencia: cuantificar su efecto
 Analisis de significacion: inferencia.

Objetivo del diseño experimental
 Facilitar análisis-interpretación de los
datos

Lo mas simple y potente posible,
 Teniendo en cuenta


El objetivo del experimento,
Las restricciones en material, tiempo y
coste.
Implementación
 Definir objetivos principales y secundarios.
 Definir con que datos se trabajará


¿Técnica más adecuada para generarlos?
Tipo de arrays, secuencias, controles…
 Definir como se recogen las muestras




¿Cómo asignamos tratamientos a los individuos?
¿Qué tipo de réplicas deben hacerse?
¿Debemos/Podemos/Necesitamos hacer pools?
¿Existen limitaciones en tiempo, $, material?
 Seguir los principios básicos del DE de
Replicación, Control Local y Aleatorización
Principios del DE: Replicación
– Aumenta Precisión y Potencia
– No confundir fuentes de variación
– Replicar más lo que varie más
Principios del DE: Bloqueo
Sample
1
2
3
4
5
6
7
8
Awful
Treatment
A
A
A
A
B
B
B
B
design :-(
Sex
Batch
Male
1
Male
1
Male
1
Male
1
Female
2
Female
2
Female
2
Female
2
Sample
1
2
3
4
5
6
7
8
Balanced design :-)
Treatment Sex
Batch
A
Male
1
A
Female
2
A
Male
2
A
Female
1
B
Male
2
B
Female
1
B
Male
1
B
Female
2
• Si hay variabilidad por heterogeneidad de muestras
se puede confundir el efecto de los tratamientos
con otras fuentes.
– Definir grupos homogeneos o “bloques”
– Asignar tratamientos a bloques de forma Aleatoria y
Balanceada
• Block what you can. Randomize what you cannot.
“To pool or not to pool”
 Combinar el RNA de varias muestras en un
“pool”
 Hay diversas razones. Algunas correctas, otras
no tanto



Alcanzar la mínima cantidad de RNA para hacer
arrays 
Reducir la variabilidad 
Reducir el coste.
 En todo caso debe hacerse correctamente


No sustituir varias muestras por un único pool.
No
No usarlo cuando interesa la variabilidad individual


Diseños apareados
Estudios predictivos
Ejemplo de “pooling”
 Estudio con 12 individuos  12 arrays 
Caro!!!

Opción 1:



Opción 2:



Grupo A: 6 individuos  1 pool de 6  1 array
Grupo B: 6 individuos  1 pool de 6  1 array
Grupo A: 12 individuos  4 pools de 3  84 arrays
arrays
8 arrays
Grupo B: 12 individuos  4 pools de 3  4 arrays
La opción dos puede ser más económica y
de precisión similar al uso de 12 arrays,
pero no es posible saberlo antes de hacer
el experimento 
Del diseño al análisis
 Una vez identificados



la variable –respuesta- de interés,
los factores que afectan a su variación, y la
relación entre éstos,
las fuentes de heterogeneidad del proceso que se
controlan mediante bloqueo.
 Podemos plantear un modelo lineal que …


Relacione respuestas y fuentes de variabilidad.
Sirva de base para el análisis de datos (ANOVA)
que generará las listas de genes que buscamos.
Ejemplo de modelos
• Estimulación por LPS
 Perfiles de expresión en AML+/AML
Resumiendo …
 Todo el estudio pivota entorno al
DE
El objetivo induce el diseño.
 El DE permite identificar las causas
de variabilidad y determina

 Qué
tipo de datos utilizar,
 Cómo recoger las muestras,
 Cómo procesarlas y
 Cómo deben ser analizadas
Y como dijo el maestro…
To consult the statistician after an
experiment is finished is often
merely
to ask him to conduct a post
mortem examination.
He can perhaps say what the
experiment died of. Sir Ronald A.
Fisher
Father of modern Mathematical Statistics and
Developer of Experimental Design and ANOVA
Preprocesado de los datos
Etapas del preprocesado
 Desde las imágenes hasta los datos
para el análisis



Exploración visual.
Control de calidad.
Normalización y filtrado.
Exploración. Ej 1: LPS
Exploración. Ej. 2: AML+8/AML
Control de calidad. Ej. 1: LPS
Control de calidad. Ej. 2: AML+8
Normalización
Preferred analysis methods for Affymetrix GeneChips ….
Genome Biology 2005, 6:R16
Análisis de datos
El proceso de análisis estadístico
 A partir de los datos normalizados y
filtrados,
 Basándose en el modelo definido en el
diseño experimental,
 Un Análisis de la Varianza (AOV)
permite


seleccionar los genes asociados con cada
una,
se manera separada para cada fuente de
variabilidad incluída en el modelo.
Los ajustes necesarios
 El análisis de datos de microarrays
tiene características particulares:

Hay pocas muestras  Puede haber mucha
variabilidad espúrea.


Considerar métodos que regularicen la varianza
Se realizan cientos/miles de tests a la
vez.

Es preciso realizar un ajuste de “multiple
testing” si se quiere determinar la significación
estadística.
Problema(1):Estimación de
varianza
 ¿Podemos fiarnos simplemente de la
diferencia de medias o el valor de un
estadístico t?
Gene
El ejemplo
sugiere
que
no.M6 Mean SD
M1 M2 M3
M4
M5
A
2.5
2.7
2.8
3.2
B
0.0
1
0.0
5 0.05 0.01
0
C
2.5
2.7
2.5
1.8
D
0.5
0
0.1
0.1
1
E
2.5
2.61
0.40
16.10
0 0.003
0.03
0.25
20
1
5.08
7.34
1.69
0.2
0.1 -0.3
0.3
0.13
0.27
1.19
0.1
0.1 0.11 0.09
0.10
0.01 33.09
•Averages can be driven by outliers.
2
t
Courtesy of Y.H. Yang
¿Es preciso regularizar la
varianza?
 Varianzas grandes pueden generar falsos negativos.
 Varianzas pequeñas generarán falsos positivos.
Gene
M1
M2
M3
M5
M6
A
2.5
2.7
2.8
3.2
B
0.0
1
0.0
5 0.05 0.01
0
C
2.5
2.7
2.5
1.8
D
0.5
0
0.1
0.1
1
E
2.5
M4
Mean
2
2.61
SD
t
0.40 16.10
0 0.003
0.03
0.25
20
1
5.08
7.34
1.69
0.2
0.1 -0.3
0.3
0.13
0.27
1.19
0.1
0.1 0.11 0.09
0.10
0.01 33.09
•t’s can be driven by tiny variances.
Courtesy of Y.H. Yang
Solución: Estadísticos “ad-hoc”
SAM
(Tibshirani, 2001)
Regularized-t
(Baldi, 2001)
S 
t
Rg
c  SE g
Rg
v 0 SE  ( n  1) SE g
2
2
v0  n  2
EB-moderated t
(Smyth, 2003)
t 
Rg
d 0  SE0  d  SE g
2
d0  d
2
Problema (2): “Múltiple testing”
 Supongamos que vamos a hacer varios tests
a la vez




Dos tests al 5%. La probabilidad de obtener un
falso positivo es 1 – 0.95*0.95 = 0.0975
Tres tests
 1 – 0.953 =0.1426
n tests
 1 – 0.95n
Se acerca a 1 cuando aumenta el nº de tests
 Un p-valor pequeño no indica significación 
Si hacemos muchos tests no controlamos la
probabilidad de error de tipo I
Un ejemplo de simulación (1)
Un ejemplo de simulación (2)
Resumiendo
Como se analizan los datos
 A partir de la matriz de expresión.
 Se ajusta el modelo lineal definido en
el DE

Preferiblemente utilizando un método que
realice regularización de la varianza.
 Se obtiene la lista de genes y los
valores de test de las comparaciones
interesantes ordenada de menor a
mayor p-valor

Y se ajustan los p-valores teniendo en
cuenta el numero de comparaciones
Ejemplo LPS
Genes cambiados entre LPS/Medium en ratones viejos
ProbeSet
1450826_a_at
1457644_s_at
1415904_at
1449450_at
1419209_at
1416576_at
1450330_at
1455899_x_at
1419681_a_at
1436555_at
gene
Saa3
Cxcl1
Lpl
Ptges
Cxcl1
Socs3
Il10
Socs3
Prok2
Slc7a2
ID
1450826_a_at
1457644_s_at
1415904_at
1449450_at
1419209_at
1416576_at
1450330_at
1455899_x_at
1419681_a_at
1436555_at
logFC
4.911
4.286
-4.132
5.164
5.037
3.372
4.519
3.648
3.709
3.724
t
63.544
53.015
-50.455
49.483
47.175
42.107
42.056
40.821
40.645
40.081
P.Value
6.21E-14
3.52E-13
5.66E-13
6.82E-13
1.08E-12
3.19E-12
3.23E-12
4.29E-12
4.48E-12
5.12E-12
adj.P.Val
2.80E-10
7.69E-10
7.69E-10
7.69E-10
9.71E-10
2.08E-09
2.08E-09
2.12E-09
2.12E-09
2.12E-09
B
22.244
20.791
20.373
20.207
19.794
18.784
18.773
18.502
18.463
18.335
41
Ejemplo AML8
Genes cambiados entre LPS/Medium en ratones viejos
ProbeSet
1450826_a_at
1457644_s_at
1415904_at
1449450_at
1419209_at
1416576_at
1450330_at
1455899_x_at
1419681_a_at
1436555_at
gene
Saa3
Cxcl1
Lpl
Ptges
Cxcl1
Socs3
Il10
Socs3
Prok2
Slc7a2
ID
1450826_a_at
1457644_s_at
1415904_at
1449450_at
1419209_at
1416576_at
1450330_at
1455899_x_at
1419681_a_at
1436555_at
logFC
4.911
4.286
-4.132
5.164
5.037
3.372
4.519
3.648
3.709
3.724
t
63.544
53.015
-50.455
49.483
47.175
42.107
42.056
40.821
40.645
40.081
P.Value
6.21E-14
3.52E-13
5.66E-13
6.82E-13
1.08E-12
3.19E-12
3.23E-12
4.29E-12
4.48E-12
5.12E-12
adj.P.Val
2.80E-10
7.69E-10
7.69E-10
7.69E-10
9.71E-10
2.08E-09
2.08E-09
2.12E-09
2.12E-09
2.12E-09
B
22.244
20.791
20.373
20.207
19.794
18.784
18.773
18.502
18.463
18.335
42
Las tres comparaciones a la vez
(LPS)
Las tres comparaciones (AML8)
Soporte a la interpretación
biólógica
Análisis basado en la GO
Referencias básicas
Agradecimientos
Descargar

Slide 1