Análisis de datos de alto rendimiento
Con ejemplos de Partek Genomics Suite
Alex Sánchez
Unitat d’Estadística i Bioinformàtica (IRHUVH)
Departament d’Estadística (UB)
Objetivos
 Análisis de Datos de Alto Rendimiento


Tipos de datos y Tipos de estudios.
Herramientas disponibles.
 Análisis de datos de microarrays


El proceso de análisis
Estudios de expresión diferencial con
Partek GS
 Otros tipos de estudios
High troughput data
 Muchas técnicas modernas permiten
generar información simultánea sobre
miles de componentes de un sistema:

High-troughput o de “alto rendimiento”
 Por ejemplo




Microarrays (expresión, SNPs, exones,…).
Proteómica (Mass-Spectormetry).
Next Generation Sequencing
…
Análisis de datos de A.R.
 Los datos de alto rendimiento,


con las herramientas y los métodos
apropiados,
permiten llevar a cabo estudios que
habrían sido impensables sin ellos.
 Por ejemplo




Selección de genes
Busqueda de biomarcadores
Estudios de asociación genética
Detección de variantes víricas, etc.
Análisis de microarrays
 Caso más conocido, “prototípico” de
datos de A.R.
 Tecnología madura (10 años) y
diversificada (expresión, exones,
tejidos, SNPs,….)
 Con algunas limitaciones que las nuevas
tecnologías podrán superar
 EMPEZAREMOS por ellos.
Tipos de estudios que se realizan
usando microarrays de DNA
(1): Class comparison
(2): Class discovery
(3): Class prediction
Y muchos más tipos …
 Time Course

Perfiles de expresión a lo largo del tiempo
 Pathway Analysis-(Systems Biology)

Reconstrucción de redes metabólicas a
partir de datos de expressión
 Whole Genome, CGH, Alternative
Splicing
 Estudios con datos de distintos tipos

Fusión o Integración de datos
Herramientas para el análisis
Programas de análisis de datos
de genómica y protómica
 Multitud de herramientas

Gratuítas / Comerciales
[R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity]


Descargables / En-linea
[R, BRB, MeV…] / [Gepas,…]
Aísladas / Parte de “suites” o de sitios
[BRB, dChip] / [MeV (TM4), OntoTools]
 A survey of free microarray data analysis tools:

http://chagall.med.cornell.edu/I2MT/MA-tools.pdf
Programas de análisis libres
Programa
R/Bioconductor
BRB tools
dChip
GEPAS

Potente, flexible,
actualizado,
Consola, difícil de
dominar
Unix/Windows/Mac
Basado en Excel,
Si falla, falla
User-friendly
Expresión & SNP’s
Difícil de extender
Solo Windows
User-friedly
Web-based,
Pocas opciones
Web-based
Multiples opciones,
Manejo algo rígido
Buen material
…

Programas de análisis
comerciales
Programa

geneSpring
Muy extendido
Partek
Extensible (R)
ANOVA muy potente
Ingenuity
…
Graficos potentes

Modelos de ANOVA
limitados
CARO
Mult. tipos de datos
Sólo estadística
“clásica”
Visualización 3D
BD de anotaciónes
Análisis de
significación biológica
Centrada
mayormente en
datos de cáncer
Difícil de extender
Experimentos con microarrays
Visión general del proceso
(Affy)
@Affymetrix
Otra perspectiva general
El proceso de análisis
Workflow for a typical
microarray experiment
(1) Imágenes
(Datos crudos)
(2) C. de calidad
(bajo nivel)
(3) Preprocesado
(4) Exploración
de la Matriz
de Expresión
(5) Análisis
(6) Significación
Biológica
(1) Obtención de la imagen
• Entra: Microarrays
• Salen:
…
– Imágenes (1/chip)
– Ficheros (.CEL, .CHP)
• Información para cada
sonda individual
• Datos para el análisis
de bajo nivel
…
1.cel, 1.chp
2.cel, 2.chp
– Control de calidad
– Preprocesado
– Sumarización
(2) Control de calidad
de bajo nivel
…
• Entra:
– Imágenes (.CEL)
1.cel, 1.chp
2.cel, 2.chp
• Proceso
– Diagnósticos y
Control de calidad
– Análisis basado en
modelos (PLM)
• Salen:
– Gráficos
– Estadísticos de
Affymetrix
(3) Preprocesado
…
1.cel, 1.chp
2.cel, 2.chp
C01-001.CEL
C02-001.CEL C03-001.CEL
1415670_at
8.954387
9.088924
8.833863
1415671_at
10.700876
10.639307
10.610953
1415672_at
10.377266
10.510106
10.461701
1415673_at
7.320335
7.252635
7.112313
1415674_a_at
8.381129
8.332256
8.393718
1415675_at
8.120937
8.082713
8.051514
1415676_a_at
10.322229
10.287371
10.282812
1415677_at
9.038344
8.979641
8.905711
• Entra:
– Fichero de Imagenes
• Proceso
–
–
–
–
Eliminación de ruido
Normalización
Sumarización
Filtrado
• Sale:
– Matriz de expresión
(4) Exploración
C01-001.CEL
C02-001.CEL C03-001.CEL
1415670_at
8.954387
9.088924
8.833863
1415671_at
10.700876
10.639307
10.610953
1415672_at
10.377266
10.510106
10.461701
1415673_at
7.320335
7.252635
7.112313
1415674_a_at
8.381129
8.332256
8.393718
1415675_at
8.120937
8.082713
8.051514
1415676_a_at
10.322229
10.287371
10.282812
1415677_at
9.038344
8.979641
8.905711
• Entra
– Matriz de expresión
• Proceso
– PCA, Cluster, MDS
– Representaciones en
2D/3D
– Agrupaciones
• Sale
– Detectado efectos
batch
– Verificación calidad
(5) Análisis estadístico
C01-001.CEL
C02-001.CEL C03-001.CEL
1415670_at
8.954387
9.088924
8.833863
1415671_at
10.700876
10.639307
10.610953
1415672_at
10.377266
10.510106
10.461701
1415673_at
7.320335
7.252635
7.112313
1415674_a_at
8.381129
8.332256
8.393718
1415675_at
8.120937
8.082713
8.051514
1415676_a_at
10.322229
10.287371
10.282812
1415677_at
9.038344
8.979641
8.905711
• Entra:
– Matriz expresión
– Modelo de análisis
• Proceso
– t-tests, ANOVA
• Ajustes de p-valores
• Sale
ProbeSet
1450826_a_at
1457644_s_at
1415904_at
1449450_at
1419209_at
1416576_at
1450330_at
1455899_x_at
1419681_a_at
1436555_at
gene
Saa3
Cxcl1
Lpl
Ptges
Cxcl1
Socs3
Il10
Socs3
Prok2
Slc7a2
ID
1450826_a_at
1457644_s_at
1415904_at
1449450_at
1419209_at
1416576_at
1450330_at
1455899_x_at
1419681_a_at
1436555_at
logFC
4.911
4.286
-4.132
5.164
5.037
3.372
4.519
3.648
3.709
3.724
t
63.544
53.015
-50.455
49.483
47.175
42.107
42.056
40.821
40.645
40.081
P.Value
6.21E-14
3.52E-13
5.66E-13
6.82E-13
1.08E-12
3.19E-12
3.23E-12
4.29E-12
4.48E-12
5.12E-12
adj.P.Val
2.80E-10
7.69E-10
7.69E-10
7.69E-10
9.71E-10
2.08E-09
2.08E-09
2.12E-09
2.12E-09
2.12E-09
B
22.244
20.791
20.373
20.207
19.794
18.784
18.773
18.502
18.463
18.335
– Listas de genes
• Fold change, p.values
– Gráficos
– Perfiles de expresión
(6) Significación biologica
ProbeSet
1450826_a_at
1457644_s_at
1415904_at
1449450_at
1419209_at
1416576_at
1450330_at
1455899_x_at
1419681_a_at
1436555_at
gene
Saa3
Cxcl1
Lpl
Ptges
Cxcl1
Socs3
Il10
Socs3
Prok2
Slc7a2
ID
1450826_a_at
1457644_s_at
1415904_at
1449450_at
1419209_at
1416576_at
1450330_at
1455899_x_at
1419681_a_at
1436555_at
logFC
4.911
4.286
-4.132
5.164
5.037
3.372
4.519
3.648
3.709
3.724
• Entra
– Listas de genes
• Proceso
– GEA, GSEA, …
• Sale:
– Clases GO /
Grupos de Genes
Pathways
especialmente
representados
Estudio de casos
Caso 1
Comparación de perfiles de expresión
en AML con trisomía 8 o
citogenética normal
Descripción
 PNAS, January 30, 2001 vol. 98 (3)
 Objetivo: Comparar perfiles de
expresión en enfermos de AML+8 con
enfermos AML y individuos sanos.
 No se dispone de información sobre el
diseño experimental
Esquema del análisis
1.
Datos para el análisis
1.
2.
3.
4.
5.
6.
15 archivos .CEL (5 por grupo)
Control de calidad [Expression console]
Preprocesado [Partek]
Exploración [Partek]
ANOVA y selección de genes [Partek]
Significación Biológica [Partek]
2. Control de calidad (1)
•
•
•
•
•
Descargar
Expression Console
de la web de
Affymetrix
affymetrix.com
Instalarlo
Iniciar
Seleccionar
archivos .CEL
– Create New Study
– Download library
files
– Add Intensity
Files
2. Control de Calidad (2)
• Probe cell intensity
view: Examen de
las imágenes
• Una por chip
• Box plot
– Absolute intensity
– Relative intensity
2. Control de Calidad (3)
• Correlation plots
– Pearson/Spearman
– Signal/detection-p
• Box plot
– Absolute intensity
– Relative intensity
Control de Calidad (y 4):
Métricas de CdC
% Presence
Scale Factor
Análisis de los datos con
Partek
 La suite genómica de Partek permite
analizar datos de expresión




Leer datos (.CELs o matriz de expresión)
Explorar los datos (PCA/Cluster/MDS)
Seleccionar los genes DE (ANOVA)
Construccion de predictores
 Análisis de otros tipos de datos

Exon arrays, SNP arrays, Tiling, CGH …
Instalación de Partek
 El IR dispone de una licencia flotante
a la que puede conectarse un solo usuario
cada vez.
 Instalar el archivo


setupPGS.6.08.0623-64Release.exe
disponible en: \\servir3\recerca$Partek
 Ejecutar el archivo  Se instala el programa
 Al iniciar el programa por 1ª vez pide


El tipo de licencia  “Floating License”
Nombre del servidor  “servir1”
Lectura/Importación de los
datos
(1) Seleccionar archivos .CEL
 Seleccionar .CEL a
importar
 Pulsar 
(2) Definir parámetros
importación
(3) Definir grupos y
covariables (1)
 A cada hoja de datos se le ha de
asociar una lista de covariables


Grupo al que pertenece cada muestra
Informaciones clínicas, biométricas, etc
 Puede prepararse a parte e importarlo
o crearlo tras leer los datos.
 http://www.partek.com/Tutorials/micr
oarray/User_Guides/CreatingSampleI
nfoFile.pdf
(3) Definir covariables (y 2)





Tras llenar todas las columnas 

Combinar datos y covariables 

Grabar archivo resultante 
Save file (.txt)
Merge Spreadsheets
Save (format file, .fmt)
Tools  Create Sample Info File
Seleccionar archivos CEL/CHP
Añadir las columnas necesarias
Definir el tipo de cada una
Análisis de datos
 Para facilitar el proceso de análisis 
Workflows



Itinerario sugerido desde los datos hasta
los resultados finales
Permite guardar y continuar en otro
momento
Existe un workflow para cada tipo de
datos
Workflow (WF) de análisis de
datos de expresión
WF (2.1): QA/QC. PCA
PCA
• Visualizacion de los
datos en 2D/3D
• Permite detectar
efectos “fuera del
diseño o del modelo”
• Cada eje explica un
mayor % que el
siguiente 
Atención a la
variabilidad total!!!
WF (2.2): QA/QC. Histogram
WF (3) Detect differentially
expressed genes (DEG)
1. Seleccionar la(s) variable(s) para las
que se desea realizar la comparación
[Los factores del ANOVA]
2. Definir las comparaciones entre
grupos [Los contrastes a efectuar]
3. Ejecutar el análisis
WF (3.1) Selección de factores
• Los factores
representan las
distintas fuentes
de variación en los
datos.
• Deben definirse
como variables
categoricas o
“factor” al crear
el archivo de
covariables
WF (3.2) Contrastes
•
•
•
Opción “Advanced”
del dialogo ANOVA
Los contrastes indican
que comparaciones
concretas (entre
niveles de un factor)
se desea llevar a cabo.
Comparaciones
individuales
(Grupo 1-Grupo 2) o
más complejas
(Tr1+Tr2+Tr3)/3-Ctl
WF (3.3) Resultados
• Para cada gen se obtiene los resultados de
– Significación global
– Significaciónn de cada contraste deseado
• De cada comparación obtenemos los p-valores y estadísticos de
test solicitados (por ejemplo Fold Change, T-test,…)
WF (3.3) Sources of variation
• Como en todo
ANOVA la
variabilidad
explicada debe
ser mayor que el
error.
• Muy útil si hay
más de 2
factores y uno es
un efecto Batch.
WF (3.4) Multiple testing
•
Para evitar problemas de “multiple testing”
podemos fijar un valor de tasa de falsos
positivos (FDR).
– Stat  Multiple Test  False Discovery Rate
(FDR)
• El programa
generará una tabla
con el número de
genes que se
considerarían
diferencialmente
expresados
asociados a un
valor dado de FDR.
WF (3.5) Create Gene Lists
• Para cada
comparación
realizada puede
obtenerse una lista
de genes
seleccionados.
• A partir de las
listas pueden
hacerse gráficos
diversos
– Venn
– Heatmaps
WF (4): Visualización
• Dada una lista de genes un heatmap permite
visualizar patrones de expresión que pueden sugerir
que ciertos grupos de genes se encuentran coregulados.
WF (5) Biological significance
 El programa permite realizar diversos
tipos de análisis para ayudar a
entender los procesos biológicos
implicados



Análisis de enriquecimiento sobre
categorías de la Gene Ontology.
Deteccion de categorias diferencialmente
enriquecidas entre grupos experimentales.
Enviar las listas de genes a Ingenuity.
WF (5.1) GO Enrichment
Resumen y Conclusiones
 El análisis de microarrays puede visualizarse
como un proceso.
 Es importante conocer



Los parámetros
El significado,
Las limitaciones
de cada paso.
 Una herramienta como Partek puede ayudar
a seguir este proceso con relativa confianza.
Descargar

Slide 1