Anotación de Genomas con
ESTs
Eduardo Eyras
Bioinformática UPF – Marzo 2006
Objetivos:
Conocer un poco más sobre como se
anotan genomas automáticamente
Y el uso de ESTs para anotar genomas
Objetivo
Localización en el genoma de genes conocidos
(known)
Proteínas conocidas
Secuencias de mRNAs
Alineamiento de proteínas/mRNAs al genoma en
dos pasos
1
BLAST
proteína/mRNA
“query” contra
genoma
2
Realinea
proteína/mRNA
“query” contra
región genómica
Resultado:
estructura exónica
Alineando mRNAs al genoma
mRNA “query”
. . . GCCGCACCTGAAGAGGGAAAAGC . . .
404 : CAGCCGCACCTGAAGAGG >>>> Target Intron 2 >>>> GAAAAGC :
428
||||||||||||||||||++
792 bp
++|||||||
27250191 : CAGCCGCACCTGAAGAGGgt.........................agGAAAAGC : 27251007
Secuencia genómica
Programas: Exonerate, Blat, Sim4, Spidey
Alineando Proteínas al genoma
Proteína
“query”
DCUP_HUMAN
HS307871
DCUP_HUMAN . . . RFPLDAAIIFSDILVVPQALGMEVTM . . .
75 RFPLDAAIIFSDILVVPQ
ALGMEVTM
RF LDAAIIFSDILVVPQ
ALGMEVTM
RFLLDAAIIFSDILVVPQ
ALGMEVTM
2141 ctccgggaattgacggccGTACCCA Intron 4
CAGgcgaggaa
gtttacctttcattttca<0-----[2195 : 2433]-0>ctgtatct
cctgttcctccccttacg
agcgggcg
La traducción de la secuencia genómica
Secuencia genómica partida en codones
Programas: GeneWise, Exonerate
Combinando proteinas y mRNAs
Proteína alineada al genoma
mRNA alineado en el
mismo locus
Anotación de un
tránscrito con CDS y
UTR
Como encontrar más genes
(novel)
Programas de predicción de genes: e.g.
Genscan, Geneid, SGP2, Twinscan, etc…
Predicción
Comparamos con
bases de datos
(Proteínas, mRNAs,
ESTs, etc)
Tránscrito 1
Tránscrito 2
Contruimos tráncritos a partir de predicciones con evidencia
Anotación Funcional
Anotación
(predicción a partir
de proteína o
mRNA)
Comparación con
Bases de Datos
con información
Funcional
A la caza de genes
Consorcio Público (HGP):
Inciativa privada (Craig
Secuenciación del Genoma
Venter): Secuenciación
de ESTs
ESTs (Expressed Sequence Tags)
Traducción: Etiquetas de secuencias expresadas?
Son fragmentos de secuencia obtenidos a partir de
clones de cDNA
Tiene una longitud de 300-600 bases
Pueden contener parte del CDS y/o UTR
Obtención de cDNA
mRNA extraído de
células de un
determinado tejido,
estado de enfermedad
y desarrollo.
ESTs
5’
AAAAAA 3’
3’
TTTTTT 5’
5’ EST
Single-pass sequence reads
3’ EST
Clone cDNA into a vector
Multiple cDNA clones
Muestreando el Transcriptoma con ESTs
Genoma
Tránscrito primario
Splicing
Variantes
de splicing
oligo-dT primer
Transcriptasa Reversa
Clones de cDNA
Secuencias de ESTs
(una única lectura)
5’
3’
5’
3’
Longitud de los ESTs
~ 450 bp
Distribución de longitudes
para ESTs de human
(dbEST)
Alineamiento de ESTs al genoma para
anotar genes
EST
GT
AG
GT
AG
•El alineamiento define exones e intrones
dbEST: Más de 7 MILLONES de ESTs de humano
Alineamiento al
genoma humano
~ 3 Gigabases
Bioinformática como una Tecnología
Desarrollo de software specializado:
Programas que mejoran en rapidez sin perder en
calidad en los alineamientos.
Desarrollo de tecnología especializada:
Computación en paralelo con más de 2000 CPUs
Alineamiento de ESTs al genoma
Pueden contener colas polyA/polyT del cDNA:
tenemos que cortarlas
Pueden contener contaminación del vector:
tenemos que filtrarlos.
Pueden contener intrones no procesados (clones
de tránscritos no maduros): damos preferencia a
ESTs que alineen con 1 ó más intrones, con
dinucleótidos consenso: GT—AG, AT—AC, GC—
AG
Es secuenciación de baja calidad (1 única
pasada): Solo aceptamos “matches” casi exactos
al genoma (coverage >= 97%, percent id>= 95%)
Alineamiento de ESTs al genoma
EST
Stop
*
PolyA
AAAA
Pseudogene
procesado
GT
AG
GT
AG
Mejor alineamiento
en todo el genoma
Parálogo
Alineamiento de ESTs al genoma
EST quimérico
Trozo de gen A
Trozo de gen B
Thomson et al.. Fusion of the human gene for the polyubiquitination
coeffector UEV1 with Kua, anewly identified gene.Genome Res. 2000
Nov;10(11):1743-56
Parra et al. Tandem chimerism as a means to increase protein complexity
in the human genome.Genome Res. 2006 Jan;16(1):37-44
ESTs dan información sobre variantes de
splicing
ESTs
Genoma
¿Cuales son los tránscritos representados por
este set de ESTs alienados al genoma?
¿podemos averiguar el conjunto de mRNAs
en este locus del genoma que supuestamente
han dado lugar ha estos ESTs?
Compatibilidades entre distintos ESTs
2 ESTs pueden tener estructura exónicas redundantes:
x
z
x+z
z es redundante con x -> es suficiente quedarnos con x
Extensión de la estructura exónica
Consider 2 ESTs in a Genomic Cluster with more ESTS
x
y
x+y
y extiende x, podemos asumir que provienen del mismo mRNA
Extensión de la estructura exónica
El resultado depende de la representación de exones en los
ESTs.
Sin embargo, ESTs suelen representar mayormente regiones
3’y 5’.
x
z
w
ESTs como z no son muy frecuentes, por lo que tendremos
fragmentación
Complejidad de las estructuras exónicas
x
z
w
x+z
z+w
En un grupo de ESTs pueden existir
redundancias y extensiones. Todas pueden ser
importantes:
w es compatible con z pero no con x,
mantenemos z a pesar de ser redundante con x,
para obtener z + w
Predicción de tránscritos a partir de ESTs
ESTs
Predicciones
Podemos obtener predicciones de mRNAs teniendo en
cuenta las compatibilidades entre ESTs.
Eyras et al. Genome Research 2004
Secuenciación de ESTs a gran escala en paralelo a la
secuenciación de un genoma
ESTs proporcionan información sobre la
expresión de genes
Ontologías eVOC
Sistema
Anatómico
Tipo de
Célula
http://www.sanbi.ac.za/evoc/
El tejido, órgano o sistema anatómico en el que se
ha preparado la muestra. Por ejemplo: digestivo,
pulmón, retina.
El tipo de célula en el que se ha preparado la
muestra.Ejemplo: Linfocitos B, Fibroblasto.
Patología
El estado patológico del tejido en el que se preparó
la muestra. Por ejemplo: normal, linfoma.
Estado de
Desarrollo
El estadio en el desarrollo del organismo en el cual
se preparó la muestra. Por ejemplo: embrión, feto,
adulto.
ESTs proporcionan información sobre la
expresión de genes
Ontologías eVOC
Tipo de
Célula
Patología
http://www.sanbi.ac.za/evoc/
Sistema
Anatómico
…
nervioso
cerebro
Librería 1
ESTs
Estado de
Desarrollo
cerebelo
Librería 2
ESTs
…
…
Como conectar el vocabulario de expressión
con los genes previamente anotados
ESTs
Genes
V Curwen et al. Genome Research (2004)
Vocabulario de expresión
CONCLUSIONES
La anotación de genomas requiere software especializado.
ESTs (muestreo parcial de mRNAs) son útiles para anotar
genomas. En particular:, para obtener información sobre
splicing alternativo y sobre el contexto de la expresión.
La producción de ESTs es rápida y barata pero los datos
necesitan bastante procesamiento.
Los ESTs solo dan información sobre los tránscritos
expresados por la célula. Para estudia regiones
reguladoras necesitamos el genoma.
FIN
Descargar

Comparison between Human and Mouse genomes