Gene finding:
Software de predicción de genes
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
INTRODUCCIÓN
• Secuenciación de cada vez
mas Genomas
809 genomas completos en mayo del 2008
53 archeas, 662 bacterias, 94 ecuariotas
(GOLD: Genomes OnLine Database)
• Diferenciar entre:
secuencia funcional
 funcionalidad de un gen o
producto génico
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
INTRODUCCIÓN
PREomics
POSTomics
Experimental:
Computacional:
• Cultivos
• Hibridaciones
• Recombinación y Mapas
Genéticos
• Grandes bases de datos
• Algoritmos de búsqueda
• Automatización
Regiones Concretas
Organismos Concretos
Genes Concretos
Regiones grandes (Genomas)
Muchos organismos
Muchos (posibles) genes
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
INTRODUCCIÓN
POSTomics
Experimental:
Computacional:
• Cultivos
• Hibridaciones
• Recombinación y Mapas
Genéticos
• Grandes bases de datos
• Algoritmos de búsqueda
• Automatización
Regiones Concretas
Organismos Concretos
Genes Concretos
+
Regiones grandes (Genomas)
Muchos organismos
Muchos (posibles) genes
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
• Métodos de similaridad
• Métodos Ab Initio
• Genómica Comparativa
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
ESTRATEGIAS ACTUALES
Gene finding
Métodos de similaridad
( Lookup , Evidence based or Extrinsec Methods )
• Comparación de Secuencia y Búsquedas por similaridad
(Blast, CLUSTAL)
• Alineamiento con Proteínas
• Alineamiento con mRNA/cDNA
• Alineamiento con ESTs
• Comparación Intra-genómica
• Comparación Inter-genomica (Genómica Comparativa)
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
ESTRATEGIAS ACTUALES
Gene finding
Métodos de similaridad
Nucleic Acids Res. 30:4103-4117, 2002.
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
Métodos de similaridad
✗
• Capacidad limitada para encontrar nuevos genes, se estima que se pueden
Encontrar el 50% de genes.
“Nada será encontrado si la base de datos no contiene suficientes
secuéncias similares”
• ESTs solo dan información parcial ya que solo reflejan una parte de un mRNA
• Exones pequeños no son detectados (problema también en ab initio)
✓
• Resultados bastante sólidos al estar basados en evidencia
• Comparaciones intra-genómicas aportan información de genes parecidos
(familias génicas)
• ESTs / cDNAs dan mucha información sobre divisiones Exon/Intron, y exones
usados o no en splicing alternativo
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
• Métodos de similaridad
• Métodos Ab Initio
• Genómica Comparativa
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
Métodos Ab Initio
( Intrinsec, Signal , Template Search )
Métodos totalmente computacionales basados en
la busca de patrones o secuencias consenso.
El “Gene Prediction” real.
• Típos de software:
• Estratégias:
- Predicción de estructura
- Secuencias consenso y ORFs
- Detección de Exones/Intrones
- Detección de lugares de splicing
- Detección de otras senyales
- Estadísticos (Codon Bias) y Matrices de puntuación
- Arboles de decisión (HMM - Hiden Marcov Models)
- Otros…
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
Métodos Ab Initio
Secuencias consenso y ORFs
Tipos de Señales:
•
•
•
•
•
Señales Promotoras
Señales Inicio de Transcripción
Lugares de Splicing (Intrones/Exones)
Lugares de poli(A)
Sitios de unión de TFs
www.cbs.dtu.dk
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
Métodos Ab Initio
✗
Secuencias consenso y ORFs
• Métodos muy útiles en procariotas, pero no tanto en eucariotas con estructuras de
genes complejas
(ejemplo ORFs)
• Incluso en procariotas, podemos encontrar genes solapando con otros genes
• Secuencias consenso , por si solas no son 100% fiables en todas las bases
✓
• Aproximación muy rápida, que puede definir posteriores procesos
• Paso previo de ORFs necesario
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
Métodos Ab Initio
Estadísticos y Matrices
Estadísticos:
• Codon Bias
• K-meros: Hexameros, etc…
• Otros…
✓
✗
• Puntuaciones, índices, valores…de fácil tratamiento computacional
• Codon Bias puede ser muy indicativo para separar regiones codificantes del resto
Las matrices y estadísticos provienen de datos previos, se deben de optimizar.
Se puede hacer a partir de los datos propios pero requiere iteraciones
• Trainig Sets (matrices, codones, secuencias señal…)
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
Métodos Ab Initio
HMM – Hidden Markov Models
• Método estadístico (bayesiano  demostrar hipotesis cierta )
• No se conoce previamente el estado de un grupo de
elementos observado (Hidden state)
• Mediante arboles de decisiones, se intenta inferir el estado
del elemento a partir de lo observado
✓
✗
• (Muy) Usado en eucariotas, donde las señales consenso no están tan
claramente definidas
• Cualquier algoritmo de este tipo necesita de datos previos para poder tener un
“criterio” y poder hacer decisiones. Resultan necesarios mecanismos de autoaprendizaje
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
ESTRATEGIAS ACTUALES
Métodos Ab Initio
•
•
•
•
Gene finding
Otras Aproximaciones
Autoaprendizaje (SPV – Suport Vector Machines)
Redes Neurales
Estructuras secundarias del mRNA
…
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
Métodos Ab Initio
•
•
•
•
Autoaprendizaje (SPV – Suport Vector Machines)
Redes Neurales
Estructuras secundarias del mRNA
…
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
• Métodos de similaridad
• Métodos Ab Initio
• Genómica Comparativa
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
Genómica Comparativa
• Algún software especializado (Rosetta para Humano y Ratón, SPG1
para Vertebrados y Angiospermas)
•
Aproximación Mixta:
(intentar buscar genes representativos del grupo de organismos estudiado)
1- Usar evidencia experimental (por homologia)
· Protein Coding cDNA
· Similaridad con proteinas
2- Predicción ab Initio
3- Filtro de los resultados para descartar redundancia,
pseudogeneso errores
4- Ampliar con otras fuentes de evidencia (ESTs,…)
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
ESTRATEGIAS ACTUALES
✗
Gene finding
• Software principalmente centrado en regiones que codifican para proteina
Por el momento otras secuencias que transcriben son poco tratadas.
• Definido a priori que un gen es la región que transcribe entre señal de inicio y final
• Poco consenso entre los desarrolladores, falta de standards definidos (GFF –
General Feature Format). Programas confusos para el usuario
• Detalles a mejorar su detección:
- Genes solapantes (por extremo 3’ o genes dentro de intrones)
- Genes Policistrónicos (varios genes codificados en un mRNA)
- Frameshifts (perdida de nucleótidos en la secuenciación o bases de datos)
- Intrones en secciones no codificantes / Exones no traducidos
- Exones pequeños (estructuras secundarias)
- Sitios de splicing no canonicos
- Procesados alternativos:
- Otros inicios de transcripción
- Splicing alternativo
- Sitios de Poly(A) diferentes
- Otros inicios de traducción: AUG alternativos / no-AUG
(poca consideración a casos “menores”)
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
ESTRATEGIAS ACTUALES
✓
• Combinación de métodos ofrece resultados más fiables
• Puede facilitar pasos previos a la experimentación
• Imprescindible para genomas que , quizás, NUNCA serán estudiados
experimentalmente
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
TEST DE SOFTWARE
Programas a prueba:
• GenMark-hmm
• GENSCAN
• GeneID
•Genscan se usó en el Proyecto Genoma Humano y en el
Genoma del Ratón
•Genscan y GenMark-hmm tienen las mejores valoraciones
en pruebas de este tipo de software
•Los tres tienen interface web
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
TEST DE SOFTWARE
Gene finding
• GenMark-hmm
- Desde 1993
- Instituto tecnológico de Georgia, patrocinado
por IBM
- Varios programas: Procariotas, Eucariotas,
Heuristicos, EST y cDNA …
GenMark-hmm : Usa Hidden Markov Models
y selftraining
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
TEST DE SOFTWARE
• GENSCAN
- Desde 1997
- Dep. Matemáticas de la Universidad
De Stanford
- (web) Vertebrados, arabidopsis, maíz.
Usa Hidden Markov Models
y se basa en información de doble cadena
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
TEST DE SOFTWARE
• GENEID
- Desde 2000 (paper en Drosophila)
- Universitat Pompeu Fabra / CRG
- Datos para varios organismos, van
publicando nuevos sets periodicamente
- Permite añadir datos externos (GFF)
- Opcion de output en formato GFF
- Web muy explicativa
Usa 3 passos:
1. Deteccion de señales: Splicing, start-stop codons, matrices de puntuación
2. Usa los datos anteriores en un modelo HMM
3. Integrar todo en una predicción de la estructura
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
TEST DE SOFTWARE
• BRCA1 (Pan troglodytes)
- Cromosoma 17
- Splicing alternativo
- 85 kb
- 24 exons (22 coding)
Exon 11 3427 bp
El resto entre 37-311bp
- Proteina 1863 aa
Evolution of the tumor suppressor BRCA1 locus in primates: implications for cancer predisposition
Adam Pavlicek , Vladimir N. Noskov et alt.
Human Molecular Genetics 2004
13(22):2737-2751; doi:10.1093/hmg/ddh301
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
TEST DE SOFTWARE
Gene finding
Output GeneMark-hmm
2 genes (4 y 7 exones)
Gen 1: 1246aa
Gen 2: 350aa
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
TEST DE SOFTWARE
Gene finding
Output GENSCAN
1 gen ( 16 exones ) 1707aa
2 genes (4 y 7 exones)
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
TEST DE SOFTWARE
Gene finding
Output GENSCAN
2 genes (3 y 6 exones)
Gen 1: 1229 aa
Gen 2: 323 aa
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
INFORMACIÓN COMPLEMENTARIA
http://www.genefinding.org/
http://www.nslij-genetics.org/gene/programs.html
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Gene finding
REFERENCIAS
Evaluation of gene prediction software using genomic dataset: application to
Arabidopsis thaliana sequences . Pavy N, Rombauts S et alt. Bioinformatics
Vol 15 no 11 1999. 887-899
Evaluation of Gene-Finding Programs on Mammalian Sequences
Sanja Rogic, Alan K. Mackworth and Francis B.F. Ouellette . Genome Res. 2001
11: 817-832
Current methods of gene prediction, their strengths and weaknesses
Catherine Mathé, Marie-France Sagot, Thomas Schiex and Pierre Rouzé.
Nucleic Acids Res. 30:4103-4117, 2002.
In search of the small ones: improved prediction of short exons in vertebrates,
plants, fungi and protists. Yvan Saeys, Pierre Rouze and Yves Van de Peer. Vol. 23
no. 4 2007, pages 414–420 doi:10.1093/bioinformatics/btl639
Miquel Ràmia i Jesús
Genòmica i Proteòmica / Màster de genètica, UAB
Descargar

La predicción de genes