Ejemplos de problemas
Biológicos que pueden ser
resueltos mediante un
enfoque Bioinformático
Conceptos básicos

Homología y otras relaciones evolutivas
(paralógos, ortólogos, xenólogos)

Uso preferencial de codones, CAI y
expresividad

Microarreglos y aproximaciones
estadísticas para su análisis
Descripción de programas existentes

BLAST (Comparación apareada de
secuencias)

MEME/MAST (Identificación de motivos
sobre-representados)
Planteamiento de problemas para resolver
1.
2.
3.
4.
5.
6.
Grupo mínimo de genes para la vida
Predicción de operones bacterianos
Expresividad en unidades
transcripcionales
Conservación de expresividad entre
organismos
Identificación de genes transferidos
horizontalmente H. pylori
Regulación por glucosa en E. coli y B.
subtilis
Predicción de operones bacterianos

En organismos bacterianos, genes funcionalmente
relacionados, ya sea porque participan en una
misma vía metabolica o en el mismo proceso
celular, son transcritos en una misma unidad
transcripcional (operon).

El operón de lactosa de Escherichia coli, es uno de
los primeros operones descritos para explicar la
regulación coordinada de un conjunto de genes.
Predicción de operones bacterianos

Los métodos más comúnmente
utilizados para predecir
operones se basan en:
Dirección de la transcripción
de los genes


Distancias intergénicas.
Otros parámetros importantes en la
predicción de operones bacterianos son:
1.
2.
3.
4.
Relación funcional de los genes
Co-ocurrencia de genes en genomas
Vecindad genómica
Co-expresividad
The STRING database
http://string.embl.de/
Fusión de genes y predicción de operones
Vecindad genómica y predicción de
operones
Co-ocurrencia de genes proteicos y
predicción de operones
Conocimiento publicado y predicción
de operones
Datos de complejos proteicos y
predicción de operones
T
Coeficientes de interacción
von Mering et al., Nucleic Acids Research, 2005
COG0147Anthranilate/para-aminobenzoate synthases component I
Saccharomyces cerevisiae exosome complex
Coeficientes de interacción
COG.links.v7.1.txt

















COG0001 COG0002 296
COG0001 COG0006 217
COG0001 COG0007 770
COG0001 COG0008 168
COG0001 COG0009 168
COG0001 COG0012 168
COG0001 COG0013 168
COG0001 COG0014 209
COG0001 COG0016 168
COG0001 COG0017 173
COG0001 COG0020 317
COG0001 COG0026 175
COG0001 COG0028 278
COG0001 COG0029 165
COG0001 COG0035 173
COG0001 COG0037 217
COG0001 COG0038 524
Identificación de ortólogos mediante
el mejor hit bidireccional BDBH
OrganismoA
dnaA
dnaN
yaaA
yaaB
gyrB
yaaC
guaB
dacA
yaaD
yaaE
.
.
yaaK
OrganismoB
Bsu0001
Bsu0002
Bsu0003
Bsu0004
Bsu0005
Bsu0006
Bsu0007
Bsu0008
Bsu0009
Bsu0010
.
.
BsuNNNN
OrganismoA
dnaA
dnaN
yaaA
yaaB
gyrB
yaaC
guaB
dacA
yaaD
yaaE
.
.
yaaK
OrganismoB
Bsu0001
Bsu0002
Bsu0003
Bsu0004
Bsu0005
Bsu0006
Bsu0007
Bsu0008
Bsu0009
Bsu0010
.
.
BsuNNNN
OrganismoA
dnaA
dnaN
yaaA
yaaB
gyrB
yaaC
guaB
dacA
yaaD
yaaE
.
.
yaaK
OrganismoB
Bsu0001
Bsu0002
Bsu0003
Bsu0004
Bsu0005
Bsu0006
Bsu0007
Bsu0008
Bsu0009
Bsu0010
.
.
BsuNNNN
Para evitar que el hit solamente sea entre dominios de las proteínas, se puede
introducir un criterio de longitud. Por ejemplo que el hit cubra a más del 50%
de la secuencia de menor tamaño.
COGs. Cluster of Orthologous
Groups of Proteins
SCIENCE. VOL. 278: 631-637
COGs. Cluster of Orthologous Groups
of Proteins
No hay línea
porque son parálogos
Bacterias Gram-negativa: Escherichia coli y
Haemophilus influenzae
Bacterias Gram-positiva: Mycoplasma genitalium y
M. pneumoniae
Cianobacteria: Synechocystis sp.
Aequeobacteria (Euryarchaeota): Methanocous jannaschii
Eucariota (hongos):Saccharomyces cerevisiae
Archivo de datos SUPERLIST
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Gene
Position
Strand
GI
Common
b_number
db_refs
Category
COG
Kategory
KOG
KEGG
GO1
GO2
GO3
Function
Product
sp_id
sp_ac
CDS
337..2799
F
16127996
thrA
B0002
protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK
E
COG0460,COG0527
KEGG:00260,KEGG:00300
GO:0016597,GO:0016301,GO:0003824,GO:0004412
GO:0009067,GO:0008652,GO:0008152,GO:0009088
enzyme; Amino acid biosynthesis: Threonine
fused aspartokinase I and homoserine dehydrogenase I
-
Predicción de operones bacterianos
Lectura de datos COG.links
Lectura del primer registro
del archivo SUPERLIST
Proceso cíclico de lectura y
análisis de los demás registros
del archivo SUPERLIST
Subrutina de lectura de datos COG.links
campos <- split(registro de archivo)
COG1 <- campo 0
COG2 <- campo 1
indice <- campo 2
¿Es indice > 500?
SI
indice_COGs {COG1} {COG2} <- indice
Para cada
renglon del
archivo
COG.links
Archivo de datos SUPERLIST
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Gene
Position
Strand
GI
Common
b_number
db_refs
Category
COG
Kategory
KOG
KEGG
GO1
GO2
GO3
Function
Product
sp_id
sp_ac
CDS
337..2799
F
16127996
thrA
B0002
protein_id:NP_414543.1;ASAP:ABE-0000008;UniProtK
E
COG0460,COG0527
KEGG:00260,KEGG:00300
GO:0016597,GO:0016301,GO:0003824,GO:0004412
GO:0009067,GO:0008652,GO:0008152,GO:0009088
enzyme; Amino acid biosynthesis: Threonine
fused aspartokinase I and homoserine dehydrogenase I
-
Subrutina Distancias intergenicas
# gene
CDS
CDS
CDS
CDS
CDS
CDS
CDS
CDS
CDS
CDS
CDS
190
thrL
strand
F
F
F
F
F
R
R
F
F
R
R
GI
16127995
16127996
16127997
16127998
16127999
16128000
16128001
16128002
16128003
16128004
16128005
common
thrL
thrA
thrB
thrC
yaaX
yaaA
yaaJ
talB
mog
yaaH
yaaW
2801 3733
thrA
337
255
position
190..255
337..2799
2801..3733
3734..5020
5234..5530
5683..6459
6529..7959
8238..9191
9306..9893
9928..10494
10643..11356
thrB
2799
337
Distancia intergenica
337-255=82 pb
thrC
3734
yaaX
5020
yaaA
yaaJ talB
mog
yaaH yaaW
Subrutina de lectura de datos SUPERLIST
campos <- split(registro de archivo)
gi <- campo 3
(inicio{gi},final{gi}) <- split(campo 2)
cog{gi} <- campo 9
strand{gi} <- campo 2
gene{gi} <- campo 4
Lectura del
primer
registro
(condición
borde inicial)
gi_anterior <- gi
Proceso
cíclico de
lectura y
análisis de
los demás
registros
Subrutina de lectura de datos SUPERLIST
gi <- campo 3
(inicio{gi},final{gi}) <- split(campo 2)
dist_inter{gi} <-inicio{gi} - final{gi_anterior}
cog{gi} <- campo 9
indice_string{gi} <-indice {COG{ gi}} {COG{gi_anterior}}
strand{gi} <- campo 2
gene{gi} <- campo 4
strand{gi} eq strand{gi_anterior}
indice_string{gi} > 500 or dist_inter{gi} < 100
SI
gi_anterior <- gi
Para cada renglon del archivo SUPERLIST
campos <- split(registro de archivo)
gi and gi_anterior pertenecen al mismo operon
Predicción de operones bacterianos
http://www.microbesonline.org/operons/OperonList.html
Comparar resultados con las predicciones depositadas en
archivo PREDICCION_OPERONES.zip
¿ Qué porcentaje de las predicciones coinciden?
¿Qué características tienen las predicciones incorrectas ?










G_1
14146
14147
14148
14149
14151
14153
14155
14159
14160
G_2
14147
14148
14149
14150
14152
14154
14156
14160
14161
Bnum1 Bnum2
b0001 b0002
b0002 b0003
b0003 b0004
b0004 b0005
b0006 b0007
b0008 b0009
b0010 b0011
b0014 b0015
b0015 b0016
Ge1 Ge2
thrL
thrA
thrA
thrB
thrB
thrC
thrC
yaaX
yaaA yaaJ
talB
mog
yaaH yaaW
dnaK dnaJ
dnaJ insL-1
Bop
FALSE
TRUE
TRUE
FALSE
TRUE
FALSE
FALSE
TRUE
FALSE
pOp
0.115
0.998
0.999
0.088
0.675
0.31
0.309
0.989
0.139
CAI and the most biased genes
Zinovyev Andrei
Institut des Hautes
Études Scientifiques
El código genético estándar exhibe redundancia

Esta flexibilidad en el nivel de DNA
de la codificación no es utilizada
aleatoriamente por todos los genes
de todos los genomas.

Los patrones del uso de codones
varían extensamente en y entre la
especie

El uso preferencial de codones de
un gene correlaciona con los
niveles con los cuales éste se
traduce a la proteína

El uso preferencial de codones
también de un gene también está
ligado a la exactitud del proceso de
traducción
Uso Preferencial de Codones en E. coli
Overall codon usage
Highly expressed genes
Diferent tipos de codon bias




Traduccional (principalmente en fast-growing
bacteria)
Bias en el contenido genómico del GC% por lo
que GC-rich o AT-rich codons son preferidos
Influencia de la cadena codificante (leading o
lagging)
Codon bias por la adquisición de genes
transferidos horizontalmente de otros
organismos
Relación de CAI y traducibilidad
Diferent tipos de codon bias




Traduccional (principalmente en fast-growing
bacteria)
Bias en el contenido genómico del GC% por lo
que GC-rich o AT-rich codons son preferidos
Influencia de la cadena codificante (leading o
lagging)
Codon bias por la adquisición de genes
transferidos horizontalmente de otros
organismos
Relación de CAI y el contenido de GC
en la tercera posición del codon
Estudio cuantitativo del Uso
Preferencial de Codones

Podemos describir cada gene por la frecuencia de sus
codones – vector with 64 componentes (59 son
interesting por ser codificantes)

PCA (Principal Component Analysis) y CA
(Correspondence Analysis) son las técnicas más
comúnmente empleadas para estudiar el uso de codones

Cada gene es representado por un punto. Los puntos.
Genes con un uso similar de codones son agrupados
Patrones del Uso Preferencial de Codones en
bacterias de rápido crecimiento
I
III
II
IV
Genes of class I
(most of)
Genes of class II
(higly expressed)
Genes of class III
(unusual)
Genes of class IV
(hydrophobic)
Ejemplo del UPC en un bacteriano de rápido
crecimiento:
Bacillus subtilis
Genes of class I
(most of)
Genes of class II
(higly expressed)
Genes of class III
(unusual)
Genes of class IV
(hydrophobic)
Ejemplo del UPC en un bacteriano de rápido
crecimiento: Escherichia coli
Genes of class I
(most of)
Genes of class II
(higly expressed)
Genes of class III
(unusual)
Genes of class IV
(hydrophobic)
Ejemplo del UPC en un Organismo eucariote unicelular:
Saccharomyces cerevisiae
Genes of class I
(most of)
Genes of class II
(higly expressed)
Genes of class III
(unusual)
Genes of class IV
(hydrophobic)
Ejemplo del UPC en un Organismo eucariote complejo:
Caenorhabditis elegans
Genes of class I
(most of)
Genes of class II
(higly expressed)
Genes of class III
(unusual)
Genes of class IV
(hydrophobic)
UPC en Organismo bacteriano de lento crecimiento:
Helicobacter pylori
Genes of class I
(most of)
Genes of class II
(higly expressed)
Genes of class III
(unusual)
Genes of class IV
(hydrophobic)
UPC en Organismo bacteriano de lento crecimiento:
Borrelia burgdorferi
Leading strand
Lagging strand
Bias dominante dependiente de la
cadena de replicación
Fuentes de heterogenicidad de secuenicia

Hidrofobicidad

Presión evolutiva (bias traduccional)

Transferencia horizontal de genes

Diferentes contenidos GC(AT)

Dirección de cadena
Métricas del uso preferencial de codones

Relative Synonymous Codon Usage
RSCU
i

fi
1
N


j k  1 .. N
fk
j
Relative Codon Adaptiveness [0..1]
wi 
fi
max{ f j , all synonyms
for i }
Grupo de referencia de proteínas
altamente expresadas





Proteínas Ribosomales
Factores de elongación
Proteínas glicolíticas
Proteínas de membrana
…
Codon Adaptaion Index (CAI)

Uso preferencial de codones con respecto a
un pequeño grupo de genes de referencia
fi
fi – frequency of codon i,
max{ f j , all synonyms for i } calculated over reference
set S
L
L – number of all codons
CAI ( gene )  L  w i
in a gene
i 1
gi – frequency of codon i
64
in a gene
ln CAI ( gene )   g i ln w i  ln w i gene
wi 
i 1
CAI = exp ( 6*ln(1) + 3*ln(0.72) + 3*ln(0.25) +2*ln(0.21)+8*ln(1)) =0.687
6+3+3+2+8
Codon
Codon_Nu
RSCU
W
Gene X
UUU(Phe)
78743
1.1636839
1.0000000
6
UUC(Phe)
56591
0.8363161
0.7186798
3
UUA(Leu)
51320
0.8561943
0.2698037
0
UUG(Leu)
45581
0.760448
0.2696937
0
CUU(Leu)
42704
0.7124497
0.2528585
3
CUC(Leu)
35873
0.5984851
0.2124108
2
CUA(Leu)
15275
0.2548396
0.0904462
0
CUG(Leu)
16885
2.8175832
1.0000000
8
Valores de CAI para E. coli y levadura
Distribución de valores de CAI en
genes de E. coli y levadura
Algoritmo para detectar genes con
Bias en su CAI
1.
2.
3.
4.
Calcular wi considerando el 100% genes, y el
CAI para todos los genes
Seleccionar 50% de los genes con los más
altos CAIs y a partir de ellos calcular wi y
recalcular el CAI para todos los genes
Seleccionar el 25% de los genes del paso
anterior con los más CAIs, calculate wi, y
recalcular nuevamente los CAIs
Repetir hasta seleccionar el 1% de los genes
Ejemplo: Bacillus subtilis
Desempeño del algoritmo en
organismos de rápido crecimiento
Reference set
Identificación de genes
transferidos horizontalmente
1.- Genes cuya contenido de GC% estén
localizados a más de 2Ds del promedio
Identificación de genes
transferidos horizontalmente
1.- Genes cuya contenido de GC% estén
localizados a más de 2Ds del promedio
Identificación de genes
transferidos horizontalmente
1.- Genes cuya contenido de GC% estén
localizados a más de 2Ds del promedio
Identificación de genes
transferidos horizontalmente
2.- Genes cuyo valor CAI sea menor al promedio
menos 2Ds
Identificación de genes
transferidos horizontalmente
3.- Buscar la intersección de genes seleccionados
por CAI y GC
Genes
Genes
Genes
transferidos
identificados
identificados
horizontalmente por GC%
por CAI
Planteamiento de problemas para resolver
1.
2.
3.
4.
5.
6.
Grupo mínimo de genes para la vida
Predicción de operones bacterianos
Expresividad en unidades
transcripcionales
Conservación de expresividad entre
organismos
Identificación de genes transferidos
horizontalmente H. pylori
Regulación por glucosa en E. coli y B.
subtilis
Descargar

CAI and the most biased genes