Bioinformática
• Estudio del flujo de información genética
▫ Bases de datos
▫ Predicciones
• ¡Es ciencia!
▫ Controles
▫ Validaciones
Flujo de la información
Molécula:
Compuesta por:
ADN
ARN
Nucleótidos
A C G T
A C G U
Proteína
Aminoácidos
Ala Cys Asp Glu Phe
Gly His Ile Lys Leu
Met Asn Pro Gln Arg
Ser Thr Val Trp Tyr
El Genoma Humano
ADN
ARN
Mitocondrias
ADN
(~3·109 bases)
Proteína
Replicación del ADN
ADN
ARN
Proteína
T
G
C
T
A
A
C
G
T
A
A
C
G
A
T
T
G
C
A
T
T
G
C
T
A
A
C
G
T
A
Transcripción
ADN
ARN
Proteína
• El genoma contiene zonas codificantes
▫ Codifican proteínas
▫ Codifican ARNs
• …y no codificantes
▫ Promotores, reguladores
▫ Intrones
Traducción
ADN
ARN
Proteína
• La traducción se produce en tripletes
Organización génica
Organización génica
+
A
T
A
C
G
T
G
G
C
C
T
T
A
A
A
T
A
-
A
T
T
Biotipos
• Codificante de proteína
• ARNs (ARNt, ARNr, ARNlnc, miRNA)
• Pseudogenes
• Otros
Mutaciones
A
U
T
G
A
A
U
T
C
G
U
T
A
T
A
C
T
T
A
G
C
A
T
Met
Asn
Arg
…
Secuenciación de ADN
• Método Sanger
▫ Una secuencia por experimento
▫ Cerca de 1000 bases por secuencia
El proyecto Genoma
Humano
• Comenzó hacia 1987
• Duró unos 15 años
• Costó unos 3000 millones de dólares
• Proporciona un genoma de referencia
Métodos de segunda
generación
• Unos 160 millones de secuencias por
experimento
• Unas 108 bases por secuencia
• Un genoma humano se puede secuenciar en
una semana por poco más de 5000 dólares
Aplicaciones
• Genoma
• Exoma
• RNAseq
• Metiloma
Proyectos a gran escala
• Otros genomas
• 1000 genomes
• ICGC
Lecturas
Fastq
@GA05_0001:5:1:1160:10699#0/1
GGAATACAGAGANAGAAGAACACATCCCACAGTGCATAAATACCCATATTTA
+
[email protected]@@:?CC?CC:6?/?;>@BB>@B
@GA05_0001:5:1:1160:14196#0/1
GGTAACCAAAACNAAAACTGTGTTTCTTATTTTTTCTCCAAAGAATAAAATA
+
CCCCCCCCCCCC#C?78;89CCCCCCCCBCCC>>>>>>CCCCBCCCCCC>>C
@GA05_0001:5:1:1160:16684#0/1
TTGGTTTCCTTTNCAGATTTTGGAGGACTTTAACAAAATGAGATGATAAATG
+
CA=CCCCBAC>>#>:>:>>>[email protected]@A4AAAA8AAAA@:==.>67>A>[email protected]
@GA05_0001:5:1:1160:16712#0/1
TAGTTGAAGGCANCTAGACATTAGTATACCCTTTAATGAATAATGTTATTGA
+
C>[email protected]<:#<;<;9;<[email protected]=?B==B=A=>A?BB>B>A#
Alineamiento
Sidrón
• Cálculo de probabilidades
S = p(configuración | Het) / p(configuración | Hz)
Low S
High
Problemas en
alineamientos
• Zonas repetitivas
Problemas en
alineamientos
• Indels
Problemas en
alineamientos
• Zonas de baja complejidad
Variantes y Mutaciones
• Variación -> Respecto a genoma de referencia
• Mutación -> Respecto a genoma germinal
• Codificante / no codificante
• Sinónima / no sinónima
• Indel
Mutaciones somáticas
Genoma de referencia
Lecturas en
tejido normal
Lecturas en
tejido tumoral
Enfermedades hereditarias
18.655
8.062
268
8
4
Variantes en genes
No sinónimas
No polimórficas
Homozigotas
Heterozigotas en padres
Proteínas
• Predicciones:
▫
▫
▫
▫
Modificaciones post-traduccionales
Parámetros químicos
Dominios
Estructuras
Proteínas
• Aminoácidos
Ordenadores
Memoria
Entrada
Salida
CPU
Lenguajes de
programación
• Alto nivel
▫
▫
▫
▫
▫
LISP
Python
Perl
Java
HTML
• Bajo nivel
▫ Asm
▫C
#!/usr/bin/perl *small*
-w
(defparameter
1)
use
strict;
zstr_count:
(defparameter *big* 100)
00000030 B9FFFFFFFF
mov ecx, -1
use IO::Uncompress::Gunzip;
(defun
guess-my-number ()
.loop:
(ash (+ *small*
*big*) -1))
my00000035
$file = shift;
41
inc ecx
my00000036
@temp
= 803C0800
split
(defun
smaller
() /[\/\\]/, $0; cmp byte [eax + ecx], 0
my(setf
$pname
@temp;
*big* =(1-pop
(guess-my-number)))
die("Use:
perl $pname pileup_file\n")
(guess-my-number))
unless
($file75F9
&& -e $file); jne .loop
0000003A
my $fh;
(defun
bigger ()
open
($fh,
$file);
(setf *small*
(1+ (guess-my-number)))
my(guess-my-number))
$c = get_chunk($fh);
.done:
my $z = IO::Uncompress::Gunzip->new(\$c);
(defun start-over ()
while
(my $l = $z->getline()){
(defparameter
*small* 1)
print
"$l\n";
(defparameter *big* 100)
} (guess-my-number))
0000003C C3
ret
Descargar

Técnicas Genómicas de Segunda Generación