Curs
Curs d’introducció
d’introducció aa la
la bioinformàtica
bioinformàtica
Plataforma Bioinformàtica de la UAB
Recerca biològica a la Web
2. Bases de dades moleculars
© 2006 Plataforma Bioinformàtica de la UAB
Informació a la era genòmica
• El projecte genoma humà i similars generen
un immens flux d’informació
• Per a poder utilitzar-la, aquesta ha d’estar
emmagatzemada correctament
• L’accés ha de ser ràpid i flexible
• Això és possible gràcies a la creació de
bases de dades i a la seva distribució via
Internet
© 2006 Plataforma Bioinformàtica de la UAB
Per què s’utilitzen les bases de dades?
• Cerca d’informació:
– Per paraula clau, números d’accés, autors, ...
• Cerca d’homologies:
– Hi ha seqüències iguals o similars a la meva?
• Cerca de patrons:
– Conté la meva seqüència patrons coneguts?
• Prediccions:
– Puc trobar proteïnes similars a la meva, però amb funció
coneguda?
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Taxonòmiques
• De nucleòtids
• Genòmiques
• De proteïnes
• De microarrays
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Taxonòmiques
• De nucleòtids
• Genòmiques
• De proteïnes
• Organització dels articles
publicats a les revistes d’àmbit
científic:
– PubMed (NCBI)
– Medline
• De microarrays
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Taxonòmiques
• Classificació dels éssers vius
• De nucleòtids
• Classificació jeràrquica i
• Genòmiques
• De proteïnes
basada en informació
molecular
• Controvèrsia comunitat
taxonòmica
• De microarrays
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Seqüències obtingudes pels
laboratoris experimentals
• Taxonòmiques
• Actualització diària
• De nucleòtids
• Bases de dades que
• Genòmiques
• De proteïnes
• De microarrays
interconnectades:
– Genbank (NCBI)
– EMBL (EBI)
– KEGG (Genome Network)
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Taxonòmiques
• De nucleòtids
• Genòmiques
• De proteïnes
• De microarrays
• Seqüències i anotacions de
genomes complets:
– Ensembl, Genomes (EBI)
– Genome Viewer (NCBI)
– Goldenpath (UCSC)
• Recursos especialitzats:
– Transfact (llocs d’unió a
factors de transcripció)
– EST (Expressed Seq Tags)
– UTRdb (Untranslated reg)
– SpliceSitesDB (Parells de
senyals de splicing)
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Taxonòmiques
• De nucleòtids
• Genòmiques
• De proteïnes
• Seqüències primàries
d’aminoàcids:
– Sense revisió humana:
• Trembl (EBI)
• Protein (NCBI)
– Amb revisió de l’anotació:
• SwissProt (EBI)
– Proteomes:
• PIR (Georgetown)
• Integr8 (EBI)
• De microarrays
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Taxonòmiques
• De nucleòtids
• Genòmiques
• De proteïnes
• De microarrays
• Estructures secundàries o
dominis:
– BLOCKS (motius alineats de
PROSITE / PRINTS)
– PROSITE (expressions
regulars sobre SwissProt)
– PRINTS (conjunt de motius
que defineixen una família
sobre SwissProt / TrEMBL
– PFAM (Markov models
sobre SwissProt)
– INTERPRO (integració de
múltiples bases de dades
de dominis)
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Taxonòmiques
• De nucleòtids
• Genòmiques
• De proteïnes
• De microarrays
• Estructures tridimensionals de
macromolècules amb les
coordenades a l’espai de cada
àtom:
– PDB (estructura)
– CATH (classificació de PDB
en diferents grups
funcionals i estructurals)
– MMCB (subset de PDB
mantingut pel NCBI)
– MSD (subset del PDB
mantingut per l’EBI)
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Taxonòmiques
• De nucleòtids
• Genòmiques
• De proteïnes
• De microarrays
• Altres bases de dades
especialitzades:
– DIP (interaccions entre
proteïnes)
– Swiss 2D-page (mapes
bidimensionals)
– BRENDA (enzims)
– PharmGKB (dianes
terapèutiques)
– Therapeutic Target
Database (dianes
terapèutiques)
© 2006 Plataforma Bioinformàtica de la UAB
Tipus de bases de dades moleculars
• Bibliogràfiques
• Taxonòmiques
• De nucleòtids
• Genòmiques
• De proteïnes
• De microarrays
• Imatges i resultats obtinguts
per arrays d’expressió:
– ArrayExpress (EBI)
– Riken Expression Array
Database
– Eisen Laboratory
(Lawrence Berkeley
National Lab)
© 2006 Plataforma Bioinformàtica de la UAB
The Molecular Biology Database
Collection
Nucleic Acids Research
The Molecular Biology Database Collection:
2006 update
© 2006 Plataforma Bioinformàtica de la UAB
The Molecular Biology Database
Collection
© 2006 Plataforma Bioinformàtica de la UAB
The Molecular Biology Database
Collection
© 2006 Plataforma Bioinformàtica de la UAB
Principals proveïdors d’informació
http://www.ddbj.nig.ac.jp/
http://www.ncbi.nlm.nih.gov/
http://www.ddbj.nig.ac.jp/
© 2006 Plataforma Bioinformàtica de la UAB
EMBL - EBI
© 2006 Plataforma Bioinformàtica de la UAB
NCBI
© 2006 Plataforma Bioinformàtica de la UAB
Emmagatzematge i format de les
seqüències
• Preparació i edició
• Submissió:
– Via Web a BankIt
– Sequin (software)
• Assignació d’identificadors (o codis d’accés)
• Col·laboració internacional: intercanvi de
dades entre EMBL, Genbank i DDBJ
• Revisions i actualitzacions
© 2006 Plataforma Bioinformàtica de la UAB
Identificadors
• Locus Name: lletres identificatives de l’organisme
+ codi del gen (ex. ECRECA = Escherichia coli
recA). Ja no s’utilitza.
• Accession Number: identificador únic per a cada
seqüència (no canvia mai)
– 1 lletra + 5 números (ex. X00123)
– 2 lletres + 6 números (ex. AF405321)
• Accession + Version: identificador únic (la versió
canvia en cada actualització) (ex. AF405321.1)
• GenInfo identifier (gi): registre únic primari que
canvia en cada actualització (ex. 15341523)
© 2006 Plataforma Bioinformàtica de la UAB
Formats de seqüències
Senzill
Múltiple
Mixte
FASTA
FASTA
RSF
EMBL
Clustal
Genbank
Phylip
GCG
MSF
Stadem
© 2006 Plataforma Bioinformàtica de la UAB
Formats de seqüències: FASTA
Seqüència
1a línia: descripció
Símbol fasta
Identificador
Comentaris
>gi|15341523|gb|AF405321.1| Human echovirus 29 strain JV-10 5' UTR, partial
sequence CAAGCACTTCTGTTTCCCCGGACTGAGTATCAATAGACTGCTCACGCGGTTGAAGGAGAAAACGTTCGTT
ATCCGGCCAACTACTTCGAGAAACCTAGTAACGCCATGGAAGTTGTGGAGTGTTTCGCTCAGCACTACCC
CAGTGTAGATCAGGTTGATGAGTCACCGCATTCCCCACGGGTGACCGTGGCGGTGGCTGCGTTGGCGGCC
TGCCCATGGGGAAACCCATGGGACGCTCTTATACAGACATGGTGCGAAGAGTCTATTGAGCTAGTTGGTA
GTCCTCCGGCCCCTGAATGCGGCTAATCCCAACTGCGGAGCATACACTCTCAAGCCAGAGGGTAGTGTGT
CGTAATGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT
>gi|15341527|gb|AF405325.1| Human echovirus 6 strain D' Amori 5' UTR, partial
sequence
CAAGCACTTCTGTTTCCCCGGACCGAGTATCAATAAGCTGCTCACGCGGCTGAAGGAGAAAGTGTTCGTT
ACCCGGCTAGTTACTTCGAGAAACCTAGTACCACCATGAAGGTTGCGCAGCGTTTCGCTCCGCACAACCC
CAGTGTAGATCAGGTCGATGAGTCACCGCGTTCCCCACGGGCGACCGTGGCGGTGGCTGCGTTGGCGGCC
TGCCCATGGGGCAACCCATGGGACGCTTCAATACTGACATGGTGCGAAGAGTCTATTGAGCTAACTAGTA
GTCCTCCGGCCCCTGAATGCGGATAATCTTAACTGCGGAGCAGGTGCTCACAATCCAGTGGGTGGCCTGT
CGTAACGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT
>gi|15341526|gb|AF405324.1| Human echovirus 33 strain Toluca-3 5' UTR, partial
sequence
CAAGCACTTCTGTTTCCCNGGACCGAGTATCAACAGACTGCTCACGCGGTTGAAGGAGAAAGTGTTCGTT
ATCCGGCCAACTACTTCGAAAAACCTAGTAACACCATGGAAGTTGCAGAGTGTTTCGCTCAGCACTACCC
CAGTGTAGATCAGGTCGATGAGTCACCGCATCCCCCACGGGCGACCGTGGCGGTGGCTGCGTTGGCGGCC
TGCCTATGGGGGAACCCATAGGACGCTCTAATACAGACATGGTGCGAAGAGTCCATTGAGCTAGTTGGTA
GTCCTCCGGCCCCTGAATGCGGCTAATCCTAACTGCGGAGCACACACCTTCAAGCCAGAGGGCAGTGTGT
CGTAACGGGCAACTCTGCAGCGGAACCGACTACTTTGGGT
© 2006 Plataforma Bioinformàtica de la UAB
Formats de seqüències: Genbank
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
REFERENCE
AUTHORS
TITLE
JOURNAL
PUBMED
REFERENCE
AUTHORS
TITLE
JOURNAL
PUBMED
REFERENCE
AUTHORS
TITLE
JOURNAL
SCU49845
5028 bp
DNA
linear
PLN 21-JUN-1999
Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p
(AXL2) and Rev7p (REV7) genes, complete cds.
U49845
U49845.1 GI:1293613
.
Saccharomyces cerevisiae (baker's yeast)
Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Saccharomyces.
1 (bases 1 to 5028)
Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
Cloning and sequence of REV7, a gene whose function is required for
DNA damage-induced mutagenesis in Saccharomyces cerevisiae
Yeast 10 (11), 1503-1509 (1994)
7871890
2 (bases 1 to 5028)
Roemer,T., Madden,K., Chang,J. and Snyder,M.
Selection of axial growth sites in yeast requires Axl2p, a novel
plasma membrane glycoprotein
Genes Dev. 10 (7), 777-793 (1996)
8846915
3 (bases 1 to 5028)
Roemer,T.
Direct Submission
Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New
Haven, CT, USA
© 2006 Plataforma Bioinformàtica de la UAB
Entrez Tutorial
Formats de seqüències: Genbank
FEATURES
source
Feature key
CDS
gene
CDS
Location/Qualifiers
Location
1..5028
/organism="Saccharomyces cerevisiae"
/mol_type="genomic DNA"
/db_xref="taxon:4932"
Qualifiers
/chromosome="IX"
/map="9"
<1..206
/codon_start=3
/product="TCP1-beta"
/protein_id="AAA98665.1"
/db_xref="GI:1293614"
/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
AEVLLRVDNIIRARPRTANRQHM"
687..3158
/gene="AXL2"
687..3158
/gene="AXL2"
/note="plasma membrane glycoprotein"
/codon_start=1
/product="Axl2p"
/protein_id="AAA98666.1"
/db_xref="GI:1293615"
/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF
TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN
VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE
VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE
…
© 2006 Plataforma Bioinformàtica de la UAB
Formats de seqüències: Genbank
gene
complement(3300..4037)
/gene="REV7"
complement(3300..4037)
/gene="REV7"
/codon_start=1
/product="Rev7p"
/protein_id="AAA98667.1"
/db_xref="GI:1293616"
/translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ
FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD
KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR
RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK
LISGDDKILNGVYSQYEEGESIFGSLF"
CDS
ORIGIN
1
61
121
181
241
301
361
421
gatcctccat
ccgacatgag
ctgcatctga
gaaccgccaa
ccacactgtc
agacgcgaaa
attttggcaa
aatacccatc
atacaacggt
acagttaggt
agccgctgaa
tagacaacat
attattataa
aaaaaagaac
cttatgtttc
gtaggtatgg
atctccacct
atcgtcgaga
gttctactaa
atgtaacata
ttagaaacag
aacgcgtcat
ctcttcgagc
ttaaagatag
…
4921 ttttcagtgt tagattgctc taattctttg
4981 tgccatgact cagattctaa ttttaagcta
caggtttaga
gttacaagct
gggtggataa
tttaggatat
aacgcaaaaa
agaacttttg
agtactcgag
catctccaca
tctcaacaac
aaaacgagca
catcatccgt
acctcgaaaa
ttatccacta
gcaattcgcg
ccctgtctca
acctcaaagc
ggaaccattg
gtagtcagct
gcaagaccaa
taataaaccg
tataattcaa
tcacaaataa
agaatgtaat
tccttgccga
agctgttctc tcagctcctc atatttttct
ttcaatttct ctttgatc
//
© 2006 Plataforma Bioinformàtica de la UAB
Jutjar la qualitat de la informació
• Qui són els autors? Afiliació, credencials, experiència
en el tema, contacte i resolució de dubtes, ...
• Organització acadèmica / Agència governamental /
Empresa? Hi ha la versió completa disponible?
• Versió estable o encara en desenvolupament?
• Transparència: Saps què fan exactament els
programes que utilitzes (source code)? Hi ha
documentació disponible?
• Actualitzacions: a la Web, les pàgines antigues no
desapareixen. Hi ha una data d’actualització visible?
Està el servidor actualitzat? Si no veus activitat a un
lloc Web i no hi ha data d’actualització, no te’n refiïs!
© 2006 Plataforma Bioinformàtica de la UAB
Descargar

Tema 1: Introducción a la Biocomputación