Bancos de Dados Biológicos I
Daniel Guariz Pinheiro
Sumário
Introdução
Banco de Dados
Sistemas de Banco de Dados
Processo de extração de conhecimento
Banco de Dados Biológicos
Dados Biológicos
Revisão Histórica
Principais Bases de Dados
Bases de Dados de Expressão Gênica
NCBI GEO (Gene Expression Omnibus) e o CGAP SAGE Genie
Referências
Banco de Dados
A database is a collection of related data. By
data, we mean known facts that can be
recorded and that have implicit meaning. (R.
Elmasri and S. B. Navathe)
A database is a repository for a collection of
computerized data files. (C.J.Date)
Propriedades:
Representar um aspecto do mundo real;
-Conter dados coerentes e com um significado inerente;
-Deve ter um propósito;
-
Abordagem utilizando
Sistema de Arquivos
O programador define e implementa os
arquivos necessários para uma aplicação
específica.
Gera
redundância
na
definição
e
no
armazenamento dos dados;
Possui estrutura específica e dependente de
determinada aplicação;
Não permite compartilhamento e acesso
concorrente;
…
Abordagem com Sistemas
de Banco de Dados
Utiliza um sistema de gerenciamento de bancos de
dados para manter um único repositório de dados;
Evita redundância;
Contém em si a definição de sua estrutura (metadados);
Possui restrições implementadas que evitam inconsistências
nos dados;
Solução genérica para qualquer aplicação;
Permite o acesso concorrente de múltiplos usuários;
Permite diferentes visões dos dados;
Independência da aplicação;
Permite representar relacionamentos complexos entre os
dados;
...
Modelo de dados
Uma coleção de conceitos que podem ser usados para descrever a
estrutura do banco de dados.
Projeto de um Banco de Dados Relacional
Modelo de Dados Conceitual;
Modelo de Entidades e Relacionamentos (MER);
Entidades, atributos e relacionamentos;
 Diagrama de Entidades e Relacionamentos (DER);
Modelo de Dados de Implementação;
Modelo de Dados Relacional;
Detalhamento do Modelo Conceitual (MER) e adequação ao
SGBDR;
Modelo de Dados Baseado em Registros
 Representação através de estruturas de registros;
Modelo de Dados Físico;
Detalhes internos de armazenamento;
Diagrama de Entidades e
Relacionamentos
Notação Original
Peter Chen,1976.
Modelo diagramático que descreve o modelo de dados de um sistema
com alto
nível de abstração. Ele é a principal representação do
Modelo de Entidades e Relacionamentos.
Notação IDEF1X
Chen, Peter P. English Sentece Structure and Entity-Relationship Diagrams,
Elsevier Science Publishing Co,, Inc. 52 Vanderbilt Ave, New York, NY 10017
ERwin®
Sistema de Gerenciamento
de Banco de Dados
A database management system (DBMS) is a collection of
programs that enables users to create and maintain a database.
The DBMS is hence a general-purpose software system that
facilitates the processes of defining, constructing, and
manipulating databases for various applications. (R. Elmasri and
S. B. Navathe)
•
•
•
Modelo de Dados Relacional (SGBDR)
–
Inspirado na Álgebra Relacional
–
Organiza os dados em uma estrutura de tabelas
–
Linguagem SQL (Structured Query Language)
Modelo de Dados Orientado a Objetos (SGBDOO)
–
Inspirado nos Paradigmas de Orientação a Objetos
–
Permite a persistência de objetos
–
Linguagem OQL (Object Query Language)
Modelo de Dados Objeto-Relacional (SGBDOR)
–
Extensão do Modelo Relacional incorporando algumas das
funcionalidades do modelo Orientado a Objetos;
–
Extensão da linguagem SQL (SQL3);
O2
Jasmine
Ambiente Simplificado de
um Banco de Dados
Elmasri, R. A. and Navathe
A abordagem com
arquivos é indicada?
O banco de dados e as aplicações são
simples e bem definidas e não espera-se
alterações;
Há o requisito de tempo-real para alguns
programas, não encontrado com o uso de
SGBDs dada sua sobrecarga;
Não há necessidade de múltiplos acessos.
Banco de Dados
Flat file
Abordagem utilizando arquivos
Arquivos que contêm registros de dados que
não estão estruturalmente relacionados.
Exemplo: Banco de Dados
seqüências de nucleotídeos (nt)
flat
file
de
Possui um padrão específico de formatação
GenBank, Fasta, ASN.1 ...
É necessário um programa chamado de parser,
que reconhece esses formatos específicos e
conseguem extrair informação de forma
automática.
Ex.: Módulos da BioPerl (http://www.bioperl.org/)
Bancos de Dados para
Extração de Conhecimento
Data mining
Transformação
Integração dos Dados/
Pré-Processamento
Conhecimento
Seleção
Padrões
Databases
Dados
Data
warehouse
Revisão Histórica
Leroy Hood
Desenvolve o primeiro
seqüenciador automático
1986
1977
Gilbert & Sanger
Desenvolvem
métodos para o seqüenciamento de DNA
Sequenciamento de DNA
Sequenciamento manual x automático
CCCAACT...
Revisão Histórica
Iniciativa pública
Projeto Genoma Humano
Cancer Genome
Anatomy Project
1990
1988
National
Center for
Biotechnology
Information
Publicação
do rascunho
do Genoma
Humano
ACTACGACAT
ACGTACCTGC
TCACGAGACA
ACGATTACAA
CGAGAGTACG
GTACAGATAC
CGAGATAGAT
CCCAGAGTAA
TTAGTTAGAC
…
SAGE
1996
231
200
189
150
100
50
45
40
37
1995
microarray
1999
1997
2001
2000
Genoma
Xylella fastidiosa
Rede Organization for Nucleotide Sequencing and Analysis
Repositórios de Dados
Biológicos
1965 – Atlas of Protein Sequences and
Structure (Dayhoff et al.) - 1Mb
1982 – GenBank – 1988 – NCBI – National
Center for Biotechnology Information
1997 – EMBL – European Molecular
Biology Laboratory
1986 – DDBJ – DNA Data Bank of Japan
International Nucleotide
Sequence Database Colaboration
The Molecular Biology
Database Collection
A cada ano a 1 edição da revista Nucleic Acids Research é dedicada
aos Bancos de Dados Biológicos
Galperin MY. The Molecular Biology Database Collection: 2008 update. Nucleic Acids
Res. 2008 Jan;36(Database issue):D2-4.
Atualizações (2008)
1078 bancos de dados
 110 adicionais à versão anterior
 Links atualizados para 80 bancos de dados e 25
bancos de dados considerados obsoletos foram
removidos da lista.
A lista completa dos bancos de dados e uma breve
descrição estão disponíveis no site a revista
Nucleic Acids Research
http://nar.oxfordjournals.org/.
GenBank
Banco de Dados de Seqüências Genéticas do NIH
( http://www.ncbi.nlm.nih.gov/Genbank)
Repositório público de seqüências de nucleotídeos
Arquivamento de todos os dados de seqüências submetidos para
qualquer organismo.
~20.000 submissões diretas por mês
~200.000 submissões a granel por mês
Redundância de seqüências do mesmo locus
Análise de Polimorfismo
International Nucleotide Sequence Database Collaboration
Último Release 15/12/2007
80.388.382 seqüências (83.874.179.730 bp)
~ 250.000 diferentes organismos
GenPept
Banco de dados de traduções automáticas das regiões
codificadoras (CDS) das seqüências de nucleotídeos do GenBank®
Divisões do GenBank
primate sequences
ROD
rodent sequences
MAM
other mammalian sequences
VRT
other vertebrate sequences
INV
invertebrate sequences
PLN
plant, fungal, and algal sequences
BCT
bacterial sequences
VRL
viral sequences
PHG
bacteriophage sequences
SYN
synthetic sequences
UNA
unannotated sequences
EST
EST sequences (expressed sequence tags)
PAT
patent sequences
STS
STS sequences (sequence tagged sites)
GSS
GSS sequences (genome survey sequences)
HTG
HTG sequences (high-throughput genomic sequences)
HTC
unfinished high-throughput cDNA sequencing
ENV
environmental sampling sequences
CoreNucleotide
PRI
dbEST
Divisão
dbGSS
SIGLA
Organizada por Taxonomia
Submissões Diretas
Acurado (~1 error por 10.000 pb)
Bem Caracterizada
Organizada por tipo de
seqüência
Submissões a Granel
Não acurado
Não é bem caracterizada
RefSeq
Coleção de seqüências curadas de DNA, RNA e proteínas.
(http://www.ncbi.nlm.nih.gov/RefSeq)
Somente um único exemplar de seqüência para cada molécula.
Organismos: Plasmídeos, organelas, vírus, arqueobactérias, bactérias e
eucariotos
06/01/2007
4.926 taxons distintos
Genômicas: 1.387.692 (99.006.517.014)
RNAs: 1.211.414 (2.053.035.099)
Proteínas: 4.426.609 (1.556.356.987)
Status do Registro
GENOME ANNOTATION
INFERRED
MODEL
PREDICTED
PROVISIONAL
REVIEWED
VALIDATED
WGS
RefSeq
Accession
Moleule
Method
AP_123456
Protein
Mixed
NC_123456
Genomic
Mixed
NG_123456
Genomic
Mixed
NM_123456
NM_123456789
mRNA
Mixed
NP_123456
NP_123456789
Protein
Mixed
NR_123456
RNA
Mixed
NT_123456
Genomic
Automated
NW_123456
NW_123456789
Genomic
Automated
NZ_ABCD12345678
Genomic
Automated
XM_123456
XM_123456789
mRNA
Automated
XP_123456
XP_123456789
Protein
Automated
XR_123456
RNA
Automated
YP_123456
YP_123456789
Protein
Mixed
ZP_12345678
Protein
Automated
Mixed – processo automático e também de revisão.
GenBank versus RefSeq
GenBank
RefSeq
Não curado
Curado
Submissão do autor
Criado pelo NCBI a partir do GenBank
Somente o autor pode revisar
Múltiplos registros para o mesmo locus
Somente o autor faz a revisão
NCBI revisa cada novo registro
Múltiplos registros para os mesmos loci
Único registro para cada molécula de cada organismo
Registro podem entrar em contradições uns com os outros
Sem limites para espécies
Limitado a organismos modelos
Dados compartilhados entre os membros do INSDC
Exclusivo do NCBI
Assemelha-se à literatura primária
Assemelha-se à artigos de revisão
Proteínas identificadas e relacionadas
Proteínas e transcritos são identificados e relacionados
Acesso via NCBI Nucleotide database
Acesso via Nucleotide & Protein databases
Principais Formatos dos Bancos
de Dados Flat files do NCBI
COMMENT
gene
exon
REVIEWED
/GO_process="nitric
REFSEQ: This
1..626
366..626
oxide
record
transport
has been
[PMID
curated
8292032];
by NCBI
oxygen
staff. The
FASTA
GenBank
(Pearson)
reference/gene="HBB"
transport
sequence [PMID
was derived
1540659]
from
[PMID
L48217.1.
11747442]; positive
On Feb 11,
/note="hemoglobin,
regulation
/inference="alignment:Splign"
2003 thisof
sequence
nitric
beta;
version
oxide
synonyms:
biosynthesis
replaced
HBD,
gi:13788565.
CD113t-C"
[PMID
7965120];
LOCUS
>gi|28302128|ref|NM_000518.4|
NM_000518
Homo sapiens
626 bphemoglobin,
mRNA
linear
beta (HBB),
PRImRNA
27-JAN-2008
/db_xref="GeneID:3043"
transport“
/number=3
DEFINITION Homo sapiens hemoglobin, beta (HBB), mRNA.
ACATTTGCTTCTGACACAACTGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCATCTGACTCCTGA
polyA_signal
Summary: 602..607
/note="beta
Theglobin
/db_xref="HGNC:4827"
alpha chain"
(HBA) and beta (HBB) loci determine the
ACCESSION
GGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGGTGAACGTGGATGAAGTTGGTGGTGAGGCCCTGGGC
NM_000518
structure/gene="HBB"
/db_xref="HPRD:HPRD_00786"
/codon_start=1
of the 2 types of polypeptide chains in adult hemoglobin,
VERSION
AGGCTGCTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGTCCTTTGGGGATCTGTCCACTCCTGATG
NM_000518.4 GI:28302128
polyA_site
Hb A. The626
/db_xref="MIM:141900"
/product="beta
normal adult hemoglobin
globin"
tetramer consists of two alpha
KEYWORDS
CTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGC
.
exon
chains and
1..142
/protein_id="NP_000509.1"
/gene="HBB"
two beta chains. Mutant beta globin causes sickle cell
SOURCE
TCACCTGGACAACCTCAAGGGCACCTTTGCCACACTGAGTGAGCTGCACTGTGACAAGCTGCACGTGGAT
Homo sapiens (human)
anemia. Absence
/gene="HBB"
/db_xref="GI:4504349"
of beta chain causes beta-zero-thalassemia. Reduced
CCTGAGAACTTCAGGCTCCTGGGCAACGTGCTGGTCTGTGTGCTGGCCCATCACTTTGGCAAAGAATTCA
ORGANISM Homo sapiens
ORIGIN
amounts of
/inference="alignment:Splign"
/db_xref="CCDS:CCDS7753.1"
detectable beta globin causes beta-plus-thalassemia. The
CCCCACCAGTGCAGGCTGCCTATCAGAAAGTGGTGGCTGGTGTGGCTAATGCCCTGGCCCACAAGTATCA
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
1 acatttgctt
order of ctgacacaac
the genes in
/number=1
/db_xref="GeneID:3043"
tgtgttcact
the beta-globin
agcaacctca
cluster
aacagacacc
is 5'-epsilon
atggtgcatc
-CTAAGCTCGCTTTCTTGCTGTCCAATTTCTATTAAAGGTTCCTTTGTTCCCTAAGTCCAACTACTAAACT
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
CDS
61 tgactcctga
gamma-G -51..494
ggagaagtct
/db_xref="HGNC:4827"
gamma-A -gccgttactg
delta -- ccctgtgggg
beta--3'. caaggtgaac gtggatgaag
GGGGGATATTATGAAGGGCCTTGAGCATCTGGATTCTGCCTAATAAAAAACATTTATTTTCATTGC
Catarrhini; Hominidae; Homo.
121 ttggtggtga ggccctgggc
/gene="HBB"aggctgctgg tggtctaccc ttggacccag aggttctttg
/db_xref="HPRD:HPRD_00786"
REFERENCE
1 (bases 1 to 626)
181 agtcctttgg
Publication
ggatctgtcc
/GO_component="hemoglobin
/db_xref="MIM:141900"
Note: This
actcctgatg
RefSeq ctgttatggg
record
complex
includes
caaccctaag
[PMID
a 1540659]
subset
gtgaaggctc
of[PMID
the
AUTHORS
Ma,Q., Abel,K., Sripichai,O., Whitacre,J., Angkachatchai,V.,
241 atggcaagaa
publications
agtgctcggt
10588683]"
/translation="MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFE
that are
gcctttagtg
availableatggcctggc
for this gene.
tcacctggac
Pleaseaacctcaagg
see the
Makarasara,W., Winichagoon,P., Fucharoen,S., Braun,A. and
301 gcacctttgc
Entrez Gene
cacactgagt
/GO_function="heme
SFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPE
record to
gagctgcact
accessbinding;
additional
gtgacaagct
hemoglobin
publications.
gcacgtggat
binding
cctgagaact
[PMID
Farrer,L.A.
361 tcaggctcct
COMPLETENESS:
gggcaacgtg
1512262];
NFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH"
full iron
length.
ctggtctgtg
ion binding;
tgctggccca
metaltcactttggc
ion binding;
aaagaattca
oxygen
TITLE
Beta-globin gene cluster polymorphisms are strongly associated with
FEATURES
exon
421 ccccaccagt gcaggctgcc
Location/Qualifiers
143..365
binding [PMID
tatcagaaag
11747442];
tggtggctgg
oxygen transporter
tgtggctaat gccctggccc
activity [PMID
severity of HbE/beta(0)-thalassemia
source
481 acaagtatca ctaagctcgc
1..626
1971109] [PMID
/gene="HBB"
tttcttgctg
11747442];
tccaatttct
selenium
attaaaggtt
binding [PMID
cctttgttcc
JOURNAL
Clin. Genet. 72 (6), 497-505 (2007)
541 ctaagtccaa ctactaaact
/organism="Homo
15780970]"
/inference="alignment:Splign"
gggggatatt
sapiens"
atgaagggcc ttgagcatct ggattctgcc
PUBMED
17894837
601 taataaaaaa catttatttt
/mol_type="mRNA"
/number=2
cattgc
REMARK
GeneRIF: Forty-five SNPs within the interval including the LCR
//
/db_xref="taxon:9606"
region and the delta gene showed strong association with disease
/chromosome="11"
severity.
/map="11p15.5"
Formato Padrão ASN.1
Abstract Syntax Notation One
International Standards Organization (ISO)
Linguagem formal para a definição de tipos de
dados abstratos
NCBI
define
as
especificação
para
o
armazenamento de seqüências de nucleotídeos,
proteínas, estruturas, genomas, etc.
Seq-entry ::= set {
level 1 ,
class nuc-prot ,
descr {
user {
type
str "RefSeqGene" ,
data {
{
label
str "Status" ,
data
str "Reference Standard" } } } ,
…
Formato XML
Standard Generalized Markup Language (SGML)
eXtensible Markup Language
Recomendação da W3C para gerar linguagens de marcação
para necessidades especiais
Intercâmbio de dados estruturados.
Similar à HyperText Markup Language (HTML)
Document Type Definition (DTD) – especificação da estrutura
Modular
<?xml version="1.0"?>
<!DOCTYPE Seq-entry PUBLIC "-//NCBI//NCBI Seqset/EN" "http://www.ncbi.nlm.nih.gov/dtd/NCBI_Seqset.dtd">
<Seq-entry>
<Seq-entry_set>
<Bioseq-set>
<Bioseq-set_level>1</Bioseq-set_level>
<Bioseq-set_class value="nuc-prot"/>
<Bioseq-set_descr>
<Seq-descr>
<Seqdesc>
<Seqdesc_user>
<User-object>
<User-object_type>
<Object-id>
<Object-id_str>RefSeqGene</Object-id_str>
…
UniGene
Sistema analítico automatizado para produzir uma visão organizada do transcriptoma.
(http://www.ncbi.nlm.nih.gov/UniGene/)
Contribuição Expressed Sequence Tags (ESTs)
Pode auxiliar na identificação de uma seqüência não anotada por similiaridade
Análise de Expressão Gênica Diferencial
Digital Differential Display (DDD)
Agrupamento (Clusterização)
Eliminar resquícios de vetores, primer (iniciadores), linkers (adaptadores)
Excluir seqüências mitocondriais e de rRNA
Mascarar seqüências repetitivas (baixa complexidade) e elementos repetitivos
transponíveis (transposons)
Somente seqüências com mais de 100 pb de alta qualidade não repetitiva
Alinhamento de seqüências (Megablast)
Sobreposição com um nível tolerável de mismatch
Cluster pode conter mais de uma forma alternativa do gene
Cluster ancorado final 3’ (cauda e/ou sinal poli-A ou, 2 ESTs [primer 3’])
UniGene
Hs build 209
Tamanho
Quantidade
32769-65536
1
16385-32768
4
8193-16384
19
4097-8192
59
2049-4096
215
1025-2048
739
513-1024
1882
257-512
3990
129-256
4508
65-128
3935
33-64
3919
17-32
5090
9-16
8107
5-8
13349
3-4
18126
2
19078
1
40756
query
5’ EST hits
3’ EST hits
Digital Differential Display
(DDD) Gene LIPE
Nomes e Símbolos de
Genes
HUGO Gene Nomenclature Committee (HGNC)
(http://www.genenames.org/)
Genes humanos
Aprovação de um nome e símbolo (abreviação) único.
Exemplo:
CSE1L CSE1 chromosome segregation 1-like (yeast)

XPO1 exportin 1 (CRM1 homolog, yeast)

XPO4 exportin 4

XPO5 exportin 5

XPO6 exportin 6

XPO7 exportin 7

XPOT exportin, tRNA (nuclear export receptor for tRNAs)

XPOTP1 exportin, tRNA (nuclear export receptor for tRNAs) pseudogene 1
Homólogo XP01


Xpo1 - exportin 1, CRM1 homolog (yeast) [Mus musculus]
Mouse Genome Informatics (MGI)
Mouse Genomic Nomenclature Committee (MGNC)
Zebrafish Nomenclature Committee(ZNC)
…
Repositórios para
Seqüências de Proteínas
UniProt – Universal Protein Resource
(Swiss-Prot, TrEMBL e PIR)
HBB – Hemoglobin Beta
(http://beta.uniprot.org/)
•
P68871
UniRef100_P68871
UniRef90_P68871
UniRef50_P02042
UPI00000015C9
Repositórios de Dados Biológicos
(Estrutura de Proteínas)
PDB – Protein Data Bank
(http://www.rcsb.org/pdb/)
DEOXY HUMAN HEMOGLOBIN
PDB: 1A3N
Repositórios de Dados Biológicos
(Gene Ontology)
Projeto colaborativo para tratar da necessidade de descrições
consistentes de produtos gênicos em diferentes bancos de dados.
(http://www.geneontology.org)
Termos do GO (diferentes níveis de especificidade)
Componente Celular
Ex.: Retículo Endoplasmático Rugoso, núcleo, ribossomo, etc.
Processo Biológico
Processo celular fisiológico, transdução de sinal, metabolismo de pirimidinas,
etc.
Função Molecular
Atividade catalítica, atividade de adenilato ciclase, atividade de álcool
desidrogenase, etc.
Estrutura dos termos
Grafo direcionado acíclico (Similar a uma hierarquia, porém nesse caso um filho pode
ter mais de um pai)
Is_a - A is a B ( A é subclasse de B )
nuclear chromosome is_a chromosome
Part_of – C part of D ( C é parte de D, mas não necessariamente D deve possuir C)

Repositórios de Dados Biológicos
(Gene Ontology)
GO Identifier
Exemplos
GO:0005623 (Cell)
GO:0005104 (Fibroblast growth factor
receptor binding)
GO:0007165 (Signal transduction)
Banco de Dados
OBO (Open Biomedical Ontologies) Flat File
Repositórios de Dados Biológicos
(Gene Ontology)
Grafo Direcionado Acíclico (DAG)
Termo mais abrangente para um termo mais específico
Repositórios de Dados Biológicos
(Vias metabólicas)
KEGG – Kyoto Encyclopedia of Genes and
Genome (http://www.genome.ad.jp/kegg/)
Via de sinalização MAPKinase
(hsa04010)
•
BioCarta (http://www.biocarta.com/genes/allpathways.asp)
Via de sinalização MAPKinase
(h_mapkPathway)
Bancos de Dados
de Expressão Gênica
GEO (Gene Expression
Omnibus)
(http://www.ncbi.nlm.nih.gov/geo/)
Início em 1999
Suporte a muitos tipos de
dados
Gene Expression Omnibus
(Arquitetura)
Plataforma (Platform) (GPL)
Base para os experimentos com determinado configuração utilizando certa
tecnologia.
Família (Family)
Accession
•
Organism(s)
Title
GPL4
396Homo sapiens
SAGE:10:NlaIII:Homo sapiens
GPL6
15Homo sapiens
SAGE:10:Sau3A:Homo sapiens
GPL1485
34Homo sapiens
SAGE:17:NlaIII:Homo sapiens
Amostra (Sample) (GSM)
–
Descrição do material biológico e condições experimentais. sobre o qual a
amostra foi manipulada e os valores de expressãõ gênica.
Accession
•
Samples
Title
GSM14735
SAGE_Pancreas_carcinoma_CL_ASPC
GSM14736
SAGE_Pancreas_carcinoma_CL_PL45
GSM14737
SAGE_Brain_astrocytoma_grade_II_B_H359
Série (Series) (GSE)
–
Organiza as amostras em conjuntos considerados serem parte de um
experimento..
Accession
GSE14
Title
CGAP SAGE
Gene Expression Omnibus
(Implementação)
Banco de Dados Relacional
Não armazena imagens cruas de experimentos
(raw image data)
Armazenamento
BLOB (tipo de dados - texto compactado)
Dados (Atributos)
GEO
- obrigatórios
 Identificação do clone
 Número de Acesso
Submitter - opcionais
Gene Expression Omnibus
(Recuperando Informação)
Web Queries
GPLXXXX
GSMXXXX
GSEXXXX
Gene Expression Omnibus
(Ferramenta de Busca)
Gene Expression Omnibus
(Data-mining)
GEO DataSets (GDS)
(http://www.ncbi.nlm.nih.gov/sites/entrez?db=gds)
Visão do GEO centrada no experimento
Series – conjunto de amostras definido pelo autor
Datasets – conjunto de amostras estatísticamente comparáveis processadas
sob a mesma plataforma.
Formato dos Dados
•
SOFT
- Simple
Omnibus
MINiML
– MIAME
NotationFormaT
in Markup Language
–
XML Schema
Arquivo
texto (Validação
(ASCII) XSD)
<Platform iid="GPL4">
<Data-Processing />
<Accession database="GEO">GPL4</Accession>
<Platform-Ref ref="GPL4" />
</Platform>
<?xml
version="1.0"
standalone="no"
?>
^SAMPLE
= GSM14737encoding="UTF-8"
<Contact-Ref
ref="contrib1"
/>
!Sample_description
= Keywords = brain
<Sample
iid="GSM14737">
!sample_table_begin
<MINiML
xmlns="http://www.ncbi.nlm.nih.gov/projects/geo/info/MINiML"
!Sample_title
= SAGE_Brain_astrocytoma_grade_II_B_H359
<Supplementary-Data
type="unknown">NONE</Supplementary-Data>
!Sample_description
= Keywords
= non-normalized
TAG<Status
COUNT database="GEO">
TPM
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
!Sample_geo_accession
=Keywords
GSM14737= bulk
<Data-Table>
!Sample_description
=
<Submission-Date>2003-12-31</Submission-Date>
CTAAGACTTC
1237
11695.8511
xsi:schemaLocation="http://www.ncbi.nlm.nih.gov/projects/geo/info/MINiML
MINiML.xsd" version="0.2">
!Sample_status
= Public
on Jan 02
2004
<Column
position="1">
!Sample_description
= Keywords
= astrocytoma
grade II
<Release-Date>2004-01-02</Release-Date>
CCCATCGTCC
921
8708.0670
<Contributor
iid="contrib1">
!Sample_submission_date
= Dec 31=2003
<Name>TAG</Name>
!Sample_description
= Keywords
short SAGE
CAAGCATCCC
660 6240.3086
<Person> <Description>Ten
!Sample_last_update_date
= May
28 SAGE
2005 tag,</Description>
base
!Sample_platform_id
=
GPL4
<Last-Update-Date>2005-05-28</Last-Update-Date>
AGCCCTACAA
637
<First>Cancer
Genome
Anatomy
Project</First>
!Sample_type
= SAGE6022.8433
<Link!Sample_contact_name
=
Cancer
Genome
Anatomy Project,,CGAP
</Status>
TTCATACACC
576
5446.0875
<Last>CGAP</Last>
!Sample_anchor
= NlaIII= [email protected]
Prefix>http://www.ncbi.nlm.nih.gov/SAGE/index.cgi?cmd=tagsearch&anchor=NLAIII&org=Hs&tag=</Link-Prefix>
!Sample_contact_email
<Title>SAGE_Brain_astrocytoma_grade_II_B_H359</Title>
AAAACATTCT
547 5171.8921
</Person>
!Sample_tag_length
= 10= 301-496-1550
</Column>
!Sample_contact_phone
<Accession
ATAATTCTTT
438database="GEO">GSM14737</Accession>
4141.2957
<Email>[email protected]</Email>
!Sample_tag_count
=
105764 = Cancer Genome Anatomy Project
<Column
position="2">
!Sample_contact_department
<Type>SAGE</Type>
CACCTAATTG
426 4027.8356
<Phone>301-496-1550</Phone>
!Sample_channel_count
= 1 = National Cancer Institute
<Name>COUNT</Name>
!Sample_contact_institute
<Anchor>NlaIII</Anchor>
TTGGGGTTTC
424 4008.9255
<Department>Cancer
Genome
Anatomy Project</Department>
!Sample_source_name_ch1
== astrocytoma
grade
II
<Description>Absolute
tag count</Description>
!Sample_contact_address
<Tag-Length>10</Tag-Length>
GTTGTGGTTA
391 3696.9101
<Organization>National
Cancer
Institute</Organization>
!Sample_organism_ch1
=
Homo
sapiens
</Column> = Bethesda
!Sample_contact_city
<Tag-Count>105764</Tag-Count>
TTGGTCCTCT
368 3479.4448
<Address>
!Sample_molecule_ch1
= =
total
<Column position="3">
!Sample_contact_state
MD RNA
<Channel-Count>1</Channel-Count>
TTTAACGGCC
364 3441.6247
<City>Bethesda</City>
!Sample_description
=
Producer:
Jennifer
<Name>TPM</Name>
!Sample_contact_zip/postal_code
= 20852 B. Edwards
<Channel
position="1">
TGCACTTCAA
355
3356.5296
<State>MD</State>
!Sample_description
=
Tissue
description:
brain or (1000000*COUNT)/(Total tags)</Description>
<Description>Tags
million,
!Sample_contact_country
= USAgrade per
<Source>astrocytoma
II</Source>
TGATTTCACT
339
3205.2494
<Zip-Code>20852</Zip-Code>
!Sample_description
supplier: Duke Tissue Bank
</Column>= Tissue
!Sample_contact_web_link
= http://cgap.nci.nih.gov/
<Organism>Homo
sapiens</Organism>
GTGACCACGG
305 2883.7790
<Country>USA</Country>
!Sample_description
= Sample
type:
<Internal-Data
rows="20">CTAAGACTTC
1237 11695.8511 CCCATCGTCC 921 8708.0670 CAAGCATCCC 660
!Sample_supplementary_file
=
NONE bulk
<Characteristics>none</Characteristics>
TTCAATAAAA
295 2789.2288
</Address>
!Sample_description
=GSE14
Other
information:
Grade 576
II 5446.0875 AAAACATTCT 547 5171.8921 ATAATTCTTT 438
6240.3086
AGCCCTACAA
637
6022.8433
TTCATACACC
!Sample_series_id
=
<Molecule>total
RNA</Molecule>
TACCATCAAT
288 2723.0438
<Web-Link>http://cgap.nci.nih.gov/</Web-Link>
\ 4008.9255
!Sample_description
= 426
Laboratory:
Gregory
Riggins,
Duke University
Medical
4141.2957
CACCTAATTG
TTGGGGTTTC
424
GTTGTGGTTA
391Center
3696.9101 TTGGTCCTCT 368
!Sample_data_row_count
= 4027.8356
35555
</Channel>
AGGTGGCAAG
287
2713.5887
</Contributor>
!Sample_description
= 364
This3441.6247
library represents
Cancer
GenomeTGATTTCACT
Anatomy Project
library GTGACCACGG
, which was305
3479.4448
TGCACTTCAAa355
3356.5296
339 3205.2494
#TAG<Description>Producer:
= TenTTTAACGGCC
base SAGE
tag,
Jennifer
B.orEdwards
Tissue
description: brain Tissue supplier: Duke Tissue
TTGGTGAAGG
273 through
2581.2186
<Database
iid="GEO">
either
produced
CGAP
funding,
donated
to2723.0438
CGAP.
2883.7790
TTCAATAAAA
295
2789.2288
TACCATCAAT
288
AGGTGGCAAG 287 2713.5887 TTGGTGAAGG 273
LINK_PRE:"http://www.ncbi.nlm.nih.gov/SAGE/index.cgi?cmd=tagsearch&anchor=NLAIII&org=Hs&tag="
Bank
Sample type:
bulk
Other
information:
Grade II
Laboratory:
Riggins, Duke University
CCACTGCACT
262
2477.2134
<Name>Gene
Expression
Omnibus
(GEO)</Name>
!Sample_description
= 262
The
Cancer
Genome Anatomy
Project
(CGAP: Gregory
http://cgap.nci.nih.gov)
is an Medical
2581.2186
CCACTGCACT
2477.2134</Internal-Data>
#COUNT
= Absolute
tag
count
Center
This
library
represents
a
Cancer
Genome
Anatomy
Project
library
,
which
was
either
produced
!sample_table_end
<Public-ID>GEO</Public-ID>
interdisciplinary
program or
established
and administered
by the National Cancer Institute (NCI:
#TPM
=</Data-Table>
Tags funding,
per million,
(1000000*COUNT)/(Total
tags)
through
CGAP
or
donated
to
CGAP.
The
Cancer
Genome
Anatomy
Project
(CGAP:
<Organization>NCBI
NLMtoNIH</Organization>
http://www.nci.nih.gov)
generate the information and technological tools needed to decipher the
</Sample>
http://cgap.nci.nih.gov)
is
an interdisciplinary
program established and administered by the National
<Web-Link>http://www.ncbi.nlm.nih.gov/geo</Web-Link>
molecular
anatomy
of
the
cancer
cell.
</MINiML>
Cancer
Institute
(NCI:
http://www.nci.nih.gov)
to
generate the information and technological tools
<Email>[email protected]</Email>
needed
to
decipher
the
molecular
anatomy
of
the
cancer
cell. Keywords = brain Keywords = non-normalized
</Database>
Keywords = bulk Keywords = astrocytoma grade II Keywords = short SAGE</Description>
SAGEmap
Repositório para os dados de SAGE do NCBI
(http://www.ncbi.nlm.nih.gov/SAGE/)
Ferramentas de consulta e análise
Ferramentas: Virtual Northern / SAGE xProfiler
Mapeamento TAG-Gene (UniGene)
Lash AE, Tolstoshev CM, Wagner L, Schuler
GD, Strausberg RL, Riggins GJ, Altschul SF.
SAGEmap: a public gene expression
resource. Genome Res. 2000 Jul;10(7):105160.
SAGE Genie
Repositório para os dados de SAGE do CGAP (Somente Hs e Mm)
(http://cgap.nci.nih.gov/SAGE)
Ferramentas de consulta e análise
Ferramentas: SAGE Anatomic Viewer / Digital Northern / SAGE Digital Gene
Expression Displayer/ …
Mapeamento TAG-Gene
Arquivos SAGE Genie
(ftp://ftp1.nci.nih.gov/pub/SAGE/HUMAN)
- Hs.libraries
numeric library id [unique key]
old library name
new library name
total tags including linker
total tags after elimination of linker
unique tags
library quality ('1' if good)
organ/tissue
tissue preparation
cell type
keywords
patient age
patient sex
mutations
other information
tagging enzyme
anchoring enzyme
tissue or cell line supplier
library producer
laboratory
references
- Hs_short.datasets
database rank order [unique key]
database id
database name
total cDNAs
has polyA signal?
has polyA tail?
tag position [ordinal position, 1 = closest
to 3' end]
percent tags in confident tag list
- Hs_short.map
tag
database rank order
accession
UniGene cluster number
- Hs_short.best_gene
tag [unique key]
UniGene cluster number
symbol
title
cytogenetic location
- Hs_short.best_tag
UniGene cluster number [unique key]
tag
symbol
title
cytogenetic location
- Hs_short.frequencies
tag
numeric library id
frequency
- Hs_short.confident
tag [unique key]
frequency
- Hs_short.no_anchor
accession of transcript with no anchor site
- Hs_short.repetitive
tag [unique key]
number of transcripts in which tag is found
H2G: Hyper & Hypo
Expressed Genes
Repositório de dados de Expressão Gênica
(http://gdm.fmrp.usp.br/h2g/)
Técnicas
SAGE, Microarrays, MPSS
Organismos:
Homo sapiens (humano)
Mus musculus (camundongo)
Rattus novergicus (rato)
Apis mellifera (abelha)
Análises de Expressão Gênica Diferencial
SAGEci (Vêncio et al., 2003)
Correlation metric P (Slonim et al., 2000)
Fold Change (Razão)
Difference (Diferença)
Acesso aos serviços
HTTP (interno/externo)
CORBA (interno) (BiT::Inter)
SOAP (interno/externo) (SOAP::Lite e BiT::Inter)
Referências
Date, C. J. 2003. An Introduction to Database Systems. Addison-Wesley
Longman Publishing Co., Inc.
Elmasri, R. A. and Navathe, S. B. 2003. Fundamentals of Database
Systems. Addison-Wesley Longman Publishing Co., Inc.
CMPUT 695 - Principals of Knowledge Discovery In Data
(http://www.cs.ualberta.ca/~zaiane/courses/cmput690/notes/Chapter1/in
dex.html)
Wheeler DL, Church DM, Federhen S, Lash AE, Madden TL, Pontius JU,
Schuler GD, Schriml LM, Sequeira E, Tatusova TA, Wagner L. Database
resources of the National Center for Biotechnology. Nucleic Acids Res.
2003 Jan 1;31(1):28-33.
NCBI Field Guide - (http://www.ncbi.nlm.nih.gov/Class/FieldGuide/)
Wikipedia (http://en.wikipedia.org/)
NCBI-HandBook
(http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&ri
d=handbook.TOC&depth=2)
Perguntas...
Daniel Guariz Pinheiro
[email protected]
http://scarecrow.fmrp.usp.br/~daniel/
MUITO OBRIGADO !!!
Descargar

Bancos de Dados Biológicos I