Escrita de Artigos Científicos
Mirella M. Moro
[email protected]
w w w. d c c . u f m g . b r / ~ m i r e l l a
[email protected]
2
PARTE 1
INTRODUÇÃO
Fazer Pesquisa
Prepara para decorar o próximo slide
[email protected]
4
Enquanto estiver
•
•
•
•
•
•
•
Pensando
Planejando
Escrevendo
Apresentando
Discutindo
Reunindo
Argumentando
Contexto
Problema
Solução
CON-PROSA:
[email protected]
Avaliação
5
Contexto
Problema
Solução
Avaliação
• Contexto geral
• Contexto específico [estado da arte]
• O que *não* funciona?
• O que pode melhorar?
• Contribuição
• Como resolver o problema
• É bom? É melhor?
• [Nem] Sempre: Quando? Por quê?
[email protected]
6
Contribuições por TUDO!!!!
Contexto
Problema
Solução
Avaliação
• X atual > novo contexto
• X atual > novo problema
• X atual > nova solução
• Solução atual > melhorias
• Diferentes avaliações > X atual
[email protected]
7
[email protected]
8
Contribuições por TUDO!!!!
Contexto
• Dados relacionais > streams
• Dados relacionais > móveis
Problema
• Dados relacionais > semiestruturado
• Dados relacionais > big data analysis
Solução
Avaliação
• Mais comum
• Escolha qualquer um e avalie em:
paralelo, distribuído, grandes volumes,
map-reduce, novos hardwares, ...
[email protected]
9
Exemplo [ ZHANG et al @ SIGMOD 1996 ]
Contexto Finding useful patterns in large datasets has attracted considerable interest
recently,
Problema and one of the most widely studied problems in this area is the identification of
clusters, or densely populated regions, in a multi-dimensional dataset. Prior work
does not adequately address the problem of large datasets and minimization of I/O
costs.
Solução This paper presents a data clustering method named BIRCH (Balanced Iterative
Reducing and Clustering using Hierarchies), and demonstrates that it is especially
suitable for very large databases.
(Detalhes) BIRCH incrementally and dynamically clusters incoming multi-dimensional metric
data points to try to produce the best quality clustering with the available
resources (i.e., available memory and time constraints). BIRCH can typically find a
good clustering with a single scan of the data, and improve the quality further with
a few additional scans. BIRCH is also the first clustering algorithm proposed in the
database area to handle “noise” (data points that are not part of the underlying
pattern) effectively.
Avaliação We evaluate BIRCH’s time/space efficiency, data input order sensitivity, and
clustering quality through several experiments. We also present a performance
comparison of BIRCH versus CLARANS, a clustering method proposed recently for
laerge datasets, and show that BIRCH is consistently superior.
[email protected]
10
Conectar as Ideias: *não* é fácil
Título: keyword1 keyword2
Contexto &
Relacionados
Resumo:linha1 linha2 linha3
Problema
Intro: par1 par2 par3 par4
Solução 1
Solução 2
Avaliação
Conclusão: par1
[email protected]
par2 par3
11
ERGO
ESTE CURSO
ROTEIRO
2. PLANEJAMENTO
3. INÍCIO
4. CENTRO
5. FIM
6. DICAS DE ESTILO E REVISÃO
PS: na dúvida, vá à nossa biblioteca
[email protected]
14
PARTE 2
PLANEJAMENTO
As complexidades da tarefa
• Como tornar um interesse vago em um problema
merecedor de apresentação e solução
• Como construir um argumento que motiva leitores a
aceitar o que você diz
• Como antecipar dúvidas de atentos mas críticos
leitores e como respondê-las apropriadamente
• Como criar uma introdução e conclusão que
respondam à pergunta mais difícil delas, E eu com isso?
• Como ler sua própria escrita como outros irão, e então
aprender quando e como revisá-la
FONTE: Booth, Colomb, Williams – The Craft of Research
16
1. Defina o Objetivo
1. Tópico: Estou pesquisando ______
2. Questão: a fim de descobrir o
que/como/por que ______,
3. Relevância: para ajudar
outros a entender ________.
FONTE: Booth, Colomb, Williams – The Craft of Research
17
Defina o Objetivo
FONTE: Booth, Colomb, Williams – The Craft of Research
18
Defina o Objetivo
FONTE: Booth, Colomb, Williams – The Craft of Research
19
2. Defina o Espectro
• Risco = tópico tão abrangente como uma
entrada de enciclopédia
• Voo espacial, a sua história
• Shakespeare, peças problemáticas
• Tópico é geralmente muito abrangente se
escrito em 4 ou 5 palavras:
FONTE: Booth, Colomb, Williams – The Craft of Research
20
De tópico abrangente a específico
• Com um tópico muito abrangente, você pode ficar
intimidado pela ideia de encontrar, muito menos ler,
sequer uma fração das fontes disponíveis
• Então, deve-se reduzi-lo
FONTE: Booth, Colomb, Williams – The Craft of Research
21
3. Planeje a Escrita
Entenda seu público alvo
• Pense em seu público alvo desde o início,
sabendo que você os entenderá melhor à
medida que desenvolve seu projeto
• Responda as próximas perguntas cedo, então
as revisite quando começar a escrever e de
novo quando revisar o texto
FONTE: Booth, Colomb, Williams – The Craft of Research
22
Checklist para entender seus leitores
1. Quem lerá seu texto?
• Profissionais? Alunos? Torcida do Atlético?
• Leitores que estão bem informados?
• Leitores que sabem pouco sobre o tópico?
FONTE: Booth, Colomb, Williams – The Craft of Research
23
Checklist para entender seus leitores
2. Eles esperam que faça o que pretende fazer?
Deveria...
• Diverti-los?
• Apresentar novo conhecimento baseado em
fatos?
• Ajudá-los a entender alguma coisa melhor?
• Ajudá-los a fazer algo para resolver um
problema prático no mundo?
FONTE: Booth, Colomb, Williams – The Craft of Research
24
Checklist para entender seus leitores
3. Quanto se espera que eles saibam?
• O que eles sabem sobre seu tópico?
• Qual interesse especial eles têm nele?
• O que eles esperam que seja discutido?
• O problema já é conhecido deles?
• É um problema existente mas que eles ainda não
reconhecem?
• É problema apenas seu, e não deles?
• Eles irão levar o problema a sério automaticamente, ou
deve trabalhar para convencê-los de que é importante?
FONTE: Booth, Colomb, Williams – The Craft of Research
25
Checklist para entender seus leitores
4. Como os leitores responderão ao seu trabalho?
• Irá contradizer o que eles já acreditam? Como?
• Eles terão algum argumento padrão contra a solução?
• Eles desejarão ver todos os passos que levaram à
solução?
• Eles esperam que o texto siga um formato padrão? Se
sim, qual?
FONTE: Booth, Colomb, Williams – The Craft of Research
26
Planejamento: Exemplo Real
ACM SAC/
CSBC
• XML Database
• XML Query Processing
• RoXSum
SIGMOD/
SBBD
• XML Query Filtering
• XML Routing
• RoXSum
WebDB
• XML Routing
• RoXSum
• Algorithms
[email protected]
+GENÉRICO
+BACKGROUND
+ESPECÍFICO
+DETALHES
27
Planejamento em 1 slide
PRONTO
• Título
• Autor (es)
• Resumo
• Introdução
• Corpo
• Conclusão
• Referências
A FAZER
• Quem irá ler seu texto?
evento, periódico, orientador, alunos, banca
• Eles esperam que faça o que pretende
fazer?
contexto, novidade, contribuição, surpresa (twist)
• Quanto se espera que eles saibam?
profundidade/largura, background, público
• Como responderão aos problemas e
soluções apresentados?
[email protected]
28
PARTE 3
COMPONENTES INICIAIS
Componentes
Fluxo
Título: keyword1 keyword2
Contexto
Trabalhos
Relacionados
Resumo:line1 line2 line3
Intro: par1 par2 par3 par4
Solução 1
Solução 2
Avaliação
Conclusão:par1
[email protected]
par2 par3
31
TÍTULO
• Referência principal ao
trabalho
• Chave para ser
referenciado
• Reflete o conteúdo do
trabalho
• Claro, curto, correto
– Nome, não uma frase,
original
– Primeira coisa a se
escrever??
[email protected]
32
Título: exemplos brasileiros
• Unsupervised Information Extraction by Text
Segmentation E. CORTEZ @ SBC CTD 2013 – 1º lugar doutorado
• Data Mining in Large Sets of Complex Data
R. CORDEIRO @ SBC CTD 2012 – 1º lugar doutorado
• Análise de Dados de expressão gênica: normalização de
microarrays e modelagem de redes regulatórias
A.FUJITA @ SBC CTD 2008 – 1º lugar doutorado
• Low Cost BIST Techniques for Linear and Non-Linear
Analog Circuits M. NEGREIROS @ DATE 2006 – dissertation award
• Updating relations through XML Views
V. BRAGANHOLO @ SBC CTD 2005 – 1º lugar doutorado
• Operadores de Seleção por Similaridade para Sistemas de
Gerenciamento de Bases de Dados Relacionais
A.S. ARANTES @ SBBD 2003 – best paper award
[email protected]
33
Utilizar um nome ajuda...
[email protected]
34
Título: exemplos
Clássicos e Novos Clássicos
• The Entity-Relationship Model: Toward a Unified View of
Data PETER CHEN @ VLDB 1975
• Marching cubes: A high resolution 3D surface construction
algorithm W.E. LORENSEN @ SIGGRAPH 1987
• BIRCH: An Efficient Data Clustering Method for Very Large
Databases T. ZHANG et al @ SIGMOD 2006
• Bigtable: A distributed storage system for structured data
F. CHANG et al @ ACM TOCS 2008
• MapReduce: simplified data processing on large clusters
J. DEAN & S. GHEMAWAT @ CACM 2008
[email protected]
35
Trabalhar em grupo é
uma faca de dois gumes
[email protected]
36
AUTOR (es)
• Nome completo (“artístico”) + filiação + email
• Ordem dos autores??
– Não há regra padrão aceita globalmente
• André Silva, Bento Muniz, Carlos Costa
• Carlos Costa, Bento Muniz, André Silva
• Bento Muniz, Carlos Costa, André Silva
Aluno “dono” tese
Bolsista
[email protected]
Orientador
37
www.phdcomics.com
[email protected]
38
RESUMO
• Um parágrafo 150-250 palavras
–Propaganda ou trailer do artigo
–Atrai (ou não!) a atenção e o interesse
do leitor
[email protected]
39
Resumo
• Sempre menciona informações ou
conclusões que estão no texto
• Sem referências bibliográficas (exceto em
ocasiões raras, como modificações a um método
publicado previamente)
• Primeiro a ser escrito: planejamento
• Último a ser escrito: ideia melhor
[email protected]
40
Resumo = problema +
uma boa solução.
Contra exemplo:
[email protected]
41
Resumo
• Sugestão 1 (uma ou duas linhas para cada
item)
– Escopo do trabalho
– Principais objetivos
– Principal resultado ou conclusão
[email protected]
42
Resumo: exemplo
Contexto
Problema/
Solução
Avaliação
Structural summaries are data structures that
preserve all structural features of XML
documents in a compact form. We investigate
the applicability of the most popular summaries
as access methods within XML query processing.
In this context, issues like space and false
positives introduced by the summaries need to
be examined. Our evaluation reveals that the
additional space required by the more precise
structures is usually small and justified by the
considerable performance gains that they
achieve.
MORO et al – WWW 2006
[email protected]
43
Resumo
• Sugestão 2 (uma a três linhas para cada item)
– Contexto geral e específico
– Questão/problema sendo investigado
• Propósito do trabalho
– Estado-da-arte
• Por que precisa de uma solução nova/melhor
– Solução
• Nome da proposta
• Metodologia básica sem detalhes
• Quais características respondem as questões iniciais
– Interpretação dos resultados, conclusões
[email protected]
44
Resumo: exemplo
Contexto A Web é abundante em páginas que armazenam dados de forma
implícita.
Problema Em muitos casos, estes dados estão presentes em textos
semiestruturados sem a presença de delimitadores explícitos e
organizados em uma estrutura também implícita.
Solução Neste artigo apresentamos uma nova abordagem para extração em
textos semi-estruturados baseada em Modelos de Markov Ocultos
(Hidden Markov Models - HMM).
e Estado-da- Ao contrário de outros trabalhos baseados em HMM, nossa
Arte abordagem dá ênfase à extração de metadados além dos dados
propriamente ditos. Esta abordagem consiste no uso de uma
estrutura aninhada de HMMs, onde um HMM principal identifica os
atributos no texto e HMMs internos, um para cada atributo,
identificam os dados e metadados. Os HMMs são gerados a partir de
um treinamento com uma fração de amostras da base a ser extraída.
Nossos experimentos com anúncios de classificados retirados da
Avaliação
Web mostram que o processo de extração alcançáveis de qualidade
acima de 0,97 com a medida F, mesmo se esta fração de treinamento
é pequena.
SANTOS et al @ SBBD 2006
[email protected]
45
Resumo: exemplo
Contexto Geral Publish-subscribe applications are an important class of content-based
dissemination systems where the message transmission is defined by
the message content, rather than its destination IP address.
With the increasing use of XML as the standard format on many
Contexto Internet-based applications, XML aware pub-sub applications become
Específico necessary. In such systems, the messages (generated by publishers)
are encoded as XML documents, and the profiles (defined by
subscribers) as XML query statements.
Problema As the number of documents and query requests grow, the
performance and scalability of the matching phase (i.e. matching of
queries to incoming documents) become vital.
Estado-da-arte Current solutions have limited or no flexibility to prune out queries in
advance.
Solução In this paper, we overcome such limitation by proposing a novel early
pruning approach called Bounding-based XML Filtering or BoXFilter.
The BoXFilter is based on a new tree-like indexing structure that
Método organizes the queries based on their similarity and provides lower and
proposto upper bound estimations needed to prune queries not related to the
incoming documents.
Avaliação Our experimental evaluation shows that the early profile pruning
approach offers drastic performance improvements over the current
state-of-the-art in XML filtering.
MORO et al @ VLDB 2007
[email protected]
46
Resumo: exemplo
Contexto e Finding useful patterns in large datasets has attracted considerable interest
Problema recently, and one of the most widely studied problems in this area is the
Estado-da-arte
Solução
Método
Vantagens
Avaliação
identification of clusters, or densely populated regions, in a multidimensional dataset.
Prior work does not adequately address the problem of large datasets and
minimization of I/O costs.
This paper presents a data clustering method named BIRCH (Balanced
Iterative Reducing and Clustering using Hierarchies), and demonstrates that it
is especially suitable for very large databases.
BIRCH incrementally and dynamically clusters incoming multi-dimensional
metric data points to try to produce the best quality clustering with the
available resources (i.e., available memory and time constraints).
BIRCH can typically find a good clustering with a single scan of the data, and
improve the quality further with a few additional scans. BIRCH is also the
first clustering algorithm proposed in the database area to handle “noise”
(data points that are not part of the underlying pattern) effectively.
We evaluate BIRCH’s time/space efficiency, data input order sensitivity, and
clustering quality through several experiments. We also present a
performance comparisons of BIRCH versus CLARANS, a clustering method
proposed recently for laerge datasets, and show that BIRCH is consistently
superior.
ZHANG et al – SIGMOD 1996
[email protected]
47
Resumo: exemplo
Contexto Today’s cloud-based services integrate globally distributed resources into
Problema
Solução
Método
Avaliação
seamless computing platforms.
Provisioning and accounting for the resource usage of these Internet-scale
applications presents a challenging technical problem.
This paper presents the design and implementation of distributed rate limiters,
which work together to enforce a global rate limit across traffic aggregates at
multiple sites, enabling the coordinated policing of a cloud-based service’s
network traffic.
Our abstraction not only enforces a global limit, but also ensures that
congestion-responsive transport-layer flows behave as if they traversed a single,
shared limiter. We present two designs—one general purpose, and one
optimized for TCP—that allow service operators to explicitly trade off between
communication costs and system accuracy, efficiency, and scalability.
Both designs are capable of rate limiting thousands of flows with negligible
overhead (less than 3% in the tested configuration). We demonstrate that our
TCP-centric design is scalable to hundreds of nodes while robust to both loss and
communication delay, making it practical for deployment in nationwide service
providers.
RAGHAVAN et al – SIGCOMM 2007
[email protected]
48
INTRODUÇÃO
ARTIGO

=
APESAR de serem ambos bem escritos
[email protected]
49
Introdução introduz 
[email protected]
50
Introdução
Um artigo científico não é um livro
de suspense no qual o leitor só
descobre o que está realmente
acontecendo no capítulo final
• Uma introdução bem escrita é fundamental!!
• O leitor deve estar ciente do que acontece desde
o início, desde a introdução
[email protected]
51
Introdução
• A introdução é uma reafirmação extentida do
conteúdo do Resumo
ERRO MAIS COMUM
Não colocar as contribuições
Deixar tudo “implícito”
Achar que é óbvio
Óbvio não é ciência,
é senso comum
[email protected]
52
Introdução
• Em algum lugar (na introdução), adicionar
exemplos (1 ou mais):
– Como o seu trabalho pode ser empregado
– Onde o seu trabalho pode ser empregado,
quais os contextos, quais aplicações podem
tirar vantagem
– Quais problemas práticos o seu trabalho
resolve
[email protected]
53
Introdução
• Sugestão 1 (um ou dois parágrafos por item)
– Identifica a área de interesse (palavras do título)
– Contexto: revisão básica do estado-da-arte
– Propósito: e/ou hipótese sendo investigada
• O propósito desse trabalho é definir...
• Esse trabalho propõe três métodos para...
– Solução a ser detalhada
• Característica fundamental, técnica/metodologia, vantagens
– Organização
[email protected]
54
Introdução
• Sugestão 2 (um ou dois parágrafos por item)
–
–
–
–
–
Contexto, motivação
O problema em questão
Trabalhos anteriores relacionados (limitações)
Lista de contribuições, resultados principais
Organização
[email protected]
55
Introdução
 Contexto
• Problema
• Relacionados
• Solução
(Organização)
• Contexto, motivação
• Evolução de um contexto
“Yesterday’s version of distributed computing was a selfcontained,
colocated server farm. Today, applications are increasingly deployed
on third-party resources hosted across the Internet. Indeed, the rapid
spread of open protocols and standards like Web 2.0 has fueled an
explosion of compound services that script together third-party
components to deliver a sophisticated service [27, 29]. These
specialized services are just the beginning: flagship consumer and
enterprise applications are increasingly being delivered in the
software-as-a-service model [9]. For example, Google Documents,
Groove Office, and Windows Live are early examples of desktop
applications provided in a hosted environment, and represent the
beginning of a much larger trend.”
RAGHAVAN et al – SIGCOMM 2007
[email protected]
56
Introdução
• O problema em questão
• Contexto
 Problema
• Relacionados
• Solução
(Organização)
– Definição do problema
– Sua importância, relevância, aplicações práticas
“One of the key barriers to moving traditional applications to the cloud, however,
is the loss of cost control [17]. In the cloud-based services model, cost recovery is
typically accomplished through metered pricing. Indeed, Amazon’s EC2 charges
incrementally per gigabyte of traffic consumed [3] […] Limiting global resource
consumption in a distributed environment, however, presents a significant
technical challenge. Ideally, resource providers would not require services to
specify the resource demands of each distributed component a priori; such finegrained measurement and modeling can be challenging for rapidly evolving
services. Instead, they should provide a fixed price for an aggregate, global usage,
and allow services to consume resources dynamically across various locations,
subject to the specified aggregate limit.”
RAGHAVAN et al – SIGCOMM
2007
[email protected]
57
Introdução
• Contexto
• Problema
Relacionados
• Solução
(Organização)
• Trabalhos anteriores relacionados
– No mesmo contexto, não resolvem o problema ou
apresentam apenas soluções parciais
– Extensão ou continuação de um trabalho anterior:
deve ser mencionado na introdução
– Uma frase sobre cada trabalho ou
– Agrupar trabalhos similares e detalhar um ou dois:
“... Como resposta a tal requisito, alguns trabalhos têm enfocado a
questão do suporte a versões [2,4,9,13,23,27]. Entre esses, Golendziner
propõe o Modelo de Versões: uma extensão aplicável a modelos de
dados orientado a objetos ... ... [9]”
[email protected]
58
Introdução
• Solução: Contribuições principais do artigo
• Contexto
• Problema
• Relacionados
 Solução
(Organização)
– Por extenso em um parágrafo
• “Considerando o contexto atual, esse trabalho propõe ...”
– Delimitado por itens
“This paper makes three primary contributions:
• Rate Limiting Cloud-based Services. We identify a key challenge...
• Distributed Rate Limiter Design. We present the design and …
• Evaluation and Methodology. We develop a methodology…”
RAGHAVAN et al – SIGCOMM 2007
[email protected]
59
Introdução
• Organização
• Contexto
• Problema
• Relacionados
• Solução
 Organização
“O restante do artigo está organizado da seguinte maneira. A
seção 2 apresenta alguns conceitos básicos e discute
trabalhos relacionados. A seção 3 detalha o modelo proposto.
A seção 4 apresenta um estudo comparativo através de
experimentos, enquanto a seção 5 conclui o trabalho.”
[email protected]
60
ATÉ AQUI
Título: keyword1 keyword2
Contexto
Trabalhos
Relacionados
Resumo:line1 line2 line3
Intro: par1 par2 par3 par4
Solução 1
Solução 2
Avaliação
Conclusão:par1
[email protected]
par2 par3
61
PARTE 4
COMPONENTE CENTRAL
Corpo
• Muitas maneiras de apresentar o corpo do
trabalho
• Faça rascunhos com ordens diferentes
• Revise com seu orientador, escolha um
• Pode ser mudado enquanto o trabalho é
escrito
[email protected]
63
Escrever Artigos como Arte
[email protected]
64
Corpo
Exemplos de Organização
1.
2.
3.
4.
5.
6.
ARANTES @ SBBD 2003
Introdução
Trabalhos Relacionados
Motivação e Conceitos
Fundamentais
Composição de Operadores
por Similaridade: os Novos
Algoritmos
Experimentos Realizados
Conclusões e Trabalhos
Futuros
1.
2.
3.
4.
5.
6.
BRAGANHOLO @ CTD 2005
Introduction
Related Work
Query Trees
Update Language
Mapping
Summary and Concluding
Remarks
[email protected]
65
Corpo
Exemplos de Organização
1.
2.
3.
4.
5.
6.
7.
8.
LORENSEN @ SIGGRAPH 87
Introduction
Information flow for 3D
medical algorithms
Related work
Marching cube algorithm
Enhancements of the basic
algorithm
Implementation
Results
Conclusions
1.
2.
3.
4.
5.
WEYUKER @ TSE 88
Introduction
Definitions
Complexity Measures
Desired Properties of
Complexisty Measures
Conclusions, Summary, and
Future Directions
[email protected]
66
Corpo
Exemplos de Organização
1.
2.
3.
4.
5.
6.
7.
ZHANG @ SIGMOD 1996
Introduction
Summary of Relevant Research
Background
Clustering Feature and CF Tree
The BIRCH Clustering Algorithm
Performance Studies
Summary and Future Research
RAGHAVAN @ SIGCOMM07
[email protected]
1.
2.
3.
4.
5.
6.
7.
Introduction
Classes of Clouds
Limiter Design
Evaluation Methodology
Evaluation
Related Work
Conclusion
67
Corpo
Exemplos de Organização
CHANG et al@ ACM TOCS 08
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Introduction
Data Model
API
Building Blocks
Implementation
Refinements
Performance Evaluation
Real Applications
Lessons
Related Work
Conclusions
Acknowledgements
References
DEAN,GHEMAWAT @ CACM 08
1. Introduction
2. Programming Model
3. Implementation
4. Refinements
5. Performance
6. Experience
7. Related Work
8. Conclusions
9. Acknowledgements
10. References
[email protected]
68
Corpo
Exemplos de Organização
1. Introdução
2. O que já existe
Estado-da-arte
3. NOVIDADE
4. VALIDAÇÃO
5. Conclusão
A.
B.
C.
D.
E.
Conceitos Básicos
MODELO
LINGUAGEM; IMPLEMENTAÇÃO
ESTUDO DE CASO
Trabalhos Relacionados
A.
B.
C.
D.
E.
F.
Conceitos Básicos
Trabalhos Relacionados
ARQUITETURA; ALGORITMOS
ANÁLISE COMPARATIVA
EXPERIMENTOS
Discussão
[email protected]
69
Verificar o que já existe
evita reinventar o passado
[email protected]
70
 Já existe
• Novidade
• Validação
• Discussão
O que já Existe
• Conceitos Básicos e
Trabalhos Relacionados
• Apresentados juntos/não
• Conceitos Básicos antes
da contribuição principal
• Trabalhos Relacionados
no início ou fim
[email protected]
71
O que já Existe: Conceitos Básicos







Definições
Notações
Modelos
Arquiteturas
Linguagens
Cenários
Padrões
necessários
para entender o
trabalho
• Referências para trabalhos onde os conceitos são
introduzidos ou melhor detalhados
[email protected]
72
O que já Existe: Trabalhos Relacionados
• Como o artigo avança o estado-da-arte
• O que antes não tinha, e agora tem
• Foco: trabalhos RELACIONADOS a pesquisa
apresentada no artigo
[email protected]
73
O que já Existe: Trabalhos Relacionados
• Trabalhos anteriores com temas relacionados ao seu
• Mencionar todos os trabalhos relacionados (pessoal
do comitê de programa, depto)
• Detalhes desses trabalhos ajudam mostrar onde o
seu trabalho é melhor ou
• Desvantagens ou pontos fracos de trabalhos
anteriores que são aprimorados
• Condições, requisitos e limitações do seu trabalho
[email protected]
74
O que já Existe: Trabalhos Relacionados
• Seção de Trabalhos Relacionados é praticamente obrigatória
• Por exemplo, o título é:
“Resumos Estruturais em Processamento de Consulta XML”
Exemplos de temas relacionados:
– Resumos estruturais em outros contextos (outros processamentos)
– Resumos estruturais para processar outros tipos de dados
– Outras formas de processar consultas XML
– ...
[email protected]
75
O que já Existe: Trabalhos Relacionados
• Mas o artigo é um survey, precisa de trabalhos
relacionados???
– SIM
– É impossível que um artigo referencie todos os outros
– Que outros trabalhos ficaram fora do survey e por quê?
• Precisa ter uma seção para Trabs. Rels? Não pode ir
simplesmente mencionando os artigos aqui e ali no meio do
artigo?
– Melhor não
– Melhor ter todos os artigos em uma seção
– COMPARANDO com o trabalho em questão
[email protected]
76
Cuidado!!!!!!!!!!
[email protected]
77
Novidade: Contribuições
• Já existe
 Novidade
• Validação
• Discussão
• Parte principal do
artigo!!!!
• A que veio
• Adiciona o que
• Tem de estar
claríssimo
[email protected]
78
Novidade: Contribuições
• Um parágrafo com ideia geral da proposta
• Esclareça novas definições (escreva claramente que são novas
definições propostas no artigo)
• Adicione quantos parágrafos necessários para apresentar:
–
–
–
–
o que é o trabalho
como funciona a proposta
o que é novidade, por que
detalhes e explicações sobre partes principais do funcionamento da
proposta
[email protected]
79
EXPLICITAMENTE
O que
Como
Por que
Onde
Quanto
[email protected]
80
PARTE 5
COMPONENTES FINAIS
Validação / Avaliação
• Já existe
• Novidade
 Validação
• Discussão
• Mostrar que a solução
proposta funciona e
seus benefícios
• Análise
• Estudo de caso
• Experimentos
[email protected]
82
Validação: Análise
• Proposta é correta (demonstração e provas)
• Inclua (conforme necessário):
– Um parágrafo com o resumo do que é provado nessa
seção
– Um parágrafo com definições específicas usadas na análise
(ex. estruturas usadas nas provas)
– Provas e análises
– Comentários finais sobre o significado das provas de um
modo intuitivo ou num nível mais prático
[email protected]
83
Validação: Estudo de Caso
• Proposta é aplicável, implementável
• Inclua (conforme necessário):
– Contexto geral
– Regras ou condições específicas necessárias nesse estudo
de caso caso
– Modelagem / Implementação
– Funcionamento
– Vantagens e desvantagens de usar o modelo proposto
nesse estudo de caso
[email protected]
84
Validação: Experimentos
• Proposta funciona, desempenho bom/superior
• Inclua (conforme necessário):
– Contexto: o que é medido, o que não é, por que
– Modelo de simulação ou infraestrutura das medições:
configuração do sistema, tipo de máquinas usadas,
linguagens, ...
– Resultados dos experimentos [próximo slide]
– Comentários finais, discussões, explicações adicionais
[email protected]
85
Validação: Experimentos
• Descrição de resultados
– Subtítulo (em negrito): para diferenciar experimentos (ex: avaliando
tamanho da entrada, variando a quantidade de consultas, usando
dados sintéticos, usando dados reais, ...)
– Razão clara: por que cada gráfico aparece no seu artigo (ex: conforme
o tamanho dos arquivos de entrada aumenta, o throughput diminui,
...)
– Explicar: os axis, o que o gráfico mostra, qual é a tendência, por que a
tendência aparece, por que um algoritmo apresenta melhores
resultados que outro, ...
– Auto-contido: legendas devem ser legíveis e compreensíveis e
suficientes para entender o gráfico
[email protected]
86
Experimentos: Exemplo
• Performance studies
–
–
–
–
–
–
–
–
6.1 Analysis
6.2 Synthetic Dataset Generator
6.3 Parameters and Default Setting
6.4 Base Workload Performance
6.5 Sensitivity to Parameters
6.6 Time Scalability
6.7 Comparison of BIRCH and CLARANS
6.8 Application to Real Datasets
ZHANG @ SIGMOD 1996
[email protected]
87
Experimentos:
Moral da História
[email protected]
88
Discussão
• Discussão
• Já existe
• Novidade
• Validação
 Discussão
– Pode ser incluída como subseção final de Experimentos ou na
Conclusão
– Relacionamentos entre os fatos e resultados observados
– Princícios, relações, generalizações mostrados nos Experimentos
– Exceção ou falta de relação, pontos incertos
– Mostrar que resultados e interpretações concordam (ou
contrastam) com trabalhos previamente publicados
– Implicações teóricas e possíveis aplicações práticas
• Conclusão
– Principal contribuição
– Evidências para cada conclusão (não assuma que o leitor é super
capaz de juntar todos os pontos sozinho)
[email protected]
89
Você = maior fã do seu trabalho
[email protected]
90
CONCLUSÃO
• Sugestão: ser mais específico que na introdução e informar
(um parágrafo/linha por item)
–
–
–
–
resumo do que o artigo apresentou
principais resultados e contribuições
comentários sobre a importância, relevância ou
dicas para o uso prático do seu trabalho (como os resultados dos
experimentos podem ajudar na prática...)
– trabalhos futuros (evite entregar suas ideias de trabalhos mais
inovadores de graça!!)
[email protected]
91
Conclusão: exemplo
“As cloud-based services transition from marketing vaporware to real,
deployed systems, the demands on traditional Web-hosting and Internet
service providers are likely to shift dramatically. In particular, current models
of resource provisioning and accounting lack the flexibility to effectively
support the dynamic composition and rapidly shifting load enabled by the
software as a service paradigm. We have identified one key aspect of this
problem, namely the need to rate limit network traffic in a distributed
fashion, and provided two novel algorithms to address this pressing need.
Our experiments show that naive implementations based on packet arrival
information are unable to deliver adequate levels […]
Our results demonstrate that it is possible to recreate, at distributed points in
the network, the flow behavior that end users and network operators expect
from a single centralized rate limiter. Moreover, it is possible […]”
RAGHAVAN et al - SIGCOMM 2007
[email protected]
92
Referências são importantes,
sempre
[email protected]
93
REFERÊNCIAS
• Corretas, completas, específicas
• Informações obrigatórias: autores, título, nome do evento ou
periódico (editora), volume e número se necessário, ano
• Referências relevantes
– Do mesmo ano (ou ano anterior) para ilustrar que o tópico é atual e de
interesse da comunidade
– Artigos de conferências, periódicos, livros (não apenas sites da
Internet!)
– Todas as obras listadas no conjunto de referências devem ser
mencionadas no texto, e vice-versa
[email protected]
94
SBC Horizontes: Agosto’2009
• [HOW TO]
Como fazer pesquisa bibliográfica
Agma Juci Machado Traina, Caetano Traina Jr., ICMC-USP São
Carlos
Por onde devo começar quando quero iniciar uma pesquisa
bibliográfica? Este artigo visa responder a essa questão,
apresentando ao jovem pesquisador os passos principais para
realizar uma pesquisa bibliográfica que contemple seu
objetivo, bem como as ferramentas básicas amplamente
disponíveis para ser bem sucedido.
[email protected]
95
PARTE 6
DICAS DE ESTILO E REVISÃO
DICAS DE ESTILO
SETE pecados capitais
1. Frases longas (repletas de
vírgulas ou não!)
2. Erros ortográficos
3. Tradução literal e
imbromation
4. Imagens/tabelas ilegíveis
5. Erros gramaticais (paralelismo,
concordância, conjugação, crase)
6. Cópia literal
7. Blablabla (encher linguiça)
[email protected]
97
Dicas de Estilo
• Siga o formato
– Confira cuidadosamente a seção de "Instruções a Autores"/"Instruções
para Submissão"
– Artigos podem ser recusados apenas por não seguir o formato
requisitado (independente da qualidade de seu conteúdo)
• Cópia literal não!!!
– Quando referenciar outros trabalhos, resuma suas idéias principais
– Resista à tentação de copiar literalmente colocando o texto entre “..”
[email protected]
98
Dicas de Estilo
• Palavras estrangeiras em itálico
• Siglas esclarecidas
– Colocar seu significado entre parênteses
– “... conforme definido pela W3C (World Wide Web Consortium)...”
– Lembre-se que pode existir sobreposição
[email protected]
99
Dicas de Estilo
• Uma imagem vale mil palavras
– Trabalho apresenta um processo complicado, cheio de fases, entradas
e saídas para lá e para cá, tente resumir tudo em uma imagem
– Uma nova arquitetura
• Escreva enquanto trabalha
– É uma boa idéia começar a escrever o artigo enquanto o trabalho está
em desenvolvimento (enquanto idéias, problemas, soluções e detalhes
estão mais frescos na memória)
• REVISAR! REVISAR! REVISAR!
• Backup! Backup! Backup!
[email protected]
100
REVISÃO FINAL
Verificar antes da Submissão
• Ortografia de título, nomes dos autores e filiação
• Imprima o artigo (no formato final de submissão): tudo legível
• Tenha certeza absoluta da data e do horário limites para
submissão de trabalhos
• MS Word:
– Numeração das seções e subseções
– Numeração no texto concorda com a numeração usada em figuras e
tabelas
– Referências cruzadas não foram perdidas dentro do editor
[email protected]
101
Revisão Final
Exemplo de Formulário de Avaliação
• Relevância (enquadramento
no evento)
•
•
•
•
•
•
Originalidade
Mérito técnico-científico
Apresentação
Organização
Legibilidade (readability)
Referências
MAIS NA AULA
“Como revisar artigos”
[email protected]
102
EM RESUMO
Título
Título inicial do trabalho
Autores
Aluno + Orientador(es)
Resumo / Abstract
Contexto + problema + objetivos
1. Introdução
Contexto + motivação + problema +
estado-da-arte + contribuições + organização
2. O que já existe
Estado-da-arte: comparação
3. NOVIDADE
Contribuições + trabalho desenvolvido
4. Validação
Validação: análise, estudo, experimentos
5. Conclusão
Estado atual + próximos passos
6. Referências
Local (DCC) + nacional + internacional
[email protected]
103
Perguntas???
[email protected]
www.dcc.ufmg.br/~mirella
Estudo de Caso
VLDB 2007 Best Paper Awards
Scalable Semantic Web Data Management
Using Vertical Partitioning
Daniel J. Abadi, Adam Marcus, Samuel Madden,
Katherine J. Hollenbach
Tem um formato particular
[email protected]
105
Estudo: Abstract
•
•
•
•
•
Efficient management of RDF data is an important factor in realizing the semantic Web
vision.
Performance and scalability issues are becoming increasingly pressing as Semantic Web
technology is applied to real-world applications.
In this paper, we examine the reasons why current data management solutions for RDF
data scale poorly, and explore the fundamental scalability limitations of these
approaches. We review the state of the art for improving performance for RDF databases
and consider a recent suggestion, “property tables.” We then discuss practically and
empirically why this solution has undesirable features.
As an improvement, we propose an alternative solution: vertically partitioning the RDF
data. We compare the performance of vertical partitioning with prior art on queries
generated by a Web-based RDF browser over a large-scale (more than 50 million triples)
catalog of library data.
Our results show that a vertical partitioned schema achieves similar performance to the
property table technique while being much simpler to design. Further, if a columnoriented DBMS (a database architected specially for the vertically partitioned case) is
used instead of a row-oriented DBMS, another order of magnitude performance
improvement is observed, with query times dropping from minutes to several seconds.
[email protected]
106
Estudo: Introduction
•
•
The Semantic Web is an effort by the W3C [8] to enable integration and sharing of data
across different applications and organizations. Though called the Semantic Web, the
W3C envisions something closer to a global database than to the existing World Wide
Web. In the W3C vision, […] . Database researchers will immediately recognize that
building the Semantic Web requires surmounting many of the semantic heterogeneity
problems faced by the database community over the years. In fact – as in many database
research efforts – the W3C has proposed schema matching, ontologies, and schema
repositories for managing semantic heterogeneity.
One area in which the Semantic Web community differs from the relational database
community is in its choice of data model. The Semantic Web data model, called the
“Resource Description Framework,” [9] or RDF, represents data as statements about
resources using a graph connecting resource nodes and their property values with
labeled arcs representing properties. Syntactically, […]. For example, to represent the
fact that Serge Abiteboul, Rick Hull, and Victor Vianu wrote a book called “Foundations
of Databases” we would use seven triples: […]
O artigo tem de explicar esses conceitos:
Trata da área de Web Semântica em um evento
de Banco de Dados
[email protected]
107
Estudo: Introduction
•
•
The commonly stated advantage of this approach is that it is very general […] These tools
won’t be useful if different users describe objects differently, so the Semantic Web
community has developed a set of standards for expressing schemas (RDFS and OWL);
these make it possible, for example, to say that every book should have an author, or
that the property “isAuthor” is the same as the property “authored.”
This data representation, though flexible, has the potential for serious performance
issues, since there […]. For example, […] Figure 1.
This query is potentially very slow to
execute, since as the number of triples in
the library collection scales, the RDF table
may well exceed the size of memory, and
each of these filters and joins will require a
scan or index lookup. Real world queries
involve many more joins, which complicates
selectivity estimation and query
optimization, and limits the benefit of
indices.
[email protected]
108
Estudo: Introduction
•
As a database researcher, it is tempting to dismiss RDF, as the data model seems to offer
inherently limited performance for little – or no – improvement in expressiveness or
utility. Regardless of one’s opinion of RDF, however, it appears to have a great deal of
momentum in the web community, with several international conferences (ISWC, ESWC)
each drawing more than 250 full paper submissions and several hundred attendees, as
well as enthusiastic support from the W3C (and its founder, Tim Berners-Lee.) Further,
an increasing amount of data is becoming available on the Web in RDF format, including
the UniProt comprehensive catalog of protein sequence, function, and annotation data
(created by joining the information contained in Swiss-Prot, TrEMBL, and PIR) [6] and
Princeton University’s WordNet (a lexical database for the English language) [7]. The
online Semantic Web search engine Swoogle [5] reports that it indexes 2,171,408
Semantic Web documents at the time of the publication of this paper.
Vende o peixe para a comunidade de BD
[email protected]
109
Estudo: Introduction
•
•
•
Hence, it is our goal in this paper to explore ways to improve RDF query performance,
since […]. We focus on […] The gist of our technique is based on a simple and familiar
observation to proponents of relational technology: […]
We look at two different physical organization techniques for RDF data. The first, called
the property table technique, denormalizes […]. For example, “title,” “author,” and “isbn”
might all be properties that tend to be defined for subjects that represent book entities.
[…] This flattened property table representation will require many fewer joins to access,
since self-joins on the subject column can be eliminated. One can use standard query
rewriting techniques to translate queries over the RDF triple-store to queries over the
flattened representation.
There are several issues with this property table technique, including:
–
–
–
NULLs. Because […]
Multi-valued Attributes. […]
Proliferation of union clauses and joins. In the above example, […]
Fornece uma primeira solução que requer menos joins.
Explica os problemas desta solução.
[email protected]
110
Estudo: Introduction
•
To address these limitations, we propose a different physical organization technique for
RDF data. We create a two-column table […] For the library example, […] Although many
joins are still required to answer queries over multiple properties, each table is sorted by
subject, so fast (linear) merge joins can be used. Further, only those properties that are
accessed by the query need to be read off disk (or from memory), saving I/O time.
Fornece uma segunda solução
•
The above technique can be thought of as a fully vertically partitioned database on
property value. Although vertically partitioning a database can be done in a normal
DBMS, these databases are not optimized for these narrow schemas (for example, the
tuple header dominates the size of the actual data resulting in table scans taking 4-5
times as long as they need to), and there has been a large amount of recent work on
column-oriented databases [19, 20, 29, 31], which are DBMSs optimized for vertically
partitioned schemas.
Explica a diferença da nova técnica para as
anteriores (da própria comunidade de BD)
[email protected]
111
Estudo: Introduction
•
•
•
In this paper, we compare the performance of different RDF storage schemes on a real
world RDF dataset. We use the Postgres open source DBMS to show that both the
property table and the vertically partitioned approaches outperform the standard triplestore approach by more than a factor of 2 (average query times go from around 100
seconds to around 40 seconds) and have superior scaling properties. We then show that
one can get another order of magnitude in performance improvement by using a
column-oriented DBMS since they are designed to perform well on vertically partitioned
schemas (queries now run in an average of 3 seconds).
The main contributions of this paper are: an overview of the state of the art for storing
RDF data in databases, a proposal to vertically partition RDF data as a simple way to
improve RDF query performance relative to the state of the art, a description of how we
extended a column-oriented database to implement the vertical partitioning approach,
and a performance evaluation of these different proposals. Ultimately, the columnoriented DBMS is able to obtain near-interactive performance (on non-trivial queries)
over real-world RDF datasets of many millions of records, something that (to the best of
our knowledge) no other RDF store has been able to achieve.
The remainder of this paper is organized as follows. […]
[email protected]
112
Estudo: Corpo
2. Current State of the Art
In this section, we discuss the state of the art of storing RDF data in
relational databases, with an extended look at the property table
approach.
2.1 RDF in RDBMSs
2.2 Property Tables
3. A Simpler Alternative
We now look at an alternative to the property table solution to speed up
queries over a triple-store. In Section 3.1 we discuss the vertically
partitioned approach to storing RDF triples.We then look at how we
extended a column-oriented DBMS to implement this approach in Section
3.2
3.1 Vertically Partitioned Approach
3.2 Extending a Column-Oriented DBMS
[email protected]
113
Estudo: Corpo
4. Materialized Path Expressions
5. Benchmark
In this section, we describe the RDF benchmark we have developed
for evaluating the performance of our three RDF databases. Our
benchmark is based on publicly available library data and a collection
of queries generated from a web-based user interface for browsing
RDF content.
5.1 Barton Data
5.2 Longwell Overview
5.3 Longwell Queries
[email protected]
114
Estudo: Validação
6. Evaluation
Now that we have described our benchmark dataset and the queries that
we run over it, we compare their performance in three different schemas
– a triples schema, a property tables schema, and a vertically partitioned
schema. We study the performance of each of these three schemas in a
row-store (Postgres) and, for the vertically partitioned schema, also in a
column-store (our extension of C-Store).
Our goal is to study the performance tradeoffs between these
representations to understand when a vertically partitioned approach
performs better (or worse) than the property tables solution. Ultimately,
the goal is to improve performance as much as possible over the triplestore schema, since this is the schema most RDF store systems use.
[email protected]
115
Estudo: Validação
6.1 System
6.1.1 PostgreSQL Database (por que? configurações)
6.2 Store Implementation Details
We now describe the details of our store implementations. Note that all
implementations feature a dictionary encoding table that maps strings to integer
identifiers (as was described in Section 2.1); these integers are used instead of strings to
represent properties, subjects, and objects. The encoding table has a clustered B+tree
index on the identifiers, and an unclustered B+tree index on the strings. We found that
all experiments, including those on the triplestore, went an order of magnitude faster
with dictionary encoding.
6.2.1 Triple Store
6.2.2 Property Table Store
6.2.3 Vertically Partitioned Store in Postgres
6.2.4 Column-Oriented Store
6.3 Query Implementation Details
In this section, we discuss the implementation of all seven benchmark queries in the
four designs described above.
[email protected]
116
Estudo: Validação
6.4 Results
6.4.1 Postgres as a Choice of RDBM
6.5 Scalabililty
6.6 Materialized Path Expressions
6.7 The Effect of Further Widening
[email protected]
117
Estudo: Conclusão
The emergence of the Semantic Web necessitates high performance data
management tools to manage the tremendous collections of RDF data being
produced. Current state of the art RDF databases – triple-stores – scale
extremely poorly since most queries require multiple self-joins on the triples
table. The previously proposed “property table” optimization has not been
adopted in most RDF databases, perhaps due to its complexity and inability to
handle multi-valued attributes. We showed that a poorly-selected property
table can result in a factor of 3.8 slowdown over an optimal property table,
thus making the solution difficult to use in practice. As an alternative to
property tables, we proposed vertically partitioning tables and demonstrated
that they achieve similar performance as property tables in a row-oriented
database, while being simpler to implement. Further, we showed that on a
version of the C-Store column-oriented database, it is possible to achieve a
factor of 32 performance improvement over the current state of the art triple
store design. Queries that used to take hundreds of seconds can now be run in
less than ten seconds, a significant step toward interactive time semantic web
content storage and querying.
[email protected]
118
Estudo: Acknowledgments
• We thank George Huo and the Postgres development team for their
advice on our Postgres implementation, and Michael Stonebraker for his
feedback on this paper. This work was supported by the National Science
Foundation under grants IIS-048124, CNS- 0520032, IIS-0325703 and two
NSF Graduate Research Fellowships.
[email protected]
119
Descargar

Slide 1