Bioinformática e As Omicas.
Bioinformática e As Omicas.
Bioinformática e As Omicas.
RESUMO: As ciências ômicas tratam da análise global dos sistemas biológicos, integrando diferentes áreas do
conhecimento, como a bioquímica, genética, fisiologia e computação, com o objetivo de isolar e caracterizar genes,
proteínas e metabólitos, assim como estudar as interações entre eles, com base em técnicas experimentais, softwares e
bancos de dados. A bioinformática por sua vez, propõe novas formas de ciência baseada na experimentação in silico,
sendo muito dinâmica na sua atualização e fornecendo a base para geração de novos dados e conhecimentos que podem ser
aplicados na pesquisa básica e na aplicada com o desenvolvimento de novos produtos e soluções. Este processo está
intimamente relacionado à inovação tecnológica, que é conseguida unindo-se a biotecnologia e a bioinformática. Contudo,
o objetivo desta revisão é apresentar uma pequena abordagem dos recursos de bioinformática aplicados às ciências ômicas,
como genômica, transcriptômica, proteômica, interatômica, metabolômica, farmacogenômica, dentre outras.
Quadro 1: Lista de páginas da Web com recursos de bioinformática e que são abordadas neste artigo.
NOME ENDEREÇO
PFAM http://pfam.jouy.inra.fr/
SANGER http://www.sanger.ac.uk/Software/Pfam/
Blast http://www.ncbi.nlm.nih.gov/BLAST
CaM Target http:// calcium.uhnres.utoronto.ca/ctdb/ctdb/home.html
CAP3 http://genome.cs.mtu.edu/cap/cap3.htm
CAS http://www.cas.org/
Clustal http://www.clustal.org/
Cytoscape http://www.cytoscape.org/
Drug DataBase http://chrom.tutms.tut.ac.jp/JINNO/DRUGDATA/00database.html
Easy Align http://www.scriptspot.com/3ds-max/easyalign
Entrez Protein http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein
GenBank http://www.ncbi.nlm.nih.gov/Genbank
GENE 3D http://gene3d.biochem.ucl.ac.uk/Gene3D/
Gene Ontology http://www.geneontology.org/
Google http://www.google.com
GoogleScholar http://scholar.google.com
HiMAP http://www.himap.org/
HoGenom http://ralyx.inria.fr/2007/Raweb/helix/uid41.html
INSDC http://insdc.org
Interpare http://interpare.net/
InterPro http://www.ebi.ac.uk/interpro/
KEGG http://www.genome.jp/kegg/
NCBI http://www.ncbi.nlm.nih.gov
Osprey http://biodata.mshri.on.ca/osprey/servlet/Index
PANTHER http://www.pantherdb.org/
Pfam http://www.sanger.ac.uk/Software/Pfam/
Phrap http://www.phrap.org
PHYLIP http://evolution.genetics.washington.edu/phylip.html
PIRSF http://pir.georgetown.edu/iproclass/
PRF http://www.prf.or.jp/en/index.shtml
PRINTS http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/
ProDom http://prodom.prabi.fr/prodom/current/html/home.php
PROSITE http://ca.expasy.org/prosite/
PubChem http://pubchem.ncbi.nlm.nih.gov/
PubMed http://www.pubmed.com
RNAMOTIF http://www.scripps.edu/mb/case/casegr-sh-3.5.html
SBBiotec http://www.sbbiotec.org.br/
SCOP http://scop.mrc-lmb.cam.ac.uk/scop/
SetupX http://fiehnlab.ucdavis.edu
SMART http://smart.embl-heidelberg.de/
String http://string.embl.de/
SUPERFAMILY http://supfam.cs.bris.ac.uk/SUPERFAMILY/
SwissProt http://www.expasy.ch/spro/
TIGRFAMs http://www.tigr.org/TIGRFAMs/index.shtml
Tree View http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
UniProt http://www.ebi.ac.uk/uniprot/
UniProtKB http://www.ebi.ac.uk/trembl/
válidos e novos. Embora os algoritmos atuais sejam humanos são os principais responsáveis por essa
capazes de descobrir esses padrões, os analistas determinação.
Figura 2. Uma visão do processamento da linguagem natural biológica (BioNLP) e aplicações de text mining
na biologia. O tópico central é envolvido por sete círculos com suas aplicações correspondentes
dadas por outras caixas posteriores: NER (nome da identidade reconhecida), SDI (informação
seletiva disseminada), Information extration (obtenção de informações), Análise por microarrays,
Recuperação de artigos, Interações protéicas e relações e BioNLP. Modificado de: Krallinger e
Valencia (2005).
capturando a sequência e as estruturas secundárias e essencial na sua função, pode-se predizer essa
terciárias (MACKE et al., 2001). estrutura para cada sequência individual através de
Alguns ncRNAs não dependem de uma softwares específicos. Nesse sentido, as duas
estrutura bem definida, permitindo-se optar por uma ferramentas mais conhecidas são MFOLD e
busca baseada essencialmente na similaridade de RNAFOLD, que predizem a estrutura mais estável a
sequência conservada ao longo da evolução, sendo partir de uma sequência pré-estabelecida (ZUKER,
suficiente para identificá-los no genoma. Nesse 1989; SCHUSTER et al., 1994).
sentido, existem programas especializados na busca A segunda estratégia inclui a predição ab-
por apenas homologia de sequência (perfil-HMMs) e initio de ncRNAs, o que constitui o maior desfio na
aqueles disponíveis para realizar o alinhamento e busca dessas moléculas não-codificantes. Também
folding ao mesmo tempo. Dentre esses se encontram: existem algoritmos computacionais eficientes que
o FOLDALIGN, capaz de detectar estruturas locais objetivam predizer estruturas estáveis de RNA em
ao invés de identificar estruturas globais com vários grande escala genômica, como o RNAPLFOLD.
loops (GORODKIN et al., 2001), e o DYNALIGN, Contudo, o potencial desse programa na detecção de
que reduz a complexidade computacional limitando ncRNAs ainda não foi sistematicamente investigado
o espaço de busca e o tamanho dos loops presentes (MEYER, 2007).
nas estruturas internas do RNA (MATHEWS; Uma das ferramentas mais utilizadas na
TURNER, 2002). As desvantagens desses dois análise transcriptômica é a tecnologia de
últimos residem na sua incapacidade de explicitar microarrays (Figura 3) que constitui uma das
regiões que não adquirem uma determinada estrutura principais ferramentas para estudos de expressão
e na ineficiência do alinhamento baseado na gênica (SCHENA et al., 1996), sendo muito
estrutura da molécula. aproveitada na avaliação de aspectos da biologia de
Em casos excepcionais, em que as sequências sistemas e o estudo dos perfis de interação entre
correspondem a determinados transcritos e sabe-se diversas biomoléculas (KITANO, 2002).
que a estrutura global desempenha um papel
mostra o esquema 1. Após toda a experimentação variedade de referências cruzadas com outros
biológica, as marcações são interpretadas por um bancos de dados semelhantes, além do
software específico e os dados são analisados por UniProtKB/Swiss-Prot. No entanto, se o objetivo é
ferramentas estatísticas. descrever a função molecular, o contexto biológico
e a localização celular do produto gênico, o Gene
Proteômica e estrutura de proteínas Ontology é o mais indicado (CAMON et al., 2004).
“Como”, “onde”, “quando” e “por que” são O grande desafio enfrentado por estudiosos e
produzidas centenas de milhares de proteínas bioinformatas é descobrir qual a estrutura
individuais em um organismo vivo? Como elas tridimensional adotada pelas proteínas a partir da
interagem entre si e com outras moléculas para estrutura primária. No entanto, as ferramentas in
construir uma célula? Como elas funcionam e silico disponíveis atualmente ainda não são
conduzem o desenvolvimento e crescimento totalmente confiáveis. Os métodos experimentais
programado e interagem com os ambientes biótico e utilizados para obtenção da estrutura tridimensional
abiótico? Responder todas essas questões é o são cristalografia por difração de raio-X e
objetivo da proteômica, que como uma metodologia, ressonância magnética nuclear. Entretanto, esses
deve ser considerada parte de uma análise métodos podem ser onerosos e de difícil execução,
integrativa e multidisciplinar em diferentes níveis, além de apresentarem limitações técnicas. Estas e
estendendo desde os genes até o fenótipo expresso outras dificuldades fazem com que a quantidade de
nas proteínas. Estas análises devem envolver as estruturas de proteínas decifradas ainda compõe
tecnologias “ômicas” (genômica, transcriptômica, uma pequena fração do total de proteínas existentes
proteômica e metabolômica) bem como as técnicas (PROSDOCIMI et al., 2003).
de bioquímica clássica e biologia celular. Um método alternativo e não-experimental é
No estudo completo das proteínas, integrando a modelagem molecular, baseada em conhecimentos
estrutura e função, os pesquisadores utilizam bancos estereoquímicos dos aminoácidos. Uma das
de dados diversos que possam atender os diferentes maneiras de se fazer a modelagem molecular é
ramos da proteômica. Um dos mais usados é o através da homologia entre sequências, em que uma
banco de dados Entrez Protein, um depósito de delas já possui forma tridimensional definida. O
sequências disponibilizado pelo NCBI e compilado primeiro passo é a pesquisa de proteínas homólogas
através de uma variedade de fontes. O banco contêm em bancos de dados de estruturas de proteínas como
as sequências de proteínas submetidas aos bancos o PDB (PROTEIN DATABASE BANK) (HULO et
PIR (PROTEIN INFORMATION RESOURCE) (WU al., 2008), que é uma colaboração entre o RCSB
et al., 2003), UniProtKB/Swiss-Prot, PRF (RESEARCH COLLABORATORY FOR
(PROTEIN RESEARCH FOUNDATION) e PDB. STRUCTURAL BIOINFORMATICS), o MSD-EBI
Outro, também muito utilizado é o UniProt, (MACROMOLECULAR STRUCTURAL
um catálogo de dados de sequências e funções de DATABASE) e o PDBj (PROTEIN DATA BANK OF
proteínas, mantido pelo consórcio UniProt. O JAPAN) (BERMAN et al., 2000). A seguir, deve-se
consórcio é uma colaboração entre o SIB (SWISS realizar o alinhamento das sequências de
INSTITUTE OF BIOINFORMATICS), o EBI aminoácido das proteínas homólogas e a proteína-
(EUROPEAN BIOINFORMATICS INSTITUTE) e o alvo, através do Clustal, por exemplo. A modelagem
PIR. O banco UniProt é compreendido por três é realizada através de softwares como o Modeller,
componentes, o acurado UniProtKB (UNIPROT SWISS-MODEL, 3D-PSSM, dentre outros. Esses
KNOWLEDGEBASE), que continuou o trabalho do programas normalmente procuram encontrar a
UniProtKB/Swiss-Prot; o UniProtKB/TrEMBL estrutura terciária que melhor se aproxime da
(BOECKMANN et al., 2003) e o PIR. O disposição dos átomos das proteínas utilizadas como
UniProtKB/Swiss-Prot é um banco anotado modelo, e ao mesmo tempo atenda às restrições
manualmente com informações extraídas da físico-químicas (FORSLUND et al., 2008).
literatura e análises computacionais, contendo níveis Outro tipo de modelagem é o Threading, que
mínimos de redundância e alto nível de integração compara estrutura de uma proteína teste com a
com outros bancos de dados (BAIROCh et al., estrutura de outra proteína conhecida com uma
2005). pequena similaridade de sequência. Neste modelo é
Na análise de dados obtidos utilizando a levada em consideração a distância entre os resíduos
eletroforese bidimensional, o banco de dados de aminoácidos, a estrutura secundária e as
SWISS-2DPAGE (HOOGLAND et al., 2004) é o características físico-químicas (RATTEI et al.,
mais útil, pois armazena resultados experimentais 2008).
que utilizam esta metodologia e acrescenta uma
Em 2004, uma série de relatos destacaram a quanto à atividade biológica, tanto do ponto de vista
importância de se fornecer informações. Entre elas, quantitativo como qualitativo (ESTRADA, 2008).
a base de dados ArMet, que descreve a arquitetura Os bancos de dados mais utilizados na análise da
geral para metabolômica (JENKINS et al., 2004) e interação de fármacos ou compostos ativos e outra
MIAMet, que demonstra considerações sobre o molécula biologicamente ativa são: KEGG, Drug
mínimo de informações de um experimento em DataBase e PubChem.
metabolômica (Bino et al., 2004). Estas A farmacogenômica surgiu em 1995, da união
considerações têm sido concretizadas apenas da farmacogenética com a genômica e a
parcialmente em bases de dados disponíveis sobre biotecnologia (NEBERT; VESELL, 2004), sendo
metabolômica de plantas (KOPKA et al., 2005). definida como o estudo da expressão de genes
Para uma série de compostos vegetais, várias individuais relevantes na susceptibilidade a doenças,
empresas de agro-biotecnologia têm publicado bem como resposta a fármacos em níveis celular,
dados dos metabólitos referentes ao valor tecidual, individual ou populacional (PIRAZZOLI;
nutricional das culturas. O mais abrangente é o CAS RECCHIA, 2004). Como muitos outros ramos das
(CHEMICAL ABSTRACTS), que inclui informações ciências biomédicas, foi impulsionada pelos avanços
sobre milhões de compostos, entre eles, metabólitos da genômica, que conduziram às expectativas de
biogênicos. No entanto, este serviço vem com que a segurança e a eficácia dos medicamentos
elevados encargos e não contém links para bases de seriam melhoradas pela personalização da
dados genômicos. terapêutica, com base nos dados genéticos
(FONTANA et al., 2006).
Farmacogenômica Para o seu estudo, a farmacogenômica utiliza
Um objetivo nos estágios iniciais do técnicas genômicas, como o sequenciamento de
desenvolvimento de fármacos é a identificação de DNA, mapeamento genético e a bioinformática para
um ou mais compostos bioativos. Um composto facilitar as pesquisas na identificação das bases
bioativo é qualquer substância que apresenta a genéticas da variação inter-individual e inter-racial
atividade biológica que se procura (BUCHWALD; na eficácia, metabolismo e transporte com fármacos
BODOR, 1998). Qualquer composto com atividade (MANCINELLI et al., 2000). A genômica
farmacológica ou compostos similares normalmente combinada com as ferramentas da bioinformática
possuem atividades parecidas, mas variam em sua permite dissecar as bases genéticas das doenças
potência e especificidade. Baseados em um multifatoriais e têm mostrado pontos mais
composto bioativo, os cientistas investigam um convenientes para melhor ação medicamentosa,
grande número de moléculas parecidas de forma a aumentando o número de opções moleculares para o
otimizar as propriedades farmacológicas desejadas. tratamento de doenças (DREWS, 2000).
Para uma busca sistemática, seria muito
importante o entendimento de como as variações Biotecnologia
nas características estruturais e físico-químicas da A biotecnologia é o uso de conhecimentos
família de moléculas estão relacionadas com suas sobre os processos biológicos e sobre as
propriedades farmacológicas. O problema é que propriedades dos seres vivos, com o fim de resolver
existem muitos descritores diferentes para problemas e criar produtos de utilidade (ANTUNES
caracterizar as moléculas. Eles incluem et al., 2006). Esse processo surgiu da necessidade de
características estruturais, como a natureza e se suprir as transformações globais que ocorreram
distribuição dos substituintes; características na ciência e no mercado. Desta forma, a
experimentais, como solubilidade em solventes biotecnologia está intimamente relacionada à
aquosos e orgânicos, ou momentos dipolo; e inovação tecnológica, uma vez que propõe o
características calculadas computacionalmente, desenvolvimento de novas tecnologias e produtos,
como cargas parciais dos átomos. Estes fatores aplicando as informações desenvolvidas na
sejam eles de caráter eletrônico, hidrofóbico ou pesquisa. Neste contexto, dentro da biotecnologia
estérico, influenciam na interação do fármaco com a estão incluídas as pesquisas sobre transgênicos,
biofase, e na sua distribuição nos compartimentos genômica, proteômica, terapia gênica, entre outras,
que compõem o sistema biológico. sendo que para todas essas áreas a bioinformática
Assim, dois fármacos com estruturas vem se tornando uma das ferramentas mais
químicas semelhantes, diferenciando-se apenas por utilizadas.
um átomo ou posição que este ocupa na molécula, A bioinformática consiste na análise em
podem apresentar diferenças quanto às suas bancos de dados e utilizando softwares visam dar
propriedades físico-químicas e, conseqüentemente, novos rumos à pesquisa, analisando dados e
simulando experimentos. Essa tecnologia propõe Um reflexo disso está na análise dos números
novas formas de ciência baseada na experimentação de patentes no Brasil que vêm crescendo nos
in silico, onde podemos prever estruturas de últimos anos, mostrando um retrato dos avanços
proteínas e moléculas, realizar testes de interação, tecnológicos e do domínio de tecnologias que os
inibição ou excitação de moléculas, criar inibidores, centros de pesquisa vêm alcançando. De 2005 até
moléculas de interferência, entre outras atividades. março de 2007, foram realizados 550 depósitos de
Porém, é fundamental que sejam desenvolvidas patentes no Brasil, sendo que destes os principais
pesquisas para alimentar esses bancos de dados, depositantes são empresas norte-americanas e
assim como organizá-los em uma linguagem européias, e apenas 4 entidades brasileiras
universal de forma a facilitar o text mining e data apresentam um desempenho considerável na área do
mining. Desta forma, o desenvolvimento da meio ambiente. Talvez o grande problema não seja
bioinformática está relacionado à biotecnologia a o baixo avanço tecnológico, mas a falta de agilidade
partir do momento que geramos novos dados e dos julgamentos dos processos de patente no INPI.
conhecimentos que podem ser aplicados para o Desta forma, é imprescindível conhecer as
desenvolvimento de novos produtos e soluções. tecnologias mais avançadas e capacitar profissionais
Atualmente no Brasil existem 39 empresas e para o domínio da bioinformática, uma vez que
entidades cadastradas no site da SOCIEDADE existe uma tendência da evolução da economia
BRASILEIRA DE BIOTECNOLOGIA que atuam global baseada na biotecnologia. As decisões sobre
na área de Biotecnologia. Além disso, temos 53 a participação nesse mercado dependem das ações
grupos de pesquisa biotecnológica na área de que estão sendo desenvolvidas no presente, sendo
biologia animal, 16 em biologia humana e 50 em que a interação universidade, empresa e governo é a
biologia vegetal. Em relação ao ensino, são 18 base para garantir ao Brasil essa gestão.
cursos de graduação e 12 de pós-graduação com
ênfase ou em biotecnologia em Universidades AGRADECIMENTOS
federais, estaduais e faculdades particulares
(http//:www.sbb.br, acessado em 24/04/2008). Este trabalho é resultado do aprendizado
Para o desenvolvimento da Biotecnologia e, obtido na disciplina Bioinformática oferecida pelo
consequentemente, de todas as tecnologias no Brasil Prof. Dr. Foued Salmen Espindola e realizada de
é necessário que o governo, a universidade e as março a maio de 2008 no Curso de Pós-graduação
empresas percebam esse processo como um sistema em Genética e Bioquímica, da Universidade Federal
multisetorial tecnológico de inovação que abrange de Uberlândia, Uberlândia/MG, e desta forma
diversos setores econômicos (ANTUNES et al., agradecemos às Instituições e Agências de fomento
2006). que apóiam cada um de nós, como UFU, CAPES,
CNPq e FAPEMIG.
ABSTRACT: The omic sciences had a wide point of view of the biological systems, integrating different
knowledgement areas, as biochemistry, genetics and physiology, with the aim of isolation and characterization of genes,
proteins and metabolites as well study their interactions, based on experimental techniques, softwares and data banks.
Bioinformatics proposes a new science, which is based on in silico experimentation, being very dynamic in its update and
also can provides the basis for generation of new data and knowledge that can be applied in basic research and applied to
the development of new products and solutions. This process is closely related to technological innovation, which is
achieved joining biotechnology and bioinformatics. However, the objective of this review is to present a small approach of
bioinformatics resources applied to the omics science, like genomics, transcriptomics, proteomics, interatomics,
metabolomics, pharmacogenomics, among others.
REFERÊNCIAS
ALTSCHUL, S. F. et al. Basic local alignment search tool. Journal of Molecular Biology, San Diego, v. 215,
p. 403-410, 1990.
ANTUNES, A.; PEREIRA JR, N.; EBOLE, M. F. Gestão em biotecnologia, 1. ed., Rio de Janeiro: E-papers,
2006. 324p.
AOKI, K. F.; KANEHISA, M. Using the KEGG database resource. Current Protocols in Bioinformatics,
Somerset, v. 1, p. 1-12, 2005.
BADER, G. D.; HOGUE, C. W. V. Analyzing yeast protein–protein interaction data obtained from different
sources. Nature Biotechnology, New York, v. 20, p. 991–997, 2002.
BAIROCH, A. et al. The universal protein resource (UniProt). Nucleic Acids Research, Oxford, v. 33, p. 154–
159, 2005.
BENSON, D. A. et al. GenBank. Nucleic Acids Research, Oxford, v. 33, p. 34–38, 2005.
BERMAN, H. M. et al. The protein data bank. Nucleic Acids Research, Oxford, v. 28, p. 235–242, 2000.
BINO, R. J. et al. Potential of metabolomics as a functional genomics tool. Trends in Plant Science, London,
v. 9, p. 418–425, 2004.
BOECKMANN, B. et al. The Swiss-Prot protein knowledgebase and its supplement TrEMBL in 2003. Nucleic
Acids Research, Oxford, v. 31, p. 365–370, 2003.
BORODOVSKY, M.; MCININCH, J. GeneMark: parallel gene recognition for both DNA strands. Computers
and Chemistry, London, v. 17, p. 123-133, 1993.
BUCHWALD, P.; BODOR, N. Proteins: structure and function. Genetics, Bethesda, v. 30, p. 86-88, 1998.
CAMARGO, L. M.; WANG, Q.; BRANDON, N. J. What can we learn from the disrupted in schizophrenia 1
interactome: lessons for target identification and disease biology? Novartis Foundation Symposium, London,
v. 289, p. 208-216, 2008.
CAMON, E. et al. The Gene Ontology Annotation (GOA) Database: sharing knowledge in Uniprot with Gene
Ontology. Nucleic Acids Research, Oxford, v. 32, p. 262–266, 2004.
DELCHER, A. L. et al. Improved microbial gene identification with GLIMMER. Nucleic Acids Research,
Oxford, v. 27, p. 4636-4641, 1999.
DREWS, J. Drug discovery: a historical perspective. Science, Washington, v. 287, p. 1960-1964, 2000.
ESTRADA, E. Quantum-chemical foundations of the topological substructural molecular design. The Journal
of Physical Chemistry A, Washington, v. 10, p. 1021-1027, 2008.
FAYYAD, U. M. Data Mining and knowledge discovery: making sense out of data. IEEE Expert: Intelligent
Systems and Their Applications, Washington, v. 11, p. 20-25, 1996.
FORSLUND, K. et al. Domain tree-based analysis of protein architecture evolution. Molecular Biology and
Evolution, Cary, v. 25, p. 254–264, 2008.
GE, H. et al. Correlation between transcriptome and interactome mapping data from Saccharomyces cerevisiae.
Nature Genetics, New York, v. 29, p. 482-486, 2001.
GORODKIN, J.; STRICKLIN, S. L.; STORMO, G. D. Discovering common stem-loop motifs in unaligned
RNA sequences. Nucleic Acids Research, Oxford, v. 29, p. 2135-2144, 2001.
HOOGLAND, C. et al. SWISS-2DPAGE, ten years later. Proteomics, Weinheim, v. 4, p. 2352-2356, 2004.
HORNING, E. C.; HORNING, M. G. Human metabolic profiles obtained by GC and GC/MS. Journal of
Chromatographic Science, Niles, v. 9, p. 129–140, 1971.
HUBBARD, T. et al. Ensembl 2005. Nucleic Acids Research, Oxford, v. 33; p.447–453, 2005.
HULO, N. et al. The 20 years of PROSITE. Nucleic Acids Research, Oxford, v. 36, p. 245-249, 2008.
ITO, T. et al. A comprehensive two-hybrid analysis to explore the yeast protein interactome. Proceedings of
the National Academy of Sciences, Washington, v. 98, p. 4569-4574, 2001.
JENKINS, H. et al. A proposed framework for the description of plant metabolomics experiments and their
results. Nature Biotechnology, New York, v. 22, p. 1601–1605, 2004.
KANZ, C. et al. The EMBL nucleotide sequence database. Nucleic Acids Research, Oxford, v. 33, p. 29–33,
2005.
KEMMEREN, P. et al. Protein interaction verification and functional annotation by integrated analysis of
genome-scale data. Molecular Cell, St. Louis, v. 9, p.1133–1143, 2002.
KERSEY, P. J. et al. Integr8 and genome reviews: integrated views of complete genomes and proteomes.
Nucleic Acids Research, Oxford, v. 33, p.297–302, 2005.
KITANO, H. Systems biology: a brief overview. Science, Washington, v. 295, p. 1662-1664, 2002.
KLEIN, R. J.; EDDY, S. R. RSEARCH: Finding homologs of single structured RNA sequences. BMC
Bioinformatics, London, v. 4, p. 44, 2003.
KOPKA, J. et al. GMD@CSB.DB: the Golm metabolome database. Bioinformatics, Oxford, v. 21, p.1635–
1638, 2005.
KRALLINGER, M.; VALENCIA, A. Text-mining and information-retrieval services for molecular biology.
Genome Biology, London, v. 6, p. 224, 2005.
MANCINELLI, L.; CRONIN, M.; SADÉE, W. Pharmacogenomics: the promise of personalized medicine.
American Association of Pharmaceutical Scientists, Arlington, v. 2, p. E4, 2000.
MATHEWS, D. H.; TURNER, D. H. Dynalign: an algorithm for finding the secondary structure common to
two RNA sequences. Journal of Molecular Biology, San Diego, v. 317, p. 191-203, 2002.
MATTICK, J. S. Challenging the dogma: the hidden layer of non-protein-coding RNAs in complex organisms.
BioEssays, Hoboken, v. 25, p. 930-939, 2003.
MATTICK, J. S. Non-coding RNAs: the architects of eukaryotic complexity. EMBO Reports, Heidelberg, v.
2, p. 986-991, 2001.
MATTICK, J. S.; GARDEN, M. J. The evolution of controlled multitasked gene networks: the role of introns
and other noncoding RNAs in the development of complex organisms. Molecular Biology and Evolution,
Oxford, v. 18, p.1611-1630, 2001.
MEYER, I. M. A practical guide to the art of RNA gene prediction. Brief in Bioinformatics, Oxford, v. 8, p.
396-414, 2007.
MULDER, N. J. et al. InterPro: progress and status in 2005. Nucleic Acids Research, Oxford, v. 33, p. 201–
205, 2005.
NEBERT, D. W.; VESELL, E. S. Advances in pharmacogenomics and individualized drug therapy: exciting
challenges that lie ahead. European Journal Pharmacology, Amsterdam, v. 500, p. 267-280, 2004.
PIRAZZOLI, A.; RECCHIA, G. Pharmacogenetics and pharmacogenomics: are they still promising?
Pharmacology Research, Maryland Heights, v. 49, p. 357-361, 2004.
PRUITT, K. D.; TATUSOVA, T.; MAGLOTT, D. R. NCBI Reference Sequence (RefSeq): a curated non-
redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Research, Oxford, v. 33, p.
501–504, 2005.
QUEVILLON, E. et al. InterProScan: protein domains identifier. Nucleic Acids Research, Oxford, v. 33, p.
116–120, 2005.
RATTEI, T. et al. SIMAP-- Structuring the network of protein similarities. Nucleic Acids Research, Oxford, v.
36, p. 289-292, 2008.
RUAL, J. F. Towards a proteome-scale map of the human protein-protein interaction network. Nature,
London, v. 437, p. 1173-1178, 2005.
SANCHEZ, C. et al. Grasping at molecular interactions and genetic networks in Drosophila melanogaster
using FlyNets, an Internet database. Nucleic Acids Research, Oxford, v. 27, p. 89-94, 1999.
SCHENA, M. et al. Quantitative monitoring of gene expression patterns with a complementary DNA
microarray. Science, Washington, v. 270, p. 467-470, 1995.
SCHENA, M. et al. Parallel human genome analysis: microarray-based expression monitoring of 1000 genes.
Proceedings of the National Academy of Sciences, Washington, v. 93, p. 10614-10619, 1996.
SCHUSTER, P. et al. From sequences to shapes and back: a case study in RNA secondary structures.
Proceedings of the National Academy of Sciences, Washington, v. 255, p. 279-284, 1994.
SHALON, D.; SMITH, S. J.; BROWN, P. O. A DNA microarray system for analyzing complex DNA samples
using two-color fluorescent probe hybridization. Genome Research, New York, v. 6, p. 639-645, 1996.
SHARAN, R.; IDEKER, T. Modeling cellular machinery through biological network comparison. Nature
Biotechnology, New York, v. 24, p. 427-433, 2006.
TATENO, Y. et al. DDBJ in collaboration with mass-sequencing teams on annotation. Nucleic Acids
Research, Oxford, v. 33, p. 25–28, 2005.
THE HONEYBEE GENOME SEQUENCING CONSORTIUM. Insights into social insects from the genome of
the honeybee Apis mellifera. Nature, London, v. 443, p. 931–949, 2006.
THOMPSON, J. D. et al. The CLUSTAL_X windows interface: flexible strategies for multiple sequence
alignment aided by quality analysis tools. Nucleic Acids Research, Oxford, v. 25, p. 4876-4682, 1997.
VENTER, J. C. et al. The sequence of the human genome. Science, Washington, v. 291, p. 1304-1351, 2001.
VETTORE, A. L. et al. Analysis and functional annotation of an expressed sequence tag collection for tropical
crop sugarcane. Genome Research, New York, v. 13, p. 2725–2735, 2003.
WAIN, H. M. et al. Genew: The Human Gene Nomenclature Database, 2004 updates. Nucleic Acids
Research, Oxford, v. 30, p. 169–171, 2002.
WINGENDER, E. et al. Integrative content-driven concepts for bioinformatics “beyond the cell”. Journal of
Biosciences, Karnataka, v. 32, p. 169-180, 2007.
WU, C. H. et al. The protein information resource. Nucleic Acids Research, Oxford, v. 31, p. 345–347, 2003.
YANDELL, M. D.; MAJOROS, W. H. Genomics and natural language processing. Nature Reviews Genetics,
London, v. 3, p. 601-610, 2002.
YAO, Z.; WEINBERG, Z.; RUZZO, W. L. CMfinder--a covariance model based RNA motif finding algorithm.
Bioinformatics, Oxford, v. 22, p. 445-452, 2006.
ZUKER, M. Computer prediction of RNA structure. Methods in Enzymology, San Diego, v. 180, p. 262-288,
1989.