Academia.eduAcademia.edu

Modelagem conceitual do sistema de banco de dados ProteinWorldDB

2012

MINISTÉRIO DA SAÚDE FUNDAÇÃO OSWALDO CRUZ INSTITUTO OSWALDO CRUZ Doutorado em Programa de Pós-Graduação em Biologia Computacional e Sistemas MODELAGEM CONCEITUAL DO SISTEMA DE BANCO DE DADOS PROTEINWORLDDB MÁRCIA MÁRTYRES BEZERRA Rio de Janeiro Dezembro de 2012 INSTITUTO OSWALDO CRUZ Programa de Pós-Graduação em Biologia Computacional e Sistemas MÁRCIA MÁRTYRES BEZERRA Modelagem Conceitual do Sistema de Banco de Dados ProteinWorldDB Tese apresentada ao Instituto Oswaldo Cruz como parte dos requisitos para obtenção do título de Doutor em Biologia Computacional e Sistemas Orientador (es): Prof. Dr. Antonio Basílio de Miranda Prof. Dr. Sérgio Lifschitz RIO DE JANEIRO Dezembro de 2012 2II Ficha catalográfica elaborada pela Biblioteca de Ciências Biomédicas/ ICICT / FIOCRUZ - RJ B574 Bezerra, Márcia Mártyres Modelagem conceitual do sistema de banco de dados ProteinWorldDB / Márcia Mártyres Bezerra. – Rio de Janeiro, 2012. xi, 134 f. : il. ; 30 cm. Tese (Doutorado) – Instituto Oswaldo Cruz, Pós-Graduação em Biologia Computacional e Sistemas, 2012. Bibliografia: f. 88-95 1. Banco de dados biológicos. 2. Modelagem conceitual de banco de dados. 3. Genômica comparativa. 4. Projeto comparação de genomas. 5. Sistema de banco de dados ProteinWorldDB. I. Título. CDD 570.285 3III INSTITUTO OSWALDO CRUZ Programa de Pós-Graduação em Biologia Computacional e Sistemas MÁRCIA MÁRTYRES BEZERRA MODELAGEM CONCEITUAL DO SISTEMA DE BANCO DE DADOS PROTEINWORLDDB ORIENTADOR (ES): Prof. Dr. Antonio Basílio de Miranda Prof. Dr. Sérgio Lifschitz Aprovada em: 20/dezembro/2012 EXAMINADORES: Prof. Dr. Alberto Martín Rivera D Ávila Prof. Dr. Laurent Dardenne Prof. Dr. Luiz Fernando Seibel Prof. Dr. André Nóbrega Pitaluga Prof. Dr. Fabio Faria da Mota (IOC/FIOCRUZ) - Presidente (LNCC/RJ) (PUC/RJ) (IOC/FIOCRUZ) (IOC/FIOCRUZ) Rio de Janeiro, 20 de dezembro de 2012 4 IV À Guilherme, Daniel e Hélio V5 INSTITUTO OSWALDO CRUZ MODELAGEM CONCEITUAL DO SISTEMA DE BANCO DE DADOS PROTEINWORLDDB RESUMO TESE DE DOUTORADO EM BIOLOGIA COMPUTACIONAL E SISTEMAS Márcia Mártyres Bezerra Esta tese descreve o projeto conceitual do sistema de banco de dados ProteinWorldDB (PWDB). Um ponto importante da proposta do PWDB é permitir a construção de consultas e procedimentos no domínio da genômica comparativa sem a necessidade de comparação de sequências. Além disso, o PCG comparou milhões de sequências de proteína, incluindo o conjunto proteico total de centenas de genomas completos, utilizando programação dinâmica, e não um método heurístico, para os cálculos de similaridade. A estratégia do PCG, assim como a genômica, está fundamentada no conhecimento de que sequências biológicas por si só são pouco informativas; elas precisam ser analisadas a partir de um enfoque comparativo para a inferência de homologia. A comparação de sequências de diferentes organismos introduz uma perspectiva evolutiva ao processo, e o estudo comparativo de genomas completos pode ampliar a escala do conhecimento de um único processo biológico para o de sistemas biológicos complexos em células e organismos. Para responder eficientemente questões dessa natureza, o esquema conceitual apresentado associa bases de dados biológicos de referência aos índices de similaridade já pré-calculados e armazenados pelo PCG. Utilizando um formato gráfico de fácil compreensão para representar conceitos e relacionamentos (diagrama ER), o esquema foi proposto para facilitar o planejamento de consultas e procedimentos por pesquisadores da área de genômica (sem conhecimento de linguagens de bancos de dados), assim como guiar o desenvolvimento e a implementação física do PWDB por profissionais da área de computação. Alguns exemplos são apresentados com o objetivo de demonstrar a utilização do esquema conceitual para a especificação de consultas e procedimentos, mesmo antes da existência de um esquema lógico. O esquema pode ser facilmente estendido. Módulos anexos podem ser inseridos/removidos para incluir outros projetos, baseados em comparação de sequências de proteína, que se beneficiem das informações fornecidas pelo módulo central do esquema e novas bases de dados, específicas de diferentes áreas (-ômicas, por exemplo), podem ser integradas ao esquema. 6VI INSTITUTO OSWALDO CRUZ CONCEPTUAL MODELING OF THE DATABASE SYSTEM PROTEINWORLDDB ABSTRACT PHD THESIS IN COMPUTATIONAL BIOLOGY AND SYSTEMS Márcia Mártyres Bezerra This thesis describes the conceptual design of the database system ProteinWorldDB (PWDB). An important point of the PWDB proposal is to allow the construction of queries and procedures in the field of comparative genomics without the need for sequence comparison. Moreover, the PCG compared millions of protein sequences, including the entire set of proteins from hundreds of complete genomes using dynamic programming, rather than a heuristic method, for calculating similarity PCG‘s strategy, like that of genomic studies in general, is grounded in the knowledge that biological sequences alone are uninformative. They need to be analyzed from a comparative approach to infer homology. The comparison of sequences from different organisms introduces an evolutionary perspective to the process and the comparative study of complete genomes can expand our knowledge from a single biological process all the way to complex biological systems in cells and organisms. To efficiently answer questions of this nature, the conceptual schema links selected international reference biological databases to similarity indexes already precomputed and stored by the PCG. By using an easily understandable graphic format to represent concepts and relationships (ER diagram), the schema was proposed to help the design of queries and procedures by genomic researchers (who may not have knowledge of database languages) as well as to guide the development and physical implementation of the system by developers. Some examples are presented to demonstrate the use of the conceptual schema for specifying queries and procedures, even before the existence of a logical schema. The schema can be easily extended. Additional modules can be inserted/removed to include other protein sequences comparisons projects that may benefit from the information provided by the schema´s central module. Likewise, new databases specific to different areas (-omics, for example) can be cross-referenced to the schema. 7 VII ÍNDICE RESUMO................................................................................................................... VI ABSTRACT .............................................................................................................. VII 1 INTRODUÇÃO .................................................................................................. 12 2 OBJETIVOS ...................................................................................................... 29 3 MATERIAL E MÉTODOS ................................................................................. 30 3.1 Projeto Conceitual .................................................................................... 30 3.2 Dados Primários – Sequências ................................................................ 34 3.3 Bases de Dados Biológicos ...................................................................... 38 4 RESULTADOS.................................................................................................. 40 4.1 Modelagem Conceitual ............................................................................. 40 4.2 Esquema Conceitual ................................................................................ 44 5 DISCUSSÃO ..................................................................................................... 54 5.1 Modelagem ............................................................................................... 54 5.2. Questões Fundamentais em Genômica ................................................... 59 5.3. Validação do Modelo ................................................................................ 69 5.4. Consultas Implementadas no PWDB v.1 .................................................. 77 5.5. Extensão do Modelo ................................................................................. 84 6 CONCLUSÕES ................................................................................................. 85 7 REFERÊNCIAS BIBLIOGRÁFICAS.................................................................. 88 8 ANEXOS ........................................................................................................... 96 I. Design and Implementation of ProteinWorldDB [Lifschitz, Bezerra et al. 2012] ................................................................... 97 II. ProteinWorldDB: Querying Radical Pairwise Alignments among Protein Sets from Complete Genomes [Otto, Bezerra et al., 2010] .......... 109 III. Projeto Comparação de Genomas – PCG ............................................... 112 IV. Bases de Dados Biológicos ...................................................................... 118 8 VIII ÍNDICE DE FIGURAS Figura 1.1 NAR Database Issue – vol. 40, january 2012 ......................................... 15 Figura 1.2 Alinhamento e comparação “par-a-par” de duas sequências de DNA .. 18 Figura 3.1 Diagrama simplificado com as principais fases do projeto de um BD ........ 31 Figura 3.2 Elementos básicos de um esquema conceitual representado por um Diagrama Entidade-Relacionamento...................................................... 32 Figura 3.3 Relacionamento trabalha-em ................................................................. 33 Figura 3.4 Relacionamento gerencia....................................................................... 33 Figura 3.5 “Recorte” do output resultante da execução do SSEARCH ................... 35 Figura 4.1 “CDS feature” – NCBI data model .......................................................... 41 Figura 4.2 Exemplo usado na FIGURA 4.1 ............................................................. 43 Figura 4.3 Módulo CENTRAL ..................................................................................... 44 Figura 4.4 Módulos TAXONOMIA, HIT e ANOTAÇÃO ..................................................... 45 Figura 4.5 Módulo HIT .............................................................................................. 45 Figura 4.6 Módulo TAXONOMIA ................................................................................. 46 Figura 4.7 Módulo ANOTAÇÃO................................................................................... 46 Figura 4.8 Esquema conceitual representado por um diagrama EntidadeRelacionamento ..................................................................................... 47 Figura 5.1 Exemplos de homologia, ortologia e paralogia ....................................... 61 Figura 5.2 Figura 1 de [Sjölander K et al., 2011] ..................................................... 69 Figura 5.3 Menu de Consultas da interface do PWDB v.1 ...................................... 78 Figura 5.4 Parâmetros da Consulta 1...................................................................... 78 Figura 5.5 Resultado 1 – seis proteínas selecionadas de acordo com os parâmetros da Consulta1 ....................................................................... 79 Figura 5.6 Parâmetros da Consulta 2...................................................................... 80 Figura 5.7 Resultado 2 – a Consulta 2 tem os mesmos parâmetros Pfam e genoma da Consulta 1 (cujo resultado são as seis proteínas da FIGURA 5.5), além do limite de busca de genomas = todos ................. 80 Figura 5.8 Parâmetros da Consulta 3...................................................................... 81 Figura 5.9 Resultado 3.1: 28 proteínas do genoma S. cerevisiae não possuem identidade de pelo menos 80% com cobertura do alinhamento de 90% com as outras proteínas do PWDB v.1 .......................................... 82 IX 9 Figura 5.10 Resultado 3.2: 11 proteínas do genoma de E. coli 536 não possuem identidade de pelo menos 80% com cobertura do alinhamento de 90% com as outras proteínas do PWDB v.1 .......................................... 82 Figura 5.11 Menu para a escolha de parâmetros para download do resultado da comparação entre dois proteomas (“preditos”) completos ..................... 83 Figura III.1 Exemplo do resultado de uma comparação produzido pelo SSEARCH ............................................................................................ 113 Figura IV.1.1 Registro RefSeq NP_061223 ............................................................... 120 X 10 LISTA DE TABELAS Tabela 1.1 Exemplo de algumas ciências “–ômicas” ............................................. 17 Tabela 5.1 Estatísticas de sequências da base de dados RefSeq em 2013 e 2007 ..................................................................................................... 56 Tabela 5.2 Resumo de entidades e demais conceitos do esquema conceitual da FIGURA 4.8 ..................................................................................... 58 Tabela 5.3 Resumo de relacionamentos do esquema conceitual da FIGURA 4.8................................................................................... 59 Tabela III.1 Descrição dos parâmetros listados no resultado do SSEARCH da comparação de um par de sequências ......................................... 114 Tabela IV.1.1 Estatísticas da versão 61 da base de dados RefSeq ......................... 118 Tabela IV.1.2 Códigos de revisão de registros ......................................................... 120 Tabela IV.1.3 Prefixos RefSeq e tipos de moléculas ................................................ 121 Tabela IV.1.4 Resumo por tipo de molécula da TABELA IV.1.3............................... 121 Tabela IV.2.1 Tipos de evidência para a existência de uma proteína ...................... 125 Tabela IV.6.1 Lista dos 16 bancos de dados principais ........................................... 134 Tabela IV.6.2 Estatística em 29/08/2013 .................................................................. 134 11 XI 1. INTRODUÇÃO Esta tese discute a modelagem conceitual do sistema de banco de dados ProteinWorldDB1 (PWDB), cujo conjunto de dados primário é o resultado de comparações “par-a-par” entre milhares de sequências de aminoácidos executadas pelo Projeto Comparação de Genomas2 (PCG). Como diferencial do PCG, pode-se citar:  A utilização da capacidade ociosa de computadores pessoais de voluntários, através de uma infra-estrutura de computação distribuída, oferecida pelo World Community Grid3 (WCG);  O projeto possui um grande potencial multidisciplinar, permitindo a troca de experiência entre diferentes áreas de pesquisa;  Foi o primeiro projeto da América Latina aceito para processamento pelo WCG;  O programa de comparação de sequências utilizado foi o SSEARCH4,5;  O PCG gerou uma matriz de aproximadamente 1 Terabyte (TB), com 4,2 x 109 linhas. Cada linha exibe o resultado de similaridade entre um par de sequências de aminoácidos;  Desta forma, índices de similaridade entre milhares de pares de sequências de aminoácidos já estão pré-calculados e armazenados nesta matriz, e podem ser recuperados sem a necessidade de uma nova comparação. A estratégia do PCG está fundamentada no conhecimento de que sequências biológicas por si só são pouco informativas, elas precisam ser analisadas a partir de um enfoque comparativo, utilizando informações pré-existentes baseadas em relacionamentos e funções similares, para a inferência de homologia6. A comparação de sequências de diferentes organismos introduz uma perspectiva evolutiva ao processo7. 1 ANEXO I. ANEXO III. 3 ANEXO III. 4 O SSEARCH [http://fasta.bioch.virginia.edu/] é uma ferramenta, disponível gratuitamente, que busca o alinhamento local ótimo entre duas sequências, e utiliza o algoritmo Smith-Waterman [Smith and Waterman, 1981]. 5 Ao contrário de buscas baseadas em heurísticas, buscas ótimas garantem encontrar a melhor pontuação para o alinhamento, dado um determinado conjunto de parâmetros (http://www.ebi.ac.uk/services/proteins). 6 Existência de relacionamento evolutivo. Ver DISCUSSÃO. 7 Theodosius Dobzhansky’s: “Nothing in biology makes sense except in the light of evolution” (The American Biology Teacher, March 1973 (35:125-129) (http://www.pbs.org/wgbh/evolution/library/10/2/l_102_01.html). 12 2 Um ponto relevante dessa proposta refere-se ao fato de que o foco tradicional da genética e biologia molecular esteve direcionado, ao longo dos anos, para o entendimento da função de um gene importante num processo biológico específico, enquanto que a área mais recente da genômica tem seu foco no conjunto completo de genes de um organismo (além de outras regiões estruturais e reguladoras). Sob essa nova perspectiva, o estudo comparativo de genomas completos pode ampliar o conhecimento de um único processo biológico para o de sistemas biológicos complexos em células e organismos. A análise comparativa de sequências é parte da rotina da pesquisa biológica atual; o tempo dispendido no processo é considerável e o procedimento utilizado para as comparações é computacionalmente intensivo. Além disso, essas análises costumam ser apenas a primeira etapa de uma série de procedimentos mais elaborados, fornecendo os primeiros indícios para definir os próximos passos em direção a novas descobertas e inferências. Muitas vezes, comparações das mesmas sequências são repetidas inúmeras vezes. O PCG comparou o conjunto proteico total de centenas de genomas8 e, desta forma, permitiu que a etapa inicial de comparação de sequências fosse ultrapassada. Mais claramente, o PCG armazenou os índices de similaridade9 obtidos a partir das comparações para serem reutilizados, abolindo a necessidade da repetição de uma mesma comparação. O conjunto de requisitos do PCG10 expande-se por um domínio bastante amplo da genômica, e a importância do projeto está diretamente ligada à forma como seus resultados serão tratados. Neste contexto, existe a necessidade de um sistema muito bem elaborado para armazenar e gerenciar os resultados eficientemente, de forma a atender estes requisitos. Um sistema de banco de dados deve apresentar um projeto que vise à organização das informações e à utilização de técnicas para que o sistema apresente boa performance e facilidade de manutenção. A organização do banco de dados é uma das etapas mais importantes, e seu desenho deve ser representado, primeiramente, em um esquema conceitual, que é uma representação gráfica do modelo conceitual. 8 DISCUSSÃO e ANEXO III. Validados estatisticamente pelo programa de comparação de sequências – ANEXO III. 10 ANEXO III. 13 9 GENÔMICA, BIOINFORMÁTICA E BANCOS DE DADOS Da Genômica à Biologia de Sistemas Inicialmente, as bases de dados ganharam proeminência na biologia molecular como repositórios centrais de dados gerados pelos projetos de sequenciamento em larga escala. Com o crescimento de dados experimentais de diferentes áreas das ciências da vida devido aos avanços de tecnologias de alto rendimento, além das bases de dados primárias de sequências houve um grande aumento de bancos de dados de outras disciplinas biológicas para armazenar diferentes tipos de dados moleculares (FIGURA 1.1). Hoje, não mais a geração, mas sim a capacidade de processar, gerenciar e analisar esses dados, assim como interpretar as informações resultantes tornou-se um grande desafio para o avanço das ciências da vida [Katari et al., 2010] – vistas como discovery sciences [Ideker et al., 2001]. Esta grande produção de dados, diária, requer soluções de gerenciamento mais sofisticadas, e a disponibilidade da internet como uma moderna estrutura para trocas científicas tem gerado novas demandas com relação à acessibilidade dos dados. Além disso, o relativamente novo campo da Biologia de Sistemas tem aumentado ainda mais a demanda de requerimentos dos bancos de dados biológicos. A visão geral da biologia de sistemas é ir além da era dos estudos reducionistas de partes isoladas de interesse – por exemplo, proteínas e genes considerados individualmente – e atingir um conhecimento de estruturas mais complexas e sua dinâmica, como redes reguladoras, células, órgãos e, em última análise, o entendimento da biologia de todo o organismo como um sistema. Uma grande quantidade dos dados produzidos atualmente ainda provém de projetos de sequenciamento de genomas, e irão continuar impulsionados pela acentuada queda no preço das novas tecnologias de sequenciamento e pela busca contínua de maior conhecimento sobre a vida, organismos, relações evolutivas e sistemas biológicos, adaptados e diferenciados pelo ambiente. No entanto, uma sequência por si só não é informativa; para o desenvolvimento de novas hipóteses é necessário analisar sua(s) função(ões) e relacionamento(s) com outras sequências. Atualmente, uma parte substancial da rotina diária da pesquisa biológica ainda é dispendida na análise de sequências; esse tipo de análise pode ser o passo inicial para a descoberta de novas conexões e regras biológicas importantes para um maior entendimento de sistemas complexos [Allen G, 2006]. 14 FIGURA 1.1. NAR Database issue – Vol. 40, January 2012: inclui 1.380 bancos de dados distribuídos em 14 categorias e 41 subcategorias. A edição de 2012 lista 92 novos bancos de dados online e 77 artigos de atualização de bancos de dados já descritos em edições anteriores. Um problema que atinge todas as áreas das ciências biológicas é o da confiabilidade de dados; em inúmeras situações não existe garantia de que os dados armazenados nos bancos de dados sejam “biologicamente” corretos. Uma fonte comum de problemas é a propagação de erro em anotações de sequências através do uso de mecanismos automatizados de anotação [Philippi and Köhler, 2006]. Além disso, o erro humano é outra frequente fonte de enganos; apesar do procedimento manual de curar dados para assegurar a qualidade das bases de dados ser importante, existe um alto potencial para a introdução de erros. Anotações incorretas, se inseridas nos bancos de dados, multiplicam-se em subsequentes adições e podem se acumular numa proporção preocupante [Bell et al., 2012]. Um ponto importante para uma interpretação mais holística das ciências biológicas, reconhecido na literatura científica, é que os blocos construtores básicos para a elaboração de modelos de sistemas biológicos são os dados experimentais existentes, que estão armazenados em milhares de bancos de dados distintos [Pennisi E, 2005; Roos DS, 2001; Augen J, 2001]. Neste contexto, temas centrais como uma correta modelagem e integração de dados, e a correção de anotações duvidosas são pré-requisitos fundamentais para qualquer estudo desde a genômica até a biologia de sistemas. 15 Além disso, vários tipos de informação costumam estar ausentes, incluindo a anotação funcional de genes e proteínas, relações genótipo-fenótipo e informações detalhadas de vias bioquímicas, dentre outros. Mesmo quando a informação baseada em similaridade de sequências é considerada, apenas 50% de todos os passos das reações de vias metabólicas podem ser conectadas a genes e proteínas que as catalisam [Karp et al., 2005]. Consequentemente, a parametrização de modelos de sistemas biológicos pode ser considerada bastante difícil, interferindo na confiança e potencial preditivo dos resultados. Muito dos atuais esforços em biologia de sistemas procura integrar os resultados das diferentes tecnologias científicas atuais. Uma das grandes dificuldades reside em converter dados em informação que forneça insights e represente conhecimento. O processo inicial requer limpeza e coerência de dados, tendo em mente que transformar informação em conhecimento requer interpretar o real significado dos dados [Brenner, 2003]. Desta forma, para lidar com a complexidade dos dados acumulados, extrair conhecimento do comportamento celular subjacente e eventualmente construir modelos preditivos, é necessário um amplo espectro de ferramentas computacionais. Mesmo assim, representações computacionais podem não ser suficientes devido a limitações computacionais, experimentais e metodológicas. [Mendes et al. 2004; Sokhansanj et al., 2005] acreditam que o aumento da qualidade e coerência de dados, disponibilidade de bancos de dados integrados, e abordagens que possam gerenciar variabilidade experimental deverão ser cada vez mais necessários para uma maior confiabilidade de representações in silico. Existe uma longa tradição de pesquisas sobre integração de bancos de dados na ciência da computação. Porém, apesar de já ser reconhecida há muitos anos como uma tecnologia chave nas ciências biológicas [Stein LD, 2003], esta ainda é uma área que requer constantes pesquisas devido à natureza da informação existente nas bases de dados biológicos: heterogeneidade, distribuição, tamanho, necessidade de frequentes atualizações e pobreza de semântica [Philippi S, 2004; Philippi and Köhler, 2006; Iskandar and Naomie, 2006]. 16 Bioinformática Partindo da análise de sequências biológicas, a tecnologia de coleta de dados genômicos foi sendo incrementada, assim como a geração de resultados oriundos das diversas ciências “– ômicas” (TABELA 1.1). Com isso, a necessidade de novos métodos para o gerenciamento e análise dessa massiva quantidade de dados foi ampliada, e o termo bioinformática evoluiu para incluir a análise matemática, estatística e computacional dos dados genômicos e demais ciências “–ômicas”. A bioinformática é um campo multidisciplinar, estende-se desde a modelagem de bancos de dados à engenharia de sistemas, inteligência artificial, matemática e estatística aplicada, com um foco mais direcionado para a ciência genômica. Hoje, a disciplina compartilha grande parte de seu domínio com a biologia computacional, sendo que esta última tem o foco mais direcionado ao desenvolvimento de modelos matemáticos para a simulação de sistemas biológicos. Neste contexto, é bom frisar que a utilidade de um modelo é muitas vezes influenciada pela qualidade dos dados experimentais e mecanismos subjacentes, fato que evidencia a importância do gerenciamento eficiente e a correta interpretação dos dados biológicos que vêm sendo produzidos. TABELA 1.1 Exemplo de algumas ciências “–ômicas”. Envolve o estudo de genes e da sua função. A Genômica visa compreender a estrutura do genoma, incluindo mapeamento de genes, sequenciamento de DNA, e explorar os mecanismos moleculares e da interação de fatores genéticos e ambientais em organismos. TRANSCRIPTÔMICA É o estudo dos transcriptomas, o conjunto completo de transcritos de RNA produzido pelo genoma de uma só vez. É especificamente focada em como os padrões de transcrição são afetados por doenças, pelo desenvolvimento, ou fatores ambientais, tais como hormônios, drogas, etc. PROTEÔMICA É o estudo em larga escala de proteínas em sistemas biológicos. O proteoma é a totalidade dos componentes de proteínas, incluindo as modificações feitas a um conjunto específico de proteínas, produzidas por um organismo ou sistema. Este proteoma pode variar com o tempo e sofrem modificações sob condições experimentais diferentes ou stress, que uma célula ou organismo sofre. METABOLÔMICA É focada em perfis e na quantificação de pequenos compostos que ocorrem naturalmente e que coletivamente constituem o assim chamado metaboloma. Pequenas moléculas servem como assinaturas diretas de atividade bioquímica e, portanto, são mais fáceis de serem correlacionadas com fenótipos. GENÔMICA 17 Algoritmos de Comparação Local de Sequências A utilização de softwares para o alinhamento e comparação de sequências biológicas11 (FIGURA 1.2) para a identificação e mensuração da similaridade entre elas é um procedimento básico e fundamental em bioinformática. Trata-se de uma metodologia amplamente utilizada com o objetivo de adquirir informações sobre genes e proteínas desconhecidos, por exemplo, baseando-se em sequências já conhecidas e caracterizadas. O grau de similaridade12, avaliado estatisticamente pelos programas de comparação de sequências13, pode sugerir homologia (existência de relacionamento evolutivo) entre elas. FIGURA 1.2. Alinhamento e comparação “par-a-par’ de duas sequências de DNA (BLAST Glossary, http://www.ncbi.nlm.nih.gov/books/NBK62051/). Os atuais programas para comparação de sequências utilizam diferentes métodos que fornecem resultados satisfatórios na maioria dos casos, mas também possuem seus prós e contras. Devem ser escolhidos de acordo com o propósito do experimento, do tamanho do conjunto de dados a ser comparado e da estrutura computacional disponível, sem abrir mão da precisão dos resultados. Em projetos de larga escala (por exemplo, comparação entre pares de todas as sequências de proteína de n genomas – “par-a-par” e “todas-contra-todas”14), o tempo de processamento e espaço computacional terá um grande peso. Para uma comparação “resíduo-a-resíduo”, duas ou mais sequências são alinhadas. No alinhamento, as posições relativas das sequências são ajustadas para otimizar (normalmente maximizar) a pontuação do alinhamento – de acordo com alguma matriz de pontuação de referência. Em alguns casos, alguns espaços podem ser inseridos, com penalidades associadas, em uma ou mais sequências para otimizar esta pontuação. BLAST Glossary, http://www.ncbi.nlm.nih.gov/books/NBK62051/ 12 A similaridade entre duas sequências pode ser expressa como o percentual de resíduos idênticos e/ou percentual de substituições positivas entre elas (normalmente para aminoácidos). 13 Por exemplo, BLAST (Basic Local Alignment Search Tool, [Altschul et al., 1990, 1997]) e SSEARCH. 14 A cada execução do programa de comparação, um par de sequências é alinhado e comparado; e todas as sequências são pareadas e comparadas (pelo menos) uma vez. 18 11 A etapa de comparação de sequências visando à identificação de homologia normalmente é apenas uma das primeiras fases de procedimentos computacionais automatizados, em que resultados gerados por um processo são utilizados como entrada para um processo posterior. Deste modo fica clara a importância da qualidade dos resultados gerados nas etapas iniciais. A possibilidade de não identificar (ou identificar incorretamente) um resultado inicial pode comprometer a identificação de algum outro padrão importante numa fase futura. A escolha do algoritmo utilizado para as comparações de sequências certamente refletirá nos resultados das buscas de similaridade em bancos de dados e na identificação de homologias. Mas é preciso lembrar que o algoritmo utilizado não é o único parâmetro para medida de acurácia e precisão15 dos resultados. A matriz de substituição16 selecionada, assim como os valores escolhidos para a contabilidade de abertura e extensão de gaps17, tem grande influência no resultado de qualquer método de comparação de sequências de nucleotídeos ou aminoácidos. As vantagens e desvantagens de dois dos mais utilizados algoritmos de comparação de sequências, BLAST [Altschul et al., 1990, 1997] e Smith-Waterman (SW) [Smith and Waterman, 1981], foram discutidas em [Shpaer et al., 1996]. Estes autores mostraram diferenças entre os dois métodos com relação à acurácia e velocidade nas comparações com bases de dados. O algoritmo SW utiliza o método de programação dinâmica 18, e encontra o 15 Exatidão ou Acurácia é o grau de concordância entre o resultado de uma medição e o valor verdadeiro do mensurando (grandeza específica submetida à medição). Precisão é um conceito qualitativo para indicar o grau de concordância entre os diversos resultados experimentais obtidos em condições de repetitividade. Assim, boa precisão significa erro estatístico pequeno, de forma que os resultados apresentam boa repetitividade. Note, entretanto, que mesmo com boa precisão a exatidão ou acurácia pode ser ruim caso exista erro sistemático grande (Introdução à teoria de erros, Instituto Tecnológico de Aeronáutica, http://www.fis.ita.br/labfis24/erros/errostextos/teor_erros1.htm, em 24/10/2013). 16 Uma matriz de substituição contém valores proporcionais à probabilidade de que o aminoácido i seja transformado no aminoácido j, para todos os pares de aminoácidos. Tais matrizes são construídas através da montagem de uma grande e diversa amostra de alinhamentos entre pares de aminoácidos. Se a amostra é suficientemente grande para ser estatisticamente significativa, as matrizes resultantes devem refletir as verdadeiras probabilidades de mutações que ocorrem através de um período de evolução (NCBI – Glossário, http://www.ncbi.nlm.nih.gov/books/NBK21106/). 17 Um espaço introduzido num alinhamento para compensar inserções e deleções em uma das sequências em relação à outra. Para prevenir o acúmulo de muitos espaços num alinhamento, impõe-se uma penalidade fixa na pontuação do alinhamento para a introdução do primeiro espaço, e a extensão do gap para englobar nucleotídeos ou aminoácidos adicionais é penalizado de acordo com o número de espaços introduzidos (NCBI – Glossário, http://www.ncbi.nlm.nih.gov/books/NBK21106/). 18 Programação dinâmica funciona basicamente construindo-se uma tabela para armazenar resultados intermediários que são utilizados posteriormente para obter o resultado final. Para demonstrar a idéia geral, suponha o problema de ir do ponto A até o ponto E usando o caminho mais curto. No caso, o ponto C encontrase entre A e E. Se o menor caminho de A até C é conhecido, então basta que se calcule como ir de C até E. Utilizando programação dinâmica pode-se armazenar numa tabela a solução A-C e usá-la posteriormente para decidir o melhor caminho de A até E. http://www.ncbi.nlm.nih.gov/books/NBK6831/, capítulo A05. 19 melhor19 alinhamento local entre pares de sequências. Já o algoritmo BLAST identifica alinhamentos locais ótimos entre pares de sequências utilizando uma heurística20 que procura inicialmente pequenos “pareamentos” (words), e só então estende os alinhamentos a partir dessas words. Segundo [Altschul et al., 1990], este algoritmo é um desdobramento do algoritmo de SW, sendo um modelo otimizado em velocidade, ao contrário do cálculo mais acurado e exato do SW que, muitas vezes, torna-se inviável em projetos de larga escala devido ao consumo de tempo e espaço computacional. [Uchiyama, 2007, Shpaer et al., 1996; Pearson 1991, 1995] discutem a eficiência e aplicabilidade destes dois métodos. Os resultados mostram que o número de falso-positivos, assim como o de falso-negativos, é significativamente menor para o SW e que o risco de uma sequência facilmente detectada pelo SW não ser identificada pelo BLAST é considerável. De forma resumida, o algoritmo de SW, computacionalmente falando, garante encontrar o melhor alinhamento local entre as sequências, enquanto que o BLAST encontra alinhamentos ótimos mas não garante encontrar o melhor. De qualquer forma o BLAST fornece resultados bastante aceitáveis na maioria dos casos, sendo, de longe, o algoritmo mais utilizado na área. A utilização do algoritmo de SW pode ser viável para comparações em larga escalase existir uma estrutura computacional com velocidade de processamento suficiente, e provavelmente distribuída21. Porém, pequenas instituições ou laboratórios podem não ter acesso a esse tipo de recurso; nestes casos, certamente a opção será por um algoritmo como o Blast. Um fato importante a ser lembrado é que a existência de falso-positivos, com um valor de E-value22 <= 0,01, é esperada quando milhões de comparações são executadas. De qualquer forma, a transferência de função e inferência de homologia não deve se basear unicamente nos valores de E-value. A fração de posições idênticas (ou posições positivas, no caso de 19 Com melhor pontuação. Heurística é um método ou processo criado com o objetivo de encontrar soluções para um problema. É um procedimento simplificador (embora não simplista) que envolve a substituição de questões difíceis por outras de resolução mais fácil a fim de encontrar respostas viáveis, ainda que não ótimas. O procedimento pode ser tanto uma técnica de resolução de problemas, como uma operação de comportamento automática, intuitiva e inconsciente. 21 Existem implementações do SW otimizadas em nível de hardware e em processamentos distribuídos em grid e cloud, por exemplo [ANEXO III, Liu et al., 2013; Torbjørn R, 2011; Khajeh et al., 2010; Rognes T, 2010; Liu et al., 2009; Rudnicki et al., 2009; Manavski andValle, 2008; Li et al., 2007; Farrar M, 2007]. 22 O valor esperado representa o número de diferentes alinhamentos, com pontuação igual ou superior a um valor S, que é esperado ocorrer ao acaso numa busca de banco de dados. Quanto menor o E-value, mais significativa é a pontuação do alinhamento (NCBI – BLAST Glossary: http://www.ncbi.nlm.nih.gov/books/NBK62051/). 20 20 aminoácidos) entre um par de sequências assim como a extensão da área de sobreposição, dentre outras propriedades do alinhamento, têm um importante papel nas predições funcionais e evolutivas baseadas em similaridade de sequências [Rost B, 2002; Tian and Skolnick, 2003; Boekhorst and Snel, 2007]. Bancos de Dados Biológicos Um banco de dados pode ser definido como qualquer coleção de dados relacionados e gerenciados por um sistema particular, chamado de SGBD – Sistema Gerenciador de Bancos de Dados. De uma forma mais restritiva, pode-se dizer que um banco de dados é uma coleção de dados persistente, logicamente coerente e inerentemente significativa, com relação a alguns aspectos do mundo real [Elmasri and Navathe, 2011]. A atividade de preparar um banco de dados pode ser dividida em:  Coleta e organização d dados para que possam ser facilmente acessados;  Disponibilização desses dados em um sistema multiusuário. Os autores acima citam como relevantes algumas características de bancos de dados biológicos, como por exemplo:  As definições dos dados biológicos devem ser passíveis de representação numa subestrutura de dados que garanta que informações importantes não sejam perdidas durante a modelagem dos dados;  Devem ser flexíveis ao lidar com tipos e valores de dados. A imposição de restrições deve ser limitada, dentro do possível, uma vez que isso pode excluir exceções. A exclusão desses valores pode resultar em perda de informação relevante;  Precisam dar suporte a consultas complexas. No entanto, usuários sem o conhecimento da estrutura de dados podem não conseguir construir, por conta própria, uma consulta complexa. Deste modo, o sistema deve fornecer ferramentas para que se construam tais consultas. Com o amadurecimento da pesquisa genômica, além de dados de sequências, uma grande quantidade de outros dados biológicos tem sido gerada e armazenada em inúmeros bancos de dados. A informação biológica atual reside em algumas centenas de bancos de dados, públicos e privados, que provêem informações descritivas genômicas, proteômicas, 21 enzimáticas, de expressão gênica, variantes genéticas e ontologias, para citar algumas, suplementadas por múltiplas publicações científicas. No entanto, um problema importante é conseguir relacionar uma mesma entidade biológica (no “mundo real”) em diferentes bases de dados. Fontes de dados distintas geralmente usam identificadores particulares que em alguns casos podem ser conectados através de fontes de mapeamentos de identificadores disponíveis na web, mas muitos bancos de dados não provêem números de acesso únicos, e nos casos que possuem, muitas vezes os números não são estáveis nem em diferentes versões do mesmo banco de dados [Philippi and Köhler, 2006]. Como consequência, em muitos casos, é impossível reproduzir resultados de buscas acuradamente. Bancos de dados têm sido utilizados para gerenciar e integrar grandes quantidades de dados complexos em outras disciplinas por décadas, e servem para dar suporte a métodos de análise provendo uma estrutura para integrar informação de uma variedade de fontes, permitindo buscas mais rápidas e poderosas. [Nelson et al., 2003] fazem um comentário sobre o descuido com os princípios de modelagem de bancos de dados biológicos ser justificado devido à complexidade dos dados; os autores defendem que projetar um banco de dados ignorando todo o conhecimento já acumulado na área de computação é similar a projetar um experimento de biologia molecular ignorando os princípios fundamentais da replicação do DNA. E mesmo que se considere avanços na área de tecnologia de informação, ferramentas para aplicações de sistemas de bancos de dados não terão sucesso se forem implementadas a partir de uma base de dados ineficiente devido a um projeto de modelagem deficiente. Alguns autores com formação em engenharia de software consideram que ferramentas de seu domínio vêm sendo aplicadas à genômica visando, primariamente, o desenvolvimento de algoritmos de análises poderosos e eficientes, mas sem uma atuação mais forte no desenvolvimento de sistemas de informação de qualidade [Mayordomo AM, 2011]. Integração de Dados Devido ao número crescente de bancos de dados de biologia molecular e do seu conteúdo, a integração de bancos de dados nesse domínio é um tema importante de pesquisa. 22 Abordagens existentes têm em comum a compreensão de que são necessários esforços consideráveis para fornecer acesso integrado a fontes de dados heterogêneas [Philippi S, 2004]. Para [Pennisi E, 2005], um equívoco comum é a crença de que os principais problemas de integração de bancos de dados biológicos estão relacionados com a tecnologia utilizada. O autor acredita que, apesar do domínio de tais tecnologias poder ser um desafio, os maiores problemas estão, na realidade, relacionados a estrutura e conteúdo dos próprios bancos de dados que impedem o uso efetivo de tecnologias de integração. São problemas que não apenas possuem efeitos adversos relativos à tarefa de garantir a disponibilidade de dados para a comunidade científica em geral, mas tornam-se um obstáculo ainda maior para a biologia de sistemas [Philippi and Köhler, 2006]. Para a construção de modelos na área de biologia de sistemas o primeiro passo é a identificação de fontes de dados adequadas. [Philippi and Köhler, 2006] citam como um prérequisito para identificar e usar dados, uma descrição, com meta-informação apropriada, ao menos do tipo de dado armazenado, o modo como foram produzidos, diretrizes sobre como foram curados, as estruturas usadas para armazenar os dados e informação sobre o gerenciamento de atualizações e versões. E concordam que, infelizmente, nem todo banco de dados biológicos fornece tal meta-informação. Os repositórios de informação genômica são bastante heterogêneos, muitas vezes usam conceitos distintos ou versões do mesmo termo. Por exemplo, uma alteração numa sequência de DNA pode ser uma variação, mutação, polimorfismo, SNP. Nesses casos, apesar desses termos não representarem exatamente um mesmo conceito, podem ser usados com o mesmo significado em algumas situações, e isso causa confusão quando o dado precisa ser interpretado [Den Dunnen and Antonarakis, 2001]. Como alguns estudos indicam [Richesson and Turley, 2003], esse é um problema para o qual a utilização de metodologias de modelagem conceitual e ontologias são essenciais. Como auxílio a esse tipo de problema, ontologias e vocabulários controlados são frequentemente utilizados nas ciências biológicas como referências semânticas, que possuem definições comuns para entidades do mundo real (conceitos) e as relações entre elas. 23 Referências semânticas muitas vezes são utilizadas para codificar campos em bancos de dados – como por exemplo, “Taxonomy Ids” para espécies no NCBI23 ou “números EC”24 para funções enzimáticas – ao invés de serem criadas manualmente, sujeitas a erros de escrita e descrições livres. E podem ser usadas também para integração semântica de dados [Stevens et al., 2000; Köhler et al., 2003; Ashburner et al., 2000; Philippi and Köhler, 2004]. Por exemplo, se duas fontes de dados armazenam dados sobre proteínas e na estrutura de um dos bancos os dados estão nomeados como “dados_ptn” e no outro como “dados_p”, uma referência de ambos, semanticamente definida pelo conceito ontológico “proteína”, pode ser explorada para conectar as entradas entre as duas fontes de dados, apesar das diferenças ao nível de esquemas. Modelagem Conceitual Na ciência da computação, modelagem conceitual é um campo heterogêneo, que engloba várias disciplinas relacionadas à construção de sistemas de software. Na área de bancos de dados o termo começou a ser utilizado referindo-se a representação de dados e suas interrelações, as quais seriam gerenciadas por um sistema de informação, independentemente de qualquer característica de implementação deste sistema [Chen PP, 1976; Chen et al., 1999]. Como os sistemas de software vêm se tornando mais complexos, e o domínio dos problemas tem se movido para além de conceitos familiares aos desenvolvedores, modelos conceituais vêm ganhando importância, atuando como o ponto inicial para o entendimento dos problemas de usuários, auxiliando na sua resolução. Deste modo, os modelos conceituais devem empregar uma linguagem que possa ser compreendida pelos usuários para o propósito de validação, e também transmitir informações do problema necessárias aos desenvolvedores para que estes possam construir o sistema posteriormente. O escopo do termo foi sendo ampliado gradativamente e adquirindo o significado de representação do domínio do problema, com o propósito de compreensão e comunicação entre desenvolvedores e usuários [Kaindls and Carroll, 1999; Loucopoulos and Karakostas, 1995; Wieringa R, 1995; Beringer D, 1994]. 23 NCBI - http://www.ncbi.nlm.nih.gov/taxonomy. Número atribuído a um tipo de enzima de acordo com um esquema de nomenclatura padronizado pelo Enzyme Comission do Comitê de Nomenclatura da União Internacional de Bioquímica e Biologia Molecular (IUBMB) http://www.chem.qmul.ac.uk/iubmb/enzyme/. 24 24 Independente do rigor de significado nas diferentes áreas da computação, as características essenciais de qualquer modelo conceitual são representação e compreensão, isto é, permitir que desenvolvedores entendam o problema levantado por usuários, para atingir uma concordância com estes sobre o escopo da solução e, finalmente, usar a informação representada no esquema conceitual para construir um sistema de software que resolva o problema em questão (seja este banco de dados convencional, baseado em conhecimento, ou qualquer outro). Resumidamente, de acordo com [Juristo and Moreno, 2000], modelos conceituais satisfazem as seguintes condições: 1. Independência entre a análise e as fases subsequentes, isto é, a possibilidade de análise e compreensão dos vários aspectos do problema antes de escolher o software e paradigmas de desenvolvimento. 2. Independência do sistema de computação, isto é, a possibilidade de usar resultados das análises como base para desenvolvimento em diferentes paradigmas. 3. Independência de evolução de tecnologia, isto é, a possibilidade do mesmo esquema ser válido mesmo quando os softwares são atualizados ou substituídos. Uma vantagem de trabalhar no nível conceitual é que este é o mais estável. Não é afetado por alterações em interfaces de usuários ou técnicas de armazenamento ou acesso ao banco de dados. Se, por exemplo, um esquema conceitual é implementado em um SGBD relacional e, posteriormente, deseja-se fazer uma migração para um SGBD orientado a objeto, a não ser que o “Universo de Discurso” (UoD)25 tenha se alterado, o esquema conceitual pode ser mantido sem nenhuma alteração. Será necessário apenas aplicar um diferente processo de mapeamento para os esquemas lógico e físico, e migrar os dados. A modelagem conceitual e descrições ontológicas são amplamente utilizadas no campo de sistemas de informação auxiliando os desenvolvedores a realizarem seu trabalho em um alto nível de abstração, permitindo a compreensão e descrição do domínio do problema antes de atuar concretamente na sua solução [Chen et al.,1999]. 25 A porção do mundo real relevante para o banco de dados; às vezes referenciado também como mini-mundo (miniworld). 25 Na literatura, o termo modelagem conceitual muitas vezes é utilizado de forma pouco precisa, e não é raro encontrar modelos, ditos conceituais, que na realidade já estão condicionados a restrições computacionais próprias da abordagem de um desenvolvedor em particular26. Nestes casos, pode-se considerar que o enfoque do sistema de desenvolvimento de software estaria pré-condicionado desde o início de sua construção e, desta forma, o método de desenvolvimento estaria sendo escolhido antes que as necessidades do usuário fossem entendidas. Pode-se citar algumas publicações que tratam especificamente de modelagem de bancos de dados biológicos: [Pastor O et al., 2012; Mayordomo AM, 2011; Busch and Wedemann, 2009; Pastor O, 2008; Elmasri et al., 2007; Xiaohua Zhou and Il-Yeol Song, 2005; Birney and Clamp, 2004; Chen and Carlis, 2003; Nelson et al., 2003; Keet CM, 2003; Rojas-Mujica and Bornberg-Bauer, 2002; Bornberg-Bauer and Paton, 2002; Rubin et al., 2002; Paton et al., 2000; Juristo and Moreno, 2000; Navathe and Kogelnik, 1999; Chen et al., 1999]. Dentre estes, a maioria discute conceitos e a importância do tema e sua ampla aplicação na área de sistemas de informação, e relata a pouca orientação na literatura sobre boas práticas em modelagem de bancos de dados biológicos e sua utilização. Alguns utilizam o termo modelagem conceitual quando na realidade estão se referindo claramente à modelagem lógica; e nenhum deles trata de um domínio ou representação esquemática que possa ser utilizado para o projeto desta tese. Modelos de Dados [Allen et al., 2006]27 mostram que enquanto a modelagem de dados é uma área de pesquisa muito bem estabelecida na ciência da computação, ainda existem muitas e ricas oportunidades para pesquisa, e que novas áreas vêm surgindo continuamente, incluindo a área de genômica. O modelo de dados relacional contribuiu para a separação da representação lógica dos dados (relações e tuplas) da implementação física (arquivos e mecanismos de acesso) (Codd EF, 1970). Desde então, vários modelos de dados semânticos têm sido propostos. 26 Por exemplo, o modelo lógico relacional (Codd EF, 1970). O resumo da lista de discussões da AMCIS 2005, sobre avanços em modelagem de dados, patrocinado pelo “Special Interest Group on Systems Analysis and Design (SIGSAND)” 26 27 Exemplos incluem:  Entity Relationship Model (ERM) (Chen PP, 1976),  Extended ERM (Smith and Smith, 1977),  Semantic Data Model (SDM) (Hammer and Mcleod, 1981),  Unified Semantic Model (USM) (Ram S, 1995). Um levantamento da literatura [Allen G et al., 2006] sobre avaliação de métodos de modelagem revelou alguns atributos necessários, que incluem:  Adequação ou riqueza do método de modelagem em representar a realidade subjacente;  Legibilidade do esquema obtido com o método de modelagem;  Quão fácil é a utilização do método de modelagem para a representação dos requerimentos. Por exemplo, a legibilidade do método de modelagem indica essencialmente quão fácil é a leitura do esquema modelado e a reconstrução da realidade do domínio a partir desse esquema. É desejável em situações onde os esquemas são criados por um time de análise e precisam ser lidos e interpretados por outros analistas, desenvolvedores ou administradores de sistemas. No entanto, diferentes modelos podem enxergar a realidade de diferentes formas, assim, torna-se difícil isolar que aspecto de um modelo pode causar maior ou menor legibilidade. Num modelo de dados, a descrição da base de dados e a base de dados em si são conceitos distintos. A descrição da base é um esquema, e uma das formas de visualização de um esquema é um diagrama do mesmo. Diferentes modelos de dados possuem diferentes convenções para o diagrama de um esquema28. 28 Veja por exemplo uma discussão dos modelos ER (Entity Relationship), OR (Object Relational) e UML (Unified Modeling Language) em [Halpin TA, 2004]. 27 Sistema Gerenciador de Banco de Dados – SGBD Sistemas gerenciadores de bancos de dados comerciais existem desde a década de sessenta. Dentre os mais antigos estão os modelos de rede e hierárquico (Bachman CW, 1969; Tsichritzis et al., 1976). SGDBs são aplicações de software especializadas, desenvolvidas para executar as tarefas fundamentais de bancos de dados como armazenar e organizar informações, garantir que os dados estejam livres de contradições internas, reforçar restrições específicas dos dados, e retornar resultados consistentes de consultas simultâneas de múltiplos usuários [Nelson et al., 2003]. Os tipos de SGDBs mais comuns atualmente são o relacional, o orientado a objeto e o hierárquico. Os SGDBs relacionais são certamente os mais populares. Pode-se citar alguns sistemas comerciais que utilizam o modelo de dados relacional, como Oracle29, IBM's DB230, Microsoft's SQL Server31 e Sybase32, e alguns de código aberto como MySQL33 e PostgreSQL34. SGBDs relacionais são amplamente utilizados e representam uma tecnologia adequada para gerenciar grandes quantidades de dados. Eles provêem facilidades para uma organização de dados estruturada e não redundante, além de uma linguagem de consulta declarativa – SQL – para gerenciá-los [Chen and Sidhu, 2007]. A primeira versão do PWDB foi implementada utilizando o SGBD relacional IBM-DB2 [Otto, Bezerra et al., 2010] e o esquema relacional da segunda versão foi desenvolvido para o SGBD PostgreSQL [Lifschitz, Bezerra et al., 2012]. 29 http://www.oracle.com http://www-3.ibm.com/ software/data/db2/ 31 http://www.microsoft.com/sql/ default.asp 32 http://www.sybase.com/home 33 http://www.mysql.com/ 34 http://www.postgresql.org/ 30 28 2. OBJETIVOS 1. Fazer um estudo detalhado do arcabouço biológico necessário para suprir os requisitos do PCG; 2. Descrever e discutir detalhadamente a modelagem conceitual para a implementação do sistema de banco de dados PWDB, proposto para responder eficientemente esses requisitos através de consultas diretas ao banco e de procedimentos mais complexos; 3. Representar o modelo num esquema conceitual que permita: 3.1. Que usuários das ciências biológicas (sem conhecimento em linguagens de consulta de banco de dados) possam esboçar consultas e procedimentos utilizando os objetos do esquema, mesmo antes da existência de um esquema lógico 3.2. Direcionar o desenvolvimento e a implementação física do sistema. Pontos importantes considerados:  Análise detalhada de fontes de dados biológicos de referência para integrar o sistema;  Seleção de bases de dados, a partir desta análise, que permitam a associação das sequências de proteína comparadas no PCG com dados de anotação e informações funcionais, dentro de um contexto genômico;  Definição de protocolos para a construção de referências cruzadas entre as sequências de proteína e as diferentes bases de dados selecionadas. Limites da modelagem: A delimitação do domínio, as questões que poderão ser abordadas, e que respostas poderão ser obtidas com o esquema conceitual proposto dependerão das fontes de dados selecionadas, e das referências cruzadas que forem construídas com a matriz de similaridade resultante do PCG. 29 3. MATERIAL E MÉTODOS 3.1. PROJETO CONCEITUAL O principal objetivo da modelagem conceitual de um banco de dados (BD) é a abstração, definição e conhecimento do domínio. Esta etapa busca representar, em uma linguagem de alto nível, os conceitos/objetos presentes no domínio do problema. A definição e compreensão da semântica do domínio no projeto conceitual é bastante facilitada devido a característica do esquema conceitual de descrever o modelo de dados de maneira independente de representações computacionais. Teoricamente, devido a razões como correção, clareza, riqueza de informação e portabilidade, o desenho do BD deve ser representado, primeiramente, em um esquema conceitual, que é uma representação gráfica do modelo conceitual, para só então ser efetuado o mapeamento para o esquema do BD. A qualidade de descrição de um esquema conceitual é fundamental, pois é a partir dele que se realiza o mapeamento para o modelo lógico que guiará a implementação do sistema (modelo físico). Assim, um projeto de banco de dados deve evoluir de acordo com as seguintes etapas:  Projeto Conceitual: representação dos requisitos de dados do domínio; não tem nenhuma dependência do Sistema Gerenciador de Banco de Dados (SGBD) e nem de requisitos computacionais;  Projeto Lógico: representação do esquema conceitual em um modelo de BD. Nesse momento já existe uma dependência da classe do SGBD, mas não do SGBD específico. O esquema conceitual é mapeado num esquema lógico35, descrito em termos de um modelo de dados genérico (por exemplo, relacional) escolhido de acordo com os propósitos da implementação;  Projeto Físico: tem total dependência do SGBD; o esquema físico é construído adaptando o esquema lógico ao SGBD específico (por exemplo, PostgreSQL), e já são consideradas questões referentes à performance do sistema. 35 Ver [Lifschitz, Bezerra et al., 2012] 30 A FIGURA 3.1 apresenta, de forma gráfica e concisa, as principais etapas do desenvolvimento de um sistema de banco de dados. Os projetos conceitual, lógico e físico são etapas independentes tratadas em diferentes momentos do projeto. Objetivo da tese Projeto lógico FIGURA 3.1. Diagrama simplificado com as principais fases do projeto de um BD (adaptado de [Elmasri and Navathe, 2011]). Diagrama Entidade-Relacionamento (DER) Neste trabalho, para a representação dos conceitos e objetos num esquema conceitual utilizou-se o DIAGRAMA ENTIDADE-RELACIONAMENTO (DER) [Harrington JL, 2009; Chen et al., 1999; Elmasri R and Navathe, 2011]. Neste diagrama (FIGURA 3.2), os objetos são classificados basicamente em:  ENTIDADE: abstração de um fato do mundo real para o qual se deseja manter os dados;  RELACIONAMENTO:  ATRIBUTO: abstração de uma propriedade de uma entidade ou de um relacionamento. abstração de uma associação entre (ocorrências de) entidades; 31 Entidade 1 relacionamento Entidade 2 Atributo 1 Atributo 2 FIGURA 3.2: Elementos básicos de um esquema Conceitual representado por um Diagrama Entidade-Relacionamento: Retângulos representam ENTIDADES; Losangos representam RELACIONAMENTOS entre entidades e Círculos representam os ATRIBUTOS de entidades ou relacionamentos. O objeto básico é a ENTIDADE. Uma entidade representa alguma coisa do mundo real que possui uma existência independente. Pode ser um objeto com uma existência física – uma pessoa por exemplo, ou pode ser um objeto com existência conceitual – uma empresa por exemplo. Uma entidade provê uma descrição das propriedades que são compartilhadas por uma coleção de instâncias de um domínio. Os ATRIBUTOS de uma entidade têm propriedades particulares que a descreve. Uma entidade EMPREGADO pode ser definida por nome, trabalho, idade, endereço e salário, por exemplo. Os atributos de uma entidade indicam que valores podem ser armazenados para identificar ou descrever uma instância desse tipo. Os RELACIONAMENTOS podem ter atributos. É o caso do valor de um atributo descrever uma relação sem ser atributo de nenhuma das duas entidades participantes. Um relacionamento também pode associar uma entidade a ela mesma. Relacionamentos possuem certas “restrições” que limitam as possíveis combinações de entidades participantes em instâncias do relacionamento. São determinadas pelas situações do “mini-mundo” que os relacionamentos representam. Por exemplo, se existe uma regra que define que um empregado trabalha em apenas um departamento, essa restrição deve estar descrita no esquema. Dois tipos frequentes de restrições de relacionamento são: razão de cardinalidade e participação. A razão de cardinalidade especifica a quantidade de instâncias do relacionamento que uma entidade pode participar. As mais comuns para relacionamentos binários são 1:1, 1:N e M:N. 32 Na FIGURA 3.3, por exemplo, o tipo de relacionamento binário trabalha-em, entre as entidades DEPARTAMENTO e EMPREGADO tem razão de cardinalidade 1:N, e significa que:  Cada instância de DEPARTAMENTO pode estar relacionada a inúmeras instâncias de EMPREGADO (muitos empregados podem trabalhar em um departamento),  Mas uma instância de EMPREGADO pode estar relacionada a apenas um DEPARTAMENTO (um empregado pode trabalhar em apenas um departamento). FIGURA 3.3. Relacionamento trabalha-em A restrição de participação define se a existência de uma entidade depende de um relacionamento com outra entidade; pode ter participação total ou parcial. Na FIGURA 3.4, por exemplo:  Se existe uma regra de que todo departamento precisa ter um gerente, uma instância da entidade DEPARTAMENTO só existe se participar em uma instância do relacionamento gerencia – a participação é total.  Nem todo empregado gerencia um departamento, assim, a participação de EMPREGADO no relacionamento gerencia é parcial, significando que nem todas as instâncias de EMPREGADO estarão relacionadas a instâncias de relacionamento gerencia. FIGURA 3.4. Relacionamento gerencia 33 DEPARTAMENTO através do 3.2. DADOS PRIMÁRIOS – SEQUÊNCIAS A. Sequências Comparadas no WCG O conjunto básico de sequências comparadas no WCG foram sequências de aminoácidos, obtidas de duas fontes de dados: RefSeq v.21 e Uniprot-SwissProt v.5.536. Além deste, também foi comparado um conjunto adicional de sequências tORF37, específico do PCG. Dentre as sequências comparadas no PCG existem38: (a) Sequências de proteína que possuem anotação de genes, mRNAs39 e CDSs40 na sequência genômica; (b) Sequências de proteína para as quais as únicas sequências de nucleotídeos de origem são mRNAs; (c) Sequências de proteína provenientes de sequências genômicas, sem referência ao mRNA; (d) Sequências de proteína obtidas diretamente do sequenciamento de moléculas de proteína, sem nenhuma sequência de nucleotídeos de origem; (e) Sequências tORF que possuem, obrigatoriamente, a posição de sua sequência ncORF de origem definida numa sequência genômica completa de procarioto.  Identificador de Sequências Como o conjunto total de sequências comparadas no WCG inclui sequências de aminoácidos de duas bases de dados distintas de sequências de proteína – RefSeq e SwissProt, além de sequências tORF (inexistentes nestas bases), não existe um identificador natural que possa ser utilizado para definir unicamente cada sequência. Desta forma, foi criado o identificador "fiocruzid" para nomear as sequências independentemente de sua origem e tipo (FIGURA 3.5). 36 ANEXO IV "Non-coding_ORF” (ncORF) e “translated_ORF” (tORF) são termos definidos para o esquema conceitual do PWDB para representar conceitos específicos do PCG. Não são proteínas cadastradas em bancos de dados de sequências. Maiores detalhes adiante nesse mesmo tópico 3.2 e em DISCUSSÃO. 38 Maiores detalhes adiante nesse mesmo tópico 3.2 e em RESULTADOS 39 RNA mensageiro 40 CoDing Sequence 34 37 Algumas regras foram consideradas na construção deste surrogate41,42: (a) Nas sequências provenientes da base de dados RefSeq, o fiocruzid equivale ao GI do NCBI43, como por exemplo 51893456 na FIGURA 3.5. (b) Nas sequências provenientes da base de dados SwissProt, o fiocruzid é um número sequencial começando por 150000 ou 900000 mais 8 casas decimais, como por exemplo 900000000000002 na FIGURA 3.5. (c) Nas sequências tORF, o fiocruzid é um número sequencial simples de 8 casas decimais, como por exemplo 00000769 na FIGURA 3.5. Seq. refseq Seq. swissprot Seq. tORF FIGURA 3.5. “Recorte” do output resultante da execução do SSEARCH. Cada linha apresenta o resultado da comparação de um par de sequências, identificadas pelos dois primeiros valores – por exemplo, na primeira linha, a sequência consulta (query) tem o identificador 51893456 e a sequência comparada (subject) tem o identificador 11066918. O restante das informações são valores de similaridade, cobertura e estatísticos do alinhamento44.  Tipos de Comparação45 No WCG foram executadas comparações “par-a-par” e “todas-contra-todas”, da seguinte forma: 41 - Todas as proteínas RefSeq contra todas as proteínas RefSeq; - Todas as proteínas RefSeq contra todas as proteínas SwissProt; - Todas as proteínas SwissProt contra todas as proteínas SwissProt; - Todas as proteínas SwissProt contra todas as sequências tORF; - Todas as sequências tORF todas as sequências tORF46. contra Uma chave artificial que permite identificar unicamente as entidades a representar. Os identificadores dos casos (b) e (c) abaixo, nas suas respectivas bases de dados de origem, podem ser recuperados dos dados de entrada do PCG. 43 O número GI é um identificador único, interno do NCBI. Cada sequência de nucleotídeos e de proteína cadastrada no NCBI tem um número GI associado (fonte: glossário NCBI). 44 O significado de cada “campo” de uma linha (separados por vírgulas) está especificado no ANEXO III. 45 ANEXO III. 46 Proteínas RefSeq NÃO foram comparadas com sequências tORF. 35 42  Resultado das Comparações O resultado do PCG é uma matriz, de aproximadamente 900 GB, com índices de similaridade entre pares de sequências de aminoácidos. Importante comentar que só foram armazenados os resultados de alinhamentos significativos47, e que o resultado de uma comparação nada mais é do que uma linha com informações de similaridade, cobertura e estatísticas do alinhamento, fornecidas pelo programa SSEARH (FIGURA 3.5 acima). Vale ressaltar o fato desta matriz disponibilizar 4.2 x 109 resultados de similaridade entre sequências, já pré-calculados, por um método não heurístico, que utiliza programação dinâmica. E que centenas de genomas completos (e incompletos) foram comparados “par-a-par” e todoscontra-todos”. B. Características das Sequências Consideradas no Projeto Conceitual do PWDB  Sequências ORF e CDS48 - Um “quadro aberto de leitura” (Open Reading Frame – ORF) é uma série de códons (trincas) de nucleotídeos que se estende até o primeiro códon de terminação, e pode ser ou não uma região codificadora de proteína. - Uma sequência de nucleotídeos codificadora de proteína (CoDing Sequence – CDS) é uma ORF, com códon de início de tradução e códon de término de tradução, que codifica uma proteína. - Assim, toda sequência CDS é uma ORF, mas nem toda sequência ORF é um CDS.  Sequências ORF, ncORF e tORF - "Non-coding_ORF” (ncORF) e “translated_ORF” (tORF) são nomenclaturas definidas para o projeto conceitual do PWDB. - Sequências de nucleotídeos ncORFs representam ORFs numa sequência genômica que não foram identificadas como codificadores de proteína por métodos de predição de genes durante o processo de anotação do genoma. 47 Atingiram os valores mínimos de score e estatísticos exigidos pelo programa, de acordo com os parâmetros selecionados para a comparação. Ver ANEXO III. 48 Na nomenclatura do NCBI: CDS – “CoDing Sequence” – é região de nucleotídeos do mRNA que é traduzida em aminoácidos. Uma sequência codificadora de proteína (CDS) é uma sequência de nucleotídeos que começa com um códon de iniciação, termina com um códon STOP e determina a sequência de aminoácidos de uma proteína [Glossário NCBI]. 36 - As sequências de aminoácidos tORFs foram obtidas pela “tradução conceitual”49 de sequências ncORFs, com base no mesmo código genético utilizado para a tradução das sequências CDSs nas bases de dados de proteína. - Como as sequências tORFs não foram preditas como proteínas, não existem nas bases de dados de proteínas. - Apenas ORFs contidas integralmente em regiões descritas como não codificadoras foram consideradas como ncORFs; qualquer tipo de sobreposição de uma ORF com uma sequência anotada como codificadora, foi excluída. - Sequências tORFs foram comparadas no WCG apenas com sequências de proteína da base de dados SwissProt50.  Sequências Genômicas51 - Status52 Complete – tipicamente significa que cada cromossomo está representado por apenas uma sequência com montagem de alta qualidade, - Status Assembly – tipicamente significa que existem montagens que ainda não estão no nível de cromossomo e/ou draft53, - Status In Progress – indica que o projeto de sequenciamento está numa fase de pré montagem ou as sequências montadas/completas ainda não foram submetidas ao GenBank/EMBL/DDBJ54. - Prefixo NC_55: foram obtidas por procedimento automatizado e possuem revisão de especialista para alguns registros. O sistema de coordenadas da sequência, posicionamento de genes e anotação são mais estáveis. - Prefixos NT_, NW_, NZ_56: indicam registros que não foram revisados individualmente; as atualizações do genoma são liberadas como um bloco. A montagem, anotação e posicionamento dos genes são provisórios. No PWDB, o tratamento dispensado a essas sequências deve ser diferenciado e mais cuidadoso, considerando que os relacionamentos entre as sequências de proteína, e suas sequências CDSs e genômicas podem ser incompletos ou não existir. 49 Um códon de nucleotídeos codifica um aminoácido de acordo com um código genético. Sequências de proteína da base de dados RefSeq NÃO foram comparadas com sequências tORF 51 Anexo IV – Base RefSeq. 52 Propriedade que se refere ao estágio corrente do projeto de sequenciamento do genoma. 53 Refere-se a uma sequência de DNA que ainda não está terminada mas tem, geralmente, alta qualidade (precisão > 90%). 54 Ver ANEXO IV. 55 Moléculas genômicas completas incluindo cromossomos, organelas e plasmídeos 56 Contig ou scaffold e sequenciamento whole genome shotgun não finalizado [unfinished WGS]. 37 50 C. Utilização das Sequências de Aminoácidos no PWDB 57  As sequências de proteína provenientes de projetos genômicos completos58 são indicadas para estudos comparativos de proteomas completos (“preditos”);  As demais sequências de proteína59 podem ser utilizadas para identificar e confirmar resultados de anotação e também como informação auxiliar em outros procedimentos. Podem ser úteis para (in)validar, por exemplo: - A existência de um gene não conhecido em genomas completos, cuja proteína traduzida de uma sequência similar exista nos bancos de dados, - Uma anotação experimental inexistente no conjunto de proteomas completos, - A existência de novas combinações de domínios em proteínas multi-modulares, não identificadas no conjunto de proteomas completos, - Dentre outros.  O grupo experimental de sequências tORF foi criado para avaliar o potencial codificador de pequenas sequências ncORF60. 3.3. BASES DE DADOS BIOLÓGICOS61 Para a modelagem dos conceitos necessários para responder os requisitos do PCG foram construídas referências cruzadas entre bases de dados biológicos públicas e as sequências armazenadas na matriz de resultados do PCG. Nesta etapa, algumas bases de dados foram detalhadamente estudadas, e algumas das características analisadas, relevantes para a escolha, foram:  Não redundantes e curadas,  Mantidas por grupos internacionais de pesquisa renomados62 e com reconhecida competência técnica e potencial financeiro para sua manutenção e atualização, 57 Ver RESULTADOS. Possuem sequências de proteína, CDS, gene e genômica. 59 Não se pode garantir que todas as proteínas de um organismo estejam representadas nas bases de dados, e nem que possuem um genoma completo de referência sequenciado. 60 O PCG comparou estas sequências numa tentativa de identificar sequências candidatas a serem codificadoras – não detectadas por métodos computacionais de identificação de genes – utilizando o grau de similaridade com sequências de proteína já conhecidas e armazenadas em bancos de dados 61 ANEXO IV. 62 Muitas vezes geograficamente dispersos. 38 58  Bem estabelecidas no meio acadêmico e de pesquisa,  Disponíveis sem custos para a comunidade científica em geral. As bases de dados inicialmente selecionadas para integrarem o PWDB foram:  Bases de dados de referência de sequências de nucleotídeos (RefSeq e Gene),  Bases de dados de referência de sequências e informações proteicas (RefSeq e UniProt),  Base de dados de domínios proteicos (Pfam),  Base de dados de ontologias de produtos gênicos (Gene Ontology – GO),  Base de dados de vias biológicas, classes enzimáticas e outras informações de sistemas biológicos (KEGG). Regras para a associação destas fontes externas com os dados de similaridade da matriz de resultados do PCG, e a definição de referências entre conceitos semanticamente equivalentes nas diferentes bases de dados foram definidas durante o processo de modelagem conceitual. O resultado é uma consequência imediata do trabalho desta tese e gerou o protocolo para a carga dos dados do PWDB. No entanto, o detalhamento desta etapa foge ao escopo dessa discussão63. 63 Ocorre numa fase posterior à modelagem conceitual. Para maiores detalhes ver [Tristão and Lifschitz, 2009]. 39 4. RESULTADOS 4.1. MODELAGEM CONCEITUAL Em bioinformática, o termo hit costuma ser utilizado para descrever alinhamentos recuperados para uma sequência consulta (query), numa busca por sequências similares em bancos de dados. Uma única busca pode retornar uma lista de hits para uma mesma query64. Em outros casos, o termo refere-se à sequência pareada (sequência subject) que apresenta similaridade na comparação com a sequência query. Da mesma forma, poderá existir uma lista de hits para uma query numa mesma busca num banco de dados. No caso do PCG, as comparações foram “par-a-par” e o algoritmo utilizado foi o SSEARCH. Desta forma, tem-se um único resultado para cada par de sequências comparado, com as informações do alinhamento ótimo. Além disso, para que o resultado de uma comparação seja armazenado na matriz do PCG, é necessário que haja uma similaridade estatisticamente significativa65 entre o par. Nesta tese, o conceito “hit” foi definido como o resultado da comparação de um par de sequências de aminoácidos armazenado na matriz do PCG, e equivale a uma linha da matriz (FIGURA 3.566). É importante notar que:  A única informação das sequências de proteína armazenadas na matriz do PCG são seus identificadores (fiocruzid/PWDId67), que é a única opção para o estabelecimento de qualquer relacionamento com bases de dados externas.  Os identificadores que não correspondem ao GI da base de dados RefSeq podem ser recuperados das suas respectivas bases de dados de origem68. Na modelagem do PWDB, o passo inicial foi relacionar os identificadores das sequências de cada hit com fontes de dados externas de anotação, para a recuperação de informações preditas 64 Para a escolha do(s) melhor(es) hit(s) diferentes medidas do alinhamento e composição e estrutura das sequências devem ser considerados. 65 De acordo com as exigências do PCG e do programa de comparação SSEARH. 66 Em MATERIAL E MÉTODOS 67 No esquema em [Lifschitz, Bezerra et al., 2012] e nesta tese, o identificador fiocruzid aparece como PWDId. 68 Ver 3.2. Identificador de Sequências 40 para essas proteínas – de funções, ontologias, domínios proteicos, dentre outras –, e também para comparar anotações das diferentes fontes de dados. O objetivo deste procedimento é tentar transferir a anotação predita/confirmada de uma sequência (baseada no conjunto de bases de dados escolhido) para as sequências comparadas no PCG que apresentem índices de similaridade estatisticamente significativos, assim como outras características relevantes dos alinhamentos. Além do requisito de anotação, foi definida uma estratégia adicional de forma a responder questões genômicas mais amplas. Nesse caso, a questão chave foi considerar as sequências de nucleotídeos da base de dados RefSeq, que deram origem às sequências de aminoácidos comparadas no PCG; e posicionar estas sequências em seus genomas. Para isso, utilizou-se parte do conhecimento clássico do dogma central da biologia: GENE  transcrição  mRNA  tradução  PROTEÍNAA Essa abordagem se adapta bem aos propósitos do PWDB, pois no PCG apenas sequências proteicas foram consideradas69, as quais, “conceitualmente” (no mundo real), possuem sua origem em regiões genômicas (e gênicas) codificadoras de proteínas. Desta forma, as sequências de proteína foram associadas às suas sequências de nucleotídeos de origem através da sequência codificadora de proteína (CDS), baseando-se no conceito “CDS GENE feature” descrito no NCBI Data Model [Ostell et al., 2001] (FIGURA 4.1). Join (exon1_ini...exon1_fim, exon2_ini...exon2_fim, ......, exonN_ini...exonN_fim) FIGURA 4.1. “CDS feature” – NCBI data model (adaptado de [Ostell et al., 2001] com dados da FIGURA 4.2). 69 Excluindo as sequências torf que não são proteínas. 41 De acordo com esse raciocínio, pode-se “traçar um caminho”70, desde uma sequência de proteína até sua sequência genômica, utilizando a sequência CDS como o ponto central para a transformação: SEQUÊNCIA DE NUCLEOTÍDEOS Este “caminho” PROTEÍNA   CDS  SEQUÊNCIA DE AMINOÁCIDOS SEQUÊNCIA GENÔMICA (FIGURA 4.2) pode ser descrito, resumidamente, como segue:  Um GENE codificador de proteína é uma subsequência de uma SEQUÊNCIA GENÔMICA71 [DNA, ∑ = {a, c, g, t}]  A transcrição de um GENE codificador de proteína gera uma sequência TRANSCRITA primária [RNA, ∑´ = {a, c, g, u}]  A sequência TRANSCRITA primária é processada72 gerando um mRNA MADURO [RNA, ∑´ = {a, c, g, u}]  A sequência mRNA MADURO possui a subsequência codificadora de proteína (CDS) e regiões reguladoras73,  A sequência CDS é traduzida74 numa sequência de PROTEÍNA [∑´´ = {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V}]. Na FIGURA 4.2 pode-se ver informações da proteína NP_061223: A.1 em sua Sequência Genômica (Cromossomo 2, Accession: NC_00068), A.2 em sua Sequência Gênica (NC_00068 REGION 163.820.933 .. 163.844.323), A.3 em sua Sequência mRNA (transcript_id: NM_018753), A.4 em seu CDS (protein_id: NP_061223), B.1 em sua Sequência mRNA (DBSOURCE RefSeq: accession NM_018753), B.2 em seu CDS (coded_by = NM_018753:173..913) Este “caminho” seria uma forma de leitura do diagrama apresentado mais adiante e seus conceitos. No momento não se trata de manipulacao de modelo conceitual, pois isso ocorre após a transformação para um modelo lógico (relacional, por exemplo). Mas pode-se ver que definições e suas representações já estão bem claros desde o modelo conceitual, ponto fundamental da proposta desta tese. 71 Na maioria dos casos são sequências de DNA, mas existem genomas de RNA [∑´ = {a, c, g, u}]. 72 O processo é diferente em eucariotos e procariotos. 73 A concatenação de subsequências codificadoras da sequência transcrita primária (exons), mais as regiões reguladoras UTR. 74 De acordo com um Código Genético, uma trinca de mRNA codifica um aminoácido. Por exemplo, a trinca de nucleotídeos AUG codifica o aminoácido Metionina (M). 42 70 A.1 SEQUÊNCIA GENÔMICA: Mus musculus strain C57BL/6J - CHROMOSOME 2 - NC_000068 GENE: NC_000068 REGION: LOCUS DEFINITION ACCESSION VERSION 163995197..164018587 A.2 NC_000068 23391 bp DNA linear CON 01-OCT-2012 Mus musculus strain C57BL/6J chromosome 2, GRCm38.p1 C57BL/6J. NC_000068 REGION: 163995197..164018587 GPC_000000775 NC_000068.7 GI:372099108 ... mRNA A.3 CDS A.4 join(1..169,16406..16708,18810..18933,20035..20198, 20907..21002,21473..23391) /note="Derived by automated computational analysis using gene prediction method: BestRefseq." /transcript_id="NM_018753.6" /db_xref="GeneID:54401" join(16409..16708,18810..18933,20035..20198,20907..21002, 21473..21529) /note="Derived by automated computational analysis using gene prediction method: BestRefseq." /product="14-3-3 protein beta/alpha" /protein_id="NP_061223.2" /db_xref="GeneID:54401" B.1 PROTEÍNA LOCUS DEFINITION ACCESSION VERSION DBSOURCE ….. CDS NP_061223 246 aa linear ROD 28-JUL-2013 14-3-3 protein beta/alpha [Mus musculus]. NP_061223 NP_061223.2 GI:31543974 REFSEQ: accession NM_018753.6 mRNA B.2 1..246 /coded_by="NM_018753.6:173..913" /db_xref="GeneID:54401" FIGURA 4.275. Exemplo usado na FIGURA 4.1. Pode-se ver mapeado na sequência do gene em A.3: as posições dos fragmentos que formam o mRNA76 (com o identificador do transcrito – transcript_id) e em A.4 77: as posições dos exons do mRNA que formam a região codificadora da proteína (CDS, com o identificador da sequência de aminoácidos codificada – protein_id). Na sequência da proteína, pode-se ver em B.1: o identificador do transcrito que deu origem à proteína, e em B.2: a posição ocupada pela região codificadora da proteína no transcrito. 75 Informações obtidas na base de dados RefSeq. Exons e regiões reguladoras 77 Note a diferença da posição inicial e final em A.3 e A.4. 43 76 4.2. ESQUEMA CONCEITUAL Nessa tese, foi utilizado um DIAGRAMA ENTIDADE-RELACIONAMENTO para a representação do modelo conceitual; e apenas com o propósito de simplificar sua descrição, o esquema da FIGURA 4.8 será apresentado, inicialmente, como quatro módulos independentes que se conectam; nomeados como: CENTRAL, TAXONOMIA, HIT e ANOTAÇÃO. A. MÓDULOS 1) CENTRAL (ou Dogma Central) (FIGURA 4.3): envolve as entidades que representam as sequências de aminoácidos e nucleotídeos. FIGURA 4.3. Módulo CENTRAL A ligação entre as entidades PROTEIN, GENE e GENOMIC SEQUENCE é intermediada pela entidade CDS através do posicionamento das subsequências codificadoras do gene (exons) no sistema de coordenadas da sequência genômica que o contém. Para facilitar a leitura do esquema é importante lembrar que os elementos:  GENOMIC SEQUENCE, GENE, CDS, ORF e ncORF referem-se a sequências de nucleotídeos,  PROTEIN, ORF_T e tORF referem-se a sequências de aminoácidos. 44 A base de dados de referência para a associação das sequências de proteína com suas sequências de nucleotídeos de origem é o NCBI Refseq. Adicionalmente, informações complementares podem ser obtidas nas bases de dados UniProt-SwissProt e NCBI Entrez-Gene. Além do contexto inicial, uma sequência de proteína (FIGURA 4.4): - Pertence a um táxon (módulo TAXONOMY), - A comparação de sequências gera medidas de similaridade entre elas (módulo HIT) - A descrição da sequência é obtida de uma anotação (módulo ANOTATION). FIGURA 4.4. Módulos TAXONOMIA, HIT E ANOTAÇÃO, detalhados a seguir. 2) HIT (FIGURA 4.5): considera os resultados de similaridade entre sequências de aminoácidos, calculados e armazenados pelo PCG. Os hits são relacionamentos entre sequências de aminoácidos:  HIT_PP – apenas proteínas,  HIT_OP – proteínas e tOrfs  HIT_OO – apenas tOrfs FIGURA 4.5. Módulo HIT. 45 3) TAXONOMIA (FIGURA 4.6): utiliza a taxonomia do NCBI e relaciona cada sequência de aminoácidos ao seu táxon78. FIGURA 4.6. Módulo TAXONOMIA. 4) ANOTAÇÃO (FIGURA 4.7): permite a construção de referências cruzadas entre bases de dados de anotação de proteínas e o módulo CENTRAL, através da entidade PROTEIN. No caso específico do PWDB, as primeiras bases de dados selecionadas79 foram:  UniProt  Pfam,  Gene Ontology (GO),  KEGG. FIGURA 4.7. Módulo ANOTAÇÃO80. B. ENTIDADES E RELACIONAMENTOS A FIGURA 4.8 apresenta o esquema conceitual completo – com entidades, atributos e relacionamentos – discutidos e detalhados em seguida. 78 A especificação da entidade RANK, assim como dos relacionamentos have e is parent estão descritos em [Tristão and Lifschitz, 2009]. 79 ANEXO IV. 80 A especificação dos atributos e relacionamentos das entidades DOMAIN, ENZIME e GENE_ONTOLOGY estão descritos em [Tristão and Lifschitz, 2009]. 46 FIGURA 4.8. Esquema Conceitual representado por um diagrama Entidade-Relacionamento B.1. ENTIDADES PROTEIN A entidade representa sequências de aminoácidos anotadas como proteína nas bases de dados de referência RefSeq e SwissProt. Atributos81:  PWDId/fiocruzid82: identificador único das sequências comparadas no PCG, e das sequências RefSeq 81  definition: definição da proteína na base de dados RefSeq83,  length: comprimento da sequência de proteína,  gbkId: identificador accession-version na base de dados Refseq  uniprotId: identificador da sequência na base de dados UniProt.  comp: sinalizador que define se a sequência foi comparada no PCG. Atributos não obrigatórios: gbkId, UniprotId Rever MATERIAL E MÉTODOS 3.2. 83 Ou SwissProt, no caso de sequências não representadas na base de dados RefSeq. 47 82 Se a sequência foi comparada, comp=1, Se não foi comparada, comp=0. No caso específico do PWDB, as sequências de proteína foram originadas das bases:  Refseq v.21: foram comparadas no PCG [comp=1], possuem o identificador gbk_id, e poderão ter ou não o identificador uniprotId (0,1).  Swissprot v.51.5: foram comparadas no PCG [comp=1], possuem o identificador uniprotId, e poderão ter ou não o identificador gbk_id (0,1);  Refseq v.33: não foram comparadas no PCG [comp=0], possuem o identificador gbk_id, e poderão ter ou não o identificador uniprotId (0,1). Apesar de não terem sido comparadas no PCG, possuem o identificados PWDId que é o GI do NCBI84. ORF_T Apesar das sequências tORFs serem “computacionalmente” sequências de aminoácidos (como as sequências de proteína), elas são conceitualmente distintas e, portanto, estão representadas por uma entidade própria: ORF_T. Essas sequências foram “traduzidas” a partir de sequências ncORFs e não existem em bases de dados de proteína85. Atributos:  PWDid/fiocruzid86: identificador único da sequência tORF no PCG,  length: comprimento da sequência tORF. CDS A entidade representa a região codificadora de uma proteína87. É uma entidade cuja propriedade básica é permitir a associação entre as entidades PROTEIN, GENE e GENOMIC SEQUENCE, através do posicionamento das subsequências codificadoras do gene (exons) no sistema de coordenadas da sequência genômica que o contém. Atributos:  region: região definida pelas posições dos exons na sequência genômica88. Cada exon na sequência genômica correspondente a uma subsequência em CDS. 84 Rever MATERIAL E MÉTODOS seção 3.2 Não foram identificadas como sequências codificadoras de proteína por métodos de predição de genes 86 Rever MATERIAL E MÉTODOS seção 3.2. 87 Formada pela concatenação dos exons. A sequência completa é codificadora. 88 FIGURA 4.2, A.4: join (16409..16708, 18810..18933, ... , 21473..21529). 48 85 GENE A entidade GENE representa uma região gênica de uma sequência genômica. Atributos89:  geneId: identificador único da base de dados NCBI Gene,  transcriptId: identificador da sequência transcrito.  strand: sentido de leitura da sequência gênica em relação à sequência genômica referência90.  index: posição que o gene ocupa em relação aos outros genes da mesma sequência genômica: Número total de genes da Sequência Genômica = N, Posição gene1 < posição gene2 < ... < posição geneN, index gene1 = 1o, index gene2 = 2o, ..., index geneN = Nésimo.  GC_content: conteúdo GC91 da região gênica.  region: região ocupada pela sequência gênica na sequência genômica92. GENOMIC SEQUENCE A entidade representa uma sequência genômica. Atributos93,94: 89  gbkId:  gbk_definition: definição da sequência na base de dados Refseq,  mol_type: tipo de molécula (DNA/RNA),  seq_type: tipo de sequência (cromossomo, organela, etc),  length_mol: comprimento da sequência genômica,  taxonId: identificador do organismo de origem no NCBI Taxonomy DB  status: definição do estado corrente do projeto de sequenciamento.  projectId: identificador do projeto genômico.  GC_content: conteúdo GC da sequência genômica. identificador da sequência na base de dados Refseq, Atributos não obrigatórios: transcriptId, Positivo, se o gene estiver na sequência referência (posição códon start < posição códon stop); e negativo, se estiver na sequência complementar (posição códon start > posição códon stop na sequência referência). 91 Ver DISCUSSÃO. 92 Inclui as regiões codificadoras, não codificadoras e reguladoras do gene. 93 Maiores detalhes em ANEXO IV – parte 2 94 Atributos não obrigatórios: status, projectId 49 90 B.2. RELACIONAMENTOS  HIT_OO, HIT_OP, HIT_PP: Os hits foram modelados como relacionamentos entre sequências de aminoácidos comparadas no PCG95:  HIT_PP: relacionamento apenas entre sequências de proteína,  HIT_OP: relacionamento entre sequências de proteínas SwissProt e tORFs.  HIT_OO: relacionamento apenas entre sequências tORFs. HIT_PP PROTEIN [0,n] PROTEIN  Instâncias que não foram comparadas no PCG96 não têm hits [0],  Instâncias que não apresentam similaridade significativa com outra proteína comparada no PCG não têm hits [0].  Instâncias da entidade PROTEIN podem ter hits com mais de uma proteína comparada no PCG [n]. HIT_OP PROTEIN [0,n] ORF_T  Instâncias da entidade PROTEIN que não foram comparadas com instâncias da entidade ORF_T97 não têm hits [0].  Instâncias da entidade PROTEIN98 comparadas com instâncias da entidade ORF_T que não apresentam similaridade significativa não têm hits [0].  Todas as sequências SwisProt foram comparadas com sequências tORFs.  Instâncias da entidade PROTEIN podem ter hits com mais de uma tORF [n]. ORF_T [0,n] PROTEIN  Instâncias da entidade ORF_T que não apresentam similaridade significativa com instâncias da entidade PROTEIN99 não têm hits [0]. 95 Origem nas bases de dados Swissprot v.51.5 e Refseq v.21. Proteínas da versão v.33 da base RefSeq (que não existiam ainda na versão 21) não foram comparadas; isto é, não possuem hits. Ver 4.2. 96 Proteínas da versão 33 da base de dados RefSeq (que não existiam ainda na versão 21, não foram comparadas; isto é, não possuem hits). 97 Sequências RefSeq não foram comparadas com sequências torf. 98 Sequências SwissProt. 99 Sequências SwissProt. 50  Todas as sequências tORF foram comparadas no PCG.  Instâncias da entidade ORF_T podem ter hits com mais de uma proteína [n]. HIT_OO ORF_T [0,n] ORF_T  Instâncias da entidade ORF_T que não apresentam similaridade significativa com outra tORF não têm hit [0].  Todas as sequências tORFs foram comparadas no PCG.  Instâncias da entidade ORF_T podem ter hits com mais de uma tORF [n].  PROTEIN CDS, GENE CDS, GS CDS  A entidade CDS é associada à entidade PROTEIN através do relacionamento PROTEIN CDS;  A entidade CDS é associada à entidade GENE através do relacionamento GENE CDS;  A entidade CDS é associada à entidade GENOMIC SEQUENCE através do relacionamento GS CDS. PROTEIN CDS PROTEIN [0,1] CDS  Instâncias da entidade PROTEIN cuja sequência CDS é desconhecida100 não participam do relacionamento[0].  Uma instância da entidade PROTEIN se relaciona com apenas 1 instância em CDS [1]. CDS [1,1] PROTEIN  Toda instância de CDS se relaciona com a entidade PROTEIN e qualquer instância em CDS se relaciona com apenas uma instância em PROTEIN. GENE CDS GENE [1,n] CDS  Toda instância de GENE se relaciona com CDS101, e uma sequência gênica em GENE pode possuir 1 ou mais instâncias em CDS102. 100 Material e Métodos seção 3.2. Devido as instâncias da entidade GENE terem sua origem na base de dados NCBI-Gene. 102 Splicing alternativo, por exemplo 51 101 CDS [0,1] GENE  Instâncias de CDS cuja região esteja definida apenas para a sequência genômica (sem referência à região gênica) não participam do relacionamento [0].  Genes não representados na base de dados NCBI-Gene não participam do relacionamento [0].  Uma instância em CDS tem sua origem em apenas 1 gene em GENE [1]. GS CDS GS [0,n] CDS  Instâncias de GENOMIC_SEQUENCE que não tenham a predição de sequências CDS com anotação de sua posição103 não participam do relacionamento [0].  Uma instância em GENOMIC_SEQUENCE pode possuir várias regiões codificadoras em CDS [n]. CDS [0,1] GS  CDSs que não possuem informação de sequência genômica104 não participam do relacionamento [0].  Uma instância de CDS tem sua origem em apenas 1 instância de GENOMIC_SEQUENCE [1]  PROTEIN TAXON, ORF TAXON PROTEIN TAXON PROTEIN [1,1] TAXONOMY  Uma sequência de proteína em PROTEIN tem sua origem, obrigatoriamente, em 1 e somente 1 táxon105. TAXONOMY [0,n] PROTEIN  Podem existir táxons em TAXONOMY que não tenham sequências de proteína depositadas nos bancos de dados RefSeq e SwissProt [0].  Um organismo em TAXONOMY pode possuir n sequências em PROTEIN [n]. 103 Ver Material e Métodos, seção 3.2. B. Sequências genômicas ou CDS com apenas mRNA como origem. CDSs que possuem apenas sequências mRNA de origem, por exemplo. 105 Todas as sequências depositadas em bases de dados biológicos possuem um organismo de origem. No caso das bases RefSeq e SwissProt, a taxonomia utilizada é a do NCBI. 52 104 ORF TAXON ORF_T [1,1] TAXONOMY  Uma sequência tORF em ORF_T tem sua origem, obrigatoriamente, em 1 e somente 1 táxon. TAXONOMY [0,n] ORF_T  Podem existir táxons em TAXONOMY que não tenham sequências depositadas na base de dados RefSeq v.21106 [0].  Um organismo em TAXONOMY pode possuir n sequências em ORF_T [n].  ORF REGION ORF_T [1,1] GENOMIC_SEQUENCE  Uma sequência tORF em ORF_T tem sua origem, obrigatoriamente, em 1 e somente 1 sequência genômica em GENOMIC_SEQUENCE107. GENOMIC_SEQUENCE [0,n] ORF_T  Instâncias de GENOMIC_SEQUENCE que não tenham sido utilizadas para a predição de sequências ncORF não participam do relacionamento [0].  Uma instância em GENOMIC SEQUENCE pode estar associada a várias instâncias em ORF_T [n]. 106 tORFS foram geradas a partir de ncORFs de genomas completos de procariotos da base RefSeq v.21 Toda sequência torf foi obtida de uma única sequência ncorf, com origem numa única sequência genômica. 53 107 5. DISCUSSÃO 5.1. MODELAGEM Modelos tentam representar parte de alguma realidade (um “mini mundo”). No entanto, em ciências, na grande maioria das situações não se conhece integralmente tal realidade e/ou não se consegue representá-la adequadamente. Nas ciências biológicas, existe uma “realidade” que tenta explicar o conhecimento atual na área – baseada em experimentos in vivo realizados em situações particulares e controladas, e em hipóteses que estendem os resultados obtidos para situações mais abrangentes (que devem ser revalidadas experimentalmente). Grande parte desta “realidade” experimental encontra-se armazenada em bancos de dados. Estes dados, e a meta informação associada (anotação)108, podem ser utilizados em procedimentos computacionais109 para dar suporte à inferências e hipóteses com o poder de incrementar o conhecimento, realimentando o processo. Desta forma, tem-se também a “realidade” representada nos bancos de dados biológicos, que pode não conter todo o conhecimento experimental atual, mas pode conter hipóteses e inferências geradas por métodos computacionais com um nível de confiabilidade alto, porém ainda não testadas experimentalmente. Com relação ao “mini mundo” considerado na modelagem conceitual do PWDB: (A) Na ciência genômica, parte do conhecimento atual entende que um organismo:  Possui um genoma (com uma ou mais entidades genômicas),  As unidades genômicas possuem regiões gênicas codificadoras de proteína (e outras regiões codificadoras, não codificadoras, reguladoras e estruturais),  Genes codificadores de proteína são transcritos em moléculas de mRNA,  As moléculas de mRNA, após processamento e eliminação de introns110, mantêm uma região linear e contínua codificadora de proteína111,  A região codificadora é traduzida, de acordo com um código genético, numa molécula de proteína. 108 Algumas sugestões de leitura: [Stein L, 2001; Reeves et al., 2009; Poptsova MS and Gogarten JP, 2010; Klimke et al., 2011]. 109 Nestes procedimentos, a precisão e confiabilidade das anotações são críticas para a obtenção de resultados corretos. 110 Há diferenças entre procariotos e eucariotos. 111 Este processamento pode variar e gerar diferentes regiões codificadoras. 54 (B) Nos bancos de dados, as moléculas biológicas estão representadas por sequências112 que podem ser manipuladas computacionalmente.  Um organismo pode ter um genoma: - Totalmente sequenciado, ou - Parcialmente sequenciado, ou - Que não foi sequenciado.  Regiões gênicas e seus mRNAs, assim como suas regiões codificadoras podem ser: - Conhecidas experimentalmente, ou - Identificadas apenas por procedimentos computacionais, e anotadas manualmente, ou - Identificadas apenas por procedimentos computacionais, e anotadas de forma automatizada sem interferência humana, ou - Inexistentes em bancos de dados.  Proteínas113 podem ser: - Geradas por tradução computacional – a partir de regiões codificadoras de seus genomas, genes ou mRNAs – e confirmadas experimentalmente. - Geradas por tradução computacional – a partir de regiões codificadoras de genomas, genes ou mRNAs – sem confirmação experimental. - Identificadas experimentalmente e depositadas em bancos de dados de sequências de proteína, apesar de suas sequências genômica, gênica ou mRNA não existirem em bancos de dados.  Bancos de dados de sequências: - A cobertura do número de organismos e genomas aumenta imensamente a cada versão disponibilizada. - O escopo e funcionalidade varia de acordo com o conjunto de dados que armazenam, redundância, procedimentos automáticos e/ou manuais para curar os dados de sequências e suas anotações, dentre outras características. As sequências de DNA e RNA são representadas pelo alfabeto: ∑ = {a, c, g, t, u}. As sequências de proteína são representadas pelo alfabeto ∑´´ = {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V}. 113 A função da maior parte das sequências de proteína armazenadas em bancos de dados biológicos não foi determinada experimentalmente, mas extrapolada a partir de genes homólogos [Altenhoff AM et al., 2012]. 55 112 - São atualizados com grande rapidez e a quantidade de novos dados introduzida é enorme (a TABELA 5.1 apresenta um exemplo para a base RefSeq). Os procedimentos computacionais para curar estes dados evoluem com grande velocidade e o processo manual, indispensável, tenta acompanhar este processo. Release date Sep 09, 2013, Number of Accessions Included: 41.958.567, Directory: complete Number of taxids: 29.414 Number of Accessions and total length per molecule type: Genomic: 4291237 310993467663 RNA: 4528216 8557926514 Protein: 33139114 11248966865 RefSeq Status Counts: Status RNA Protein ---------------------------------Reviewed 150541 257778 Validated 49469 119667 Provisional 2120208 10480550 Predicted 23290 22379 Inferred 7539 7884 Model 2177169 2045119 Unknown 0 20205737 Release date Jan 07, 2007, Number of Accessions Included: 4.742.335, Directory: complete Number of taxids: 4.079 Number of Accessions and total length per molecule type: Genomic: 688455 72372319088 RNA: 819522 1492671478 Protein: 3234358 1144795927 RefSeq Status Counts: Status RNA Protein ---------------------------------Reviewed 56655 89264 Validated 9616 121124 Provisional 402948 1742224 Predicted 14762 696301 Inferred 29 50 Model 323872 296967 Unknown 11640 4011 TABELA 5.1. Estatísticas de sequências da base de dados RefSeq em 2013 e 2007 (ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics/).  Anotação: [Reeves et al., 2009] fazem uma revisão dos vários aspectos de anotação: tipos, metodologias e disponibilidade. Além disso ressaltam os recentes esforços direcionados a anotações integradas, e discutem: 56 - Anotação de genomas e proteomas: sua organização, interpretação e integração, - Ferramentas de anotação e bancos de dados: fornecem meios para a disseminação dos dados e compreensão de sua importância biológica. Uma grande contribuição dos bancos de dados biológicos atuais é permitir a comparação de genomas de diferentes organismos. A comparação de sequências biológicas, buscando identificar similaridade entre elas, é uma ferramenta poderosa para auxiliar no desenvolvimento de hipóteses com o objetivo de caracterizar genes e outras sequências homólogas, e inferir relações estruturais, funcionais e evolutivas entre elas e seus organismos. Somente através de comparações é possível identificar características compartilhadas e/ou únicas de diferentes processos biológicos, organismos e grupos taxonômicos. A disponibilidade de sequências de organismos relacionados tem enriquecido bastante as análises genômicas comparativas. Inúmeros algoritmos desenvolvidos para a resolução de problemas genômicos se propõem a resolver “todos os casos”114; muitas vezes utilizando métodos de aprendizado, clustering e pipelines automatizados sem interferência humana115. Desta forma, podem apresentar resultados com baixa confiabilidade nos casos de exceção, que podem se propagar em análises posteriores. Poder utilizar recursos oriundos de diferentes fontes que integram diferentes tipos de informação biológica e métodos computacionais é uma boa opção para pesquisas pontuais e específicas, e é um procedimento que pode revelar novos dados, além de ressaltar possíveis incoerências ou erros. O esquema desenvolvido para o PWDB prevê este tipo de integração, com a vantagem de agregar o resultado de similaridade, já pré-calculado, resultante da comparação de milhares de sequências de proteína. No projeto conceitual desenvolvido nesta tese foram considerados os conceitos listados em (A), e restrições necessárias foram introduzidas de acordo com as limitações listadas em (B). Dentre algumas situações, pode-se citar:  Uma proteína sempre é codificada por um CDS, de acordo com (A), no entanto, 114 Fato comum em computação. Dependem do conjunto de dados inicial e refletem o conhecimento da época de seu desenvolvimento. Sofrem interferência da representatividade de sequências e organismos nas bases de dados, e qualidade e confiabilidade de anotações. 57 115 existem restrições no relacionamento PROTEIN CDS, limitadas por (B);  Um CDS sempre tem sua origem em um gene, de acordo com (A), no entanto, existem restrições no relacionamento GENE CDS, limitadas por (B);  A existência de três atributos identificadores para a entidade PROTEIN é necessária devido às diferentes bases de dados de origem das sequências e, também, para a construção de referências cruzadas com outras bases de dados;  O atributo comp da entidade PROTEIN só é necessário pois existem dois conjuntos de sequências de proteína distintos a serem considerados no momento da instanciação: o conjunto de proteínas comparadas no WCG, e o conjunto de proteínas de versões posteriores das bases de dados RefSeq e/ou Uniprot.  No caso de projetos de sequenciamento de genomas completos, os atributos projectId e status são necessários para fornecer informações sobre as diferentes sequências genômicas e a fase do sequenciamento116. O conhecimento em (A) já está bastante sedimentado, mas não deixa de ser apenas um “recorte” da biologia molecular e genômica. Particularidades e exceções existem, e outras novas podem ser descobertas, sem que se altere o conceito primário – representado pelo CENTRAL MÓDULO do esquema conceitual da FIGURA 4.8 (TABELAS 5.2 e 5.3). CONCEITO REPRESENTAÇÃO Classificação dos organismos Sequência genômica Gene Sequência CoDificadora de Proteína Proteína TAXONOMY GENOMIC SEQUENCE ∑ = {a, c, g, t} GENE ∑ = {a, c, g, t} CDS ∑´ = {a, c, g, u} PROTEIN ∑´´ = {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V} ncORF traduzida ORF_t Genoma Transcrito (mRNA) ncORF ∑´´ = {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V} Conjunto de todas GENOMIC SEQUENCE de um mesmo táxon Representado como atributo em GENE Representado como atributo em ORF-region ∑ = {a, c, g, t} TABELA 5.2. Resumo de entidades e demais conceitos do esquema conceitual da FIGURA 4.8. 116 ANEXO IV.1. 58 CONCEITO RELACIONAMENTO Associa uma sequência de proteína ao seu táxon Associa uma sequência torf ao seu táxon Relaciona uma sequência de proteína a sua sequência cds Posiciona uma sequência cds em sua sequência genômica Relaciona uma sequência cds ao seu gene Posiciona uma ncorf em sua sequência genômica Relaciona duas sequências de proteína, comparadas par-apar, cujo índice de similaridade atingiu o cut-off exigido Relaciona uma sequência de proteína117 com uma sequência torf, comparadas par-a-par, cujo índice de similaridade atingiu o cut-off exigido Relaciona duas sequências torf, comparadas par-a-par, cujo índice de similaridade atingiu o cut-off exigido PROTEIN TAXON ORF TAXON PROTEIN CDS GS CDS GENE CDS ORF REGION HIT_PP HIT_OP HIT_OO TABELA 5.3. Resumo de relacionamentos do esquema conceitual da FIGURA 4.8. Os atributos que definem as entidades representadas no esquema conceitual foram concebidos para responder questões genômicas bastante amplas, e podem ser enriquecidos com informações complementares oriundas de bases de dados associadas ao MÓDULO CENTRAL. 5. 2. QUESTÕES FUNDAMENTAIS EM GENÔMICA Vários conceitos baseados em estrutura, organização, funcionalidade e adaptação de genomas são utilizados em estudos evolutivos, desde a era pré-genômica, quando poucos métodos bioquímicos clássicos eram os únicos disponíveis, até os dias atuais, com novos e variados métodos experimentais de produção em larga escala e estrutura computacional robusta para interpretação e armazenamento dos resultados produzidos. Uma discussão detalhada destes conceitos118 está aquém da proposta desta tese, mas alguns deles serão mencionados, a seguir, de forma a tornar mais claro os requisitos do PCG e determinadas propriedades escolhidas para a definição dos elementos do esquema conceitual. Questões fundamentadas nestes conceitos podem ser respondidas completa ou parcialmente através de consultas diretas a um sistema de banco de dados implementado a partir 117 No PCG, sequências SwissProt Sugestões para uma revisão geral: [Buschman F, 2001] e [Gregory TR, 2005]. Dentre artigos científicos atuais pode-se sugerir [Gillis J and Pavlidis P, 2011] e outros que serão citados ao longo da Discussão. 59 118 do esquema da FIGURA 4.8, ou através de protocolos que utilizem resultados intermediários (fornecidos pelo sistema) como input para novas consultas/procedimentos, ou ainda, como input para ferramentas externas ao sistema. Além disso, pode-se gerar, por exemplo, listas com prováveis homólogos – para proteínas de interesse – enriquecidas com informações variadas como anotações provenientes de mais de uma base de dados, posições relativas ocupadas nos genomas homólogos, distâncias evolutivas119 entre eles, o conteúdo GC das regiões gênicas, identificadores das proteínas, transcritos, genes e sequências genômicas etc., facilitando e ampliando novas consultas com as proteínas selecionadas. Homologia (Ortologia e Paralogia) e Analogia A duplicação de DNA é uma das principais forças que direcionam a evolução dos organismos pois cria o material genético “cru” para a seleção agir e modelar. A redundância, que permite a diversificação, ocorre com relação a um único gene, regiões genômicas ou todo o genoma; e a compreensão deste processo requer a aplicação de abordagens comparativas. O conceito de homologia por muitos anos foi utilizado apenas por biólogos evolutivos, e, atualmente, tem sido muitas vezes mal compreendido e indevidamente utilizado quando explorado fora do seu contexto evolutivo. É um conceito com enorme potencial para estudar a evolução de espécies, genomas e genes [Descorps-Declère S, 2008]. A duplicação de genes é uma importante fonte de inovação funcional, e a definição de famílias de genes e compreensão das complexas relações entre seus membros é fundamental em estudos evolutivos, fisiológicos e de adaptação a ambientes diversificados e hostis, por exemplo. Genes homólogos (FIGURA 5.1) – pares de genes descendentes de um ancestral comum – são basicamente classificados como ortólogos (se divergiram após um evento de especiação) ou parálogos (se divergiram após um evento de duplicação, antes ou depois de um evento de especiação) [Fitch WM, 1970; 2000]. Estes são conceitos-chave em genômica evolutiva, e uma distinção clara entre eles é relevante em uma ampla gama de contextos como a evolução de genomas, função de produtos gênicos, redes celulares e anotação funcional [Koonin EV, 2005]. 119 Pode ser medida por diferentes métodos 60 Analogia, por outro lado, é definida como a relação entre dois caracteres quaisquer, descendentes de caracteres ancestrais não relacionados entre si, cuja similaridade se origina por convergência (Fitch WM, 1970; 2000). Existe um considerável número de enzimas análogas120, com atividades e especificidades similares sem uma origem evolutiva compartilhada, ou similaridade de sequência, por exemplo. FIGURA 5.1. Exemplos de homologia, ortologia e paralogia (BLAST Glossary, http://www.ncbi.nlm.nih.gov/books/NBK62051/) [Fulton DL et al., 2006] citam como um equívoco comum a utilização do termo ortólogo com o significado de “genes funcionalmente equivalentes em diferentes espécies”. Mesmo que muitos concordem que ortólogos tendem a apresentar funções similares, isto não é um requerimento para ortologia. Para os autores, várias situações em que pesquisadores tentam identificar ortólogos, num estudo genético ou genômico, o que eles realmente desejam é identificar o subgrupo de ortólogos que são especificamente equivalentes funcionalmente. Existe uma discussão sobre o assunto – a conjectura de ortólogos [Altenhoff AM, 2012], que postula que genes ortólogos são funcionalmente mais semelhantes do que genes parálogos. Uma parte considerável de pesquisadores apoia a hipótese de que após uma duplicação a função da proteína muda rapidamente originando parálogos com diferentes funções, enquanto que ortólogos tendem a reter a função ancestral. 120 Ver [Guimarães ACR, 2010]. 61 A identificação automática de genes ortólogos, assim como de famílias de parálogos, tem sido um componente essencial de várias aplicações de bioinformática, desde anotação de novos genomas à priorização de alvos para experimentos, e é comumente realizada a partir de sequências de proteína. É um ponto crítico para a construção de uma classificação evolutiva robusta de genes, estudar a complexidade das relações entre sequência e função e, consequentemente, uma anotação funcional confiável [Fulton DL et al., 2006]. Erros na predição de verdadeiros ortólogos podem ter um impacto bastante negativo em análises posteriores (incluindo genômica funcional e análises proteômicas), e tem levado a um interesse cada vez maior em métodos de predição de ortólogos de alta qualidade. Análises de genomas completos indicam que muitas famílias de genes (essencialmente parálogos) foram formadas antes da divergência da maioria das espécies atualmente comparadas. Consequentemente, ortólogos são tipicamente mais similares entre si do que entre os outros genes do genoma, e é por isso que a similaridade de sequências é geralmente utilizada para inferior ortologia de genes entre duas ou mais espécies. Porém, se um gene não está presente no conjunto de dados de um organismo comparado (devido a sequência incompleta do genoma ou perda de genes, por exemplo), métodos computacionais podem predizer incorretamente um parálogo como um ortólogo (Fulton DL et al., 2006). Estudos de genômica comparativa utilizam, muitas vezes, genomas incompletos, especialmente em grandes projetos de sequenciamento de eucariotos. Além disso, a perda gênica é uma importante força direcionando a evolução de bactérias [Reference Genome Group of the Gene Ontology Consortium, 2009]. Portanto, é importante estar atento ao fato de que muitos dos atuais bancos de dados de ortólogos devem conter falso-positivos devido a limitações dos métodos de inferência. [Chen and Zhang, 2012] analisaram estudos funcionais de homólogos com sequências de proteína idênticas e identificaram a existência de viés experimental, erros de anotação, e inferências funcionais baseadas em evidência rotulada como experimental (em GO), quando na realidade o gene que possuía a evidência experimental não era o gene anotado, mas seu homólogo. Eventos de transferência lateral de genes (Lateral Gene Transfer – LGT) e casos de proteínas com múltiplos domínios são fatores bastante complicadores para algoritmos que 62 dependem da correta distinção entre ortólogos e parálogos. [Dalquen et al., 2013] compararam a precisão de métodos de inferência de ortologia e concluíram que LGT diminui drasticamente a precisão de todos os métodos analisados; e relataram com preocupação que nenhum dos programas investigados incorporava um método específico para a detecção de LGT. Sintenia121 e Colinearidade122 Vários métodos para detecção de homólogos utilizam o conceito de sintenia e o contexto genômico em que o gene está inserido. Comparações entre genomas eucarióticos relacionados revelaram vários graus nos quais genes homólogos permanecem nos cromossomos correspondentes e exibem conservação de ordem (colinearidade) durante a evolução [Koonin EV, 2005]. O multi-alinhamento de regiões cromossômicas colineares (referidas como blocos colineares) pode revelar antigos eventos de duplicação de genomas inteiros (Whole Genomic Duplication – WGD), duplicação regionais e rearranjos, e relações cromossômicas complexas [Yupeng et al., 2012]. Padrões de sintenia e colinearidade podem fornecer insights sobre a história evolutiva de genomas e permitir análises subsequentes potencialmente úteis. Em muitas análises consideram-se genes “âncora”, que estão localizados em posições colineares nestes blocos, e genes “não-âncora”, que são mantidos para obtenção de ganhos/perdas genéticas ou transposição. Os genes de ancoragem são mais susceptíveis de serem homólogos do que os genes “não-âncora” (Jun et al., 2009, Casneuf et al., 2006). [Kassahn et al., 2009] comentam, com relação à evolução dos cordados, que grupos de genes co-duplicados podem ser remanescentes de antigos eventos de duplicação em pequena escala (envolvendo segmentos cromossômicos ou clusters de genes) que ocorreram em diferentes momentos evolutivos. E que combinações recentes de grupos co-duplicados distintos em diferentes regiões cromossômicas podem ser, provavelmente, o resultado de rearranjos de segmentos genômicos, incluindo grupos sintênicos de genes. [Henricson et al., 2011] demonstraram que os introns podem manter a sua posição por longos períodos evolutivos. Para os autores, pode ser possível utilizar a conservação das 121 Regiões de genomas distintos com considerável similaridade de sequência e probabilidade de descendência de um ancestral comum. 122 Colinearidade, uma forma mais específica de sintenia, considera a conservação da ordem dos genes. 63 posições dos introns como um fator de discriminação na detecção de ortologia, e que as posições dos introns em genes ortólogos tendem a ser mais conservadas do que em genes não ortólogos. [El-Mabrouk and Sankoff, 2012] apresentam uma revisão de estudos de rearranjos de genomas123, e de como lidar com genes duplicados. Apresentam as questões: - Como genomas atuais evoluíram a partir de um genoma ancestral comum? - Quais os cenários evolutivos mais realísticos para explicar a ordem de genes observada? - Qual o conteúdo e estrutura dos genomas ancestrais? Os autores tratam da identificação de ortólogos, parálogos e blocos sintênicos; e consideram três níveis de organização de genes:  Famílias de genes (evolução através de duplicação, perda e especiação),  Clusters de genes (evolução através de duplicações em série),  Genômica (todos os tipos de eventos de rearranjo, incluindo WGD). Genes Órfãos / Genes Únicos (Taxonomicamente Restritos) Genes órfãos tem sua origem principalmente em eventos de duplicação, e uma das possibilidades é que eles representem genes específicos de espécie. Segundo [Mazza et al., 2009], trabalhos recentes têm demonstrado que genes órfãos em Drosophila e primatas evoluem três a quatro vezes mais rápido do que a média de genes. Os autores citam que a função destes genes é muitas vezes mal caracterizada, e que eles possuem propriedades distintas, como alta especificidade tecidual, rápida evolução e pequeno tamanho. Comentam ainda que dependendo da sensitividade e especificidade dos métodos utilizados para identificar genes ortólogos, a fração de genes sem ortólogos entre espécies é variável; e que a qualidade da montagem do genoma pode interferir nos resultados. Em alguns casos a divergência de sequências entre espécies pode ser tão grande que uma possível ortologia entre genes pode se tornar indetectável. A identificação de genes restritos em diferentes níveis taxonômicos tem valor prático e científico. Proteínas específicas de linhagens (strain), espécie e gênero podem fornecer insights sobre critérios que definem um organismo e suas relações com organismos próximos. Informação sobre a presença ou ausência de genes é uma poderosa ferramenta para adquirir conhecimento sobre metabolismo, patogenicidade, fisiologia e comportamento em diferentes 123 Genômica comparativa, baseada na representação dos genomas como sequências ordenadas de assinaturas de genes [El-Mabrouk and Sankoff, 2012]. 64 organismos [Eisen and Fraser, 2003; Tatusov et al. 1997; Siew and Fischer, 2003]. Podem auxiliar na discriminação de linhagens patogênicas e não-patogênicas e fornecer uma lista reduzida de alvos diagnósticos para serem validados em laboratório. Os resultados de [Mazumder et al., 2005] (foram considerados apenas genomas de procariotos) mostraram que a maioria das proteínas únicas não apresentavam uma anotação funcional (estavam anotadas como hipotéticas), e as restantes, em sua maioria, apresentavam alguma relação com patogênese ou virulência, ou eram derivadas de fagos. Alguns fatos levantados no estudo:  O número de genes únicos codificados em organismos específicos pode depender da definição de “único”, dos parâmetros do método e do banco de dados utilizado.  Sequências podem ser incorretamente identificadas como únicas devido à ausência de genomas próximos para comparação, e também devido a existência de múltiplos genomas da mesma espécie ou gênero.  A identificação de genes específicos de espécie ou gênero poderá ocorrer com maior confiança quando existir uma maior representatividade de genomas nos bancos de dados para comparação. Natureza Modular das Proteínas, Domínios Proteicos, Fusão/Fissão 124 A estrutura modular das proteínas pode ser uma limitação para vários métodos de comparação de sequências e, portanto, a detecção e posicionamento de módulos, definindo uma estrutura de domínios, pode ajudar a remontar a história evolutiva da proteína, identificando eventos de duplicação, reorganização e fusão. Inúmeras proteínas são compostas por uma combinação de domínios discretos, associados a funções específicas que surgem em diferentes momentos evolutivos. O surgimento de novos domínios está relacionado com a diversificação e adaptação funcional da proteína. Como novos domínios surgem e como evoluem ainda é uma intensa área de pesquisas. Segundo [Toll-Riera and Mar Albà, 2013], as proteínas tendem a ganhar domínios ao longo do tempo. Muitas são compostas por domínios de diferentes idades e as regiões correspondentes aos domínios adquiridos mais recentemente tendem a evoluir mais 124 Jachiet et al., 2013; Dimitriadis et al., 2011; Adam et al., 2010; Reid et al., 2010; Durrens et al., 2008; Kummerfeld SK and Teichmann SA, 2005; Long M, 2000; Rentzsch R and Orengo CA, 2013; Forslund K, 2011; Kummerfeld SK, Teichmann AS, 2009; Bagowski CP,2010. 65 rapidamente. A identificação de domínios com origem evolutiva recente é crucial para o entendimento das adaptações específicas de espécie e específicas de linhagem, mas são domínios ainda pobremente caracterizados. Os autores compararam propriedades evolutivas de domínios de proteínas humanas de diferentes idades: específicas de mamíferos, específicas de vertebrados e mais antigas. E encontraram que quando os domínios de diferentes idades se combinam na mesma proteína, o domínio mais recente tende a evoluir bem mais rápido do que os domínios mais antigos, reforçando a idéia de que o tempo decorrido desde a origem de uma sequência determina em grande parte sua taxa evolutiva atual. Comparações de proteínas com múltiplos domínios podem ter ótimos resultados estatísticos de similaridade com proteínas com um único domínio (confirmando que possuem um domínio comum), mas uma análise detalhada da cobertura do alinhamento vai mostrar que a similaridade ocorre apenas na região do domínio comum. Fusão gênica é um processo evolutivo no qual genes inicialmente separados se fusionam numa única ORF, a qual é expressa como uma cadeia de proteína multi-domínio [Reid et al., 2010]125. Através da detecção destes eventos tenta-se inferir que as proteínas não fusionadas são funcionalmente relacionadas (i.e. participam de um processo biológico comum: seus produtos gênicos interagem como parte de um complexo proteico com mais de uma subunidade ou numa via metabólica comum). Procedimentos computacionais que identificam eventos de fusão com o objetivo de predição de associações funcionais costumam usar sequências de proteína completas ou famílias de domínios (fusão gênica e fusão de domínios), e os dois tipos de enfoque são compatíveis e podem ser combinados. No caso de fusão de domínios, a anotação de famílias de domínios (e.g. Pfam126) é usada para identificar domínios distintos em diferentes proteínas de um genoma, que ocorrem fusionados em uma única proteína de outro genoma. [Kassahn et al., 2009] compararam a expressão e arquitetura de domínios de WGD em Danio rerio com seus ortólogos de cópia única em Mus musculus e encontraram vários exemplos que suportam um modelo de neo funcionalização:  Duplicatas-WGD adquiriram novos domínios proteicos mais frequentemente do que genes de cópia única, 125 126 O artigo cita alguns métodos para detecção de eventos de fusão (gene/domínio). ANEXO IV.3 66  Alterações pós-WGD no nível de regulação gênica foram mais comuns do que alterações no nível de proteína,  Concluíram que a consequência mais significante de WGD para a evolução de vertebrados foi permitir um controle da regulação do desenvolvimento mais especializado, via aquisição de novos domínios de expressão espaço-temporal. No estudo, foram extraídos tripletos de proteínas peixe-humano quando um único locus humano possuía uma ou mais “âncoras” genômicas dentro do genoma do peixe. Estas proteínas do peixe compartilhavam significante similaridade de sequência com a proteína humana e estavam localizadas em regiões genômicas que compartilhavam pelo menos três homólogos próximos peixe-humano, sugerindo que as duas proteínas do peixe tinham sido originadas de um cromossomo ancestral compartilhado através de duplicação, provavelmente como resultado de WGD. Este tipo de procedimento utilizado pelos autores pode ajudar em predições de sintenia para duplicatas de WGD mantidas no genoma. Ainda de acordo com [Kassahn et al., 2009], a natureza das alterações é semelhante tanto após eventos de especiação quanto de duplicação, mas mudanças na arquitetura de domínios acontecem com uma frequência maior após duplicações de genes. Os autores acreditam que eventos de inserção/deleção de domínios parecem gerar uma maior perturbação na estrutura de domínios existente numa proteína quando ocorrem em posições internas, e que este fato talvez favoreça, em grande parte, a tendência destes eventos ocorrerem com maior frequência em torno das regiões terminais de proteínas Usando-se, por exemplo, os recursos do banco de dados Pfam pode-se traçar a evolução de famílias de domínios específicos. [Buljan and Bateman, 2009] mostram que a trajetória da superfamília de imunoglobulinas pode ser traçada por mais de 500 milhões de anos, desde a sua expansão para uma das maiores famílias do genoma humano. Esta família de proteínas teve sua origem em receptores de membrana de animais primitivos como esponjas (Porifera); e sua estrutura e sequência pode ser recuperada127 analisando-se a manutenção e variação de diferentes domínios encontrados em anticorpos do sistema imunológico, e em proteínas neurais e musculares de humanos. 127 Desde a divergência ocorrida durante a evolução dos vertebrados. 67 Fatores de transcrição são um bom exemplo da natureza modular e embaralhamento (shuffling) de proteínas, ampliando o controle da regulação gênica e desenvolvimento de organismos [Riechmann et al., 2000]. De acordo com [Sjölander et al., 2011], métodos de identificação de ortólogos geralmente não consideram alterações na arquitetura de domínios128, que tendem a modificar a função de proteínas. Os autores apresentam uma revisão de questões envolvidas na predição de ortólogos quando o conjunto de dados utilizado inclui sequências com estruturas heterogêneas de arquitetura de domínios, com atenção particular aos métodos desenhados para aplicações em larga escala. A FIGURA 5.2 mostra como as combinações de domínios foram anotadas no trabalho. [Sjölander et al., 2011] concluem que:  Ortólogos exibem uma maior conservação da arquitetura de domínios do que parálogos.  Interpretaram este fato como a indicação de uma pressão seletiva mais forte sobre ortólogos para manter a arquitetura de domínios requerida para as proteínas executarem uma função específica.  Ortólogos, assim como os parálogos mais próximos, geralmente possuem arquiteturas de domínios bastante similares, mesmo em grandes distâncias evolutivas.  A alteração mais comum observada em arquiteturas de domínios, tanto em pares de ortólogos quanto de parálogos, envolve inserção/deleção de novos domínios, enquanto que embaralhamento e duplicação/deleção de segmentos são menos frequentes.  É possível inferir que ortologia está acompanhada de uma forte pressão para manter a arquitetura de domínios, e que a ordem específica de domínios parece ser importante para a função executada por um grupo de proteínas ortólogas. 128 Arquitetura de domínios, refere-se ao arranjo sequencial de domínios ao longo de uma sequência de proteína. Também referido como arranjo de domínios ou ordem de domínios, significa especificamente o arranjo sequencial de domínios conhecidos Pfam-A ao longo de uma proteína, no sentido N- para C-terminal [Sjölander et al., 2011]. 68 Todos os alinhamentos que não foram classificados como idênticos ou totalmente diferentes foram anotados como segue: Anotações de eventos de troca de domínios. Domínios alinhados estão sombreados em cinza claro e domínios não alinhados em cinza escuro. Todos os casos de domínios não alinhados receberam uma das cinco anotações: 1. Duplicação/deleção de segmento. Um segmento de dois ou mais domínios foi duplicado nas proximidades ou perdido, 2. Diferença de repetição. A primeira proteína possui um ou mais domínios B do que a outra proteína. Como o domínio não alinhado está localizado próximo a um domínio alinhado do mesmo tipo, o domínio não alinhado é anotado como uma diferença de repetição, 3. Inserção/deleção de um novo domínio. A primeira proteína tem dois domínios B não alinhados. Ambos serão anotados como inserção/deleção de um novo domínio, pois a outra proteína não possui este tipo de domínio. 4. Inserção/deleção de um domínio existente. A primeira proteína possui dois domínios A não alinhados. Como a outra proteína tem um domínio deste tipo, os domínios não alinhados na primeira proteína serão anotados como inserção/deleção de um domínio existente, 5. Embaralhamento de domínios (shuffling). Ambas proteínas possuem domínios B não alinhados. Nenhum deles ocorre próximo a um domínio B alinhado e portanto não podem ser anotados como repetição. Estes domínios serão anotados como um embaralhamento. FIGURA 5.2. Adaptação da Figura 1 de [Sjölander K et al., 2011]. 5.3. VALIDAÇÃO DO MODELO Os objetos representados num esquema conceitual são definidos com base num conjunto semântico, o qual pode ser entendido intuitivamente por desenhistas e usuários do sistema. O diagrama ER de um esquema conceitual é uma ferramenta que permite a descrição de consultas e procedimentos sem envolvimento com o esquema lógico. Este fato permite que usuários leigos em linguagens de bancos de dados possam contribuir desde as fases iniciais do projeto do sistema, auxiliando os desenvolvedores na compreensão do problema e implementação dos procedimentos. 69 A seguir são apresentados alguns exemplos de consultas simples e procedimentos mais complexos com o objetivo de demonstar mais claramente como inúmeras questões podem ser detalhadas pelos próprios usuários a partir do diagrama da FIGURA 4.8. CONSULTAS SIMPLES: 1. Contar proteínas no banco de dados que tenham sido comparadas?  Contar ocorrências na entidade PROTEIN usadas em comparações (atributo comp = 1). 2. Proteínas do PCG que possuem uma sequência genômica origem?  Checar ocorrências em PROTEIN, usadas nas comparações (comp = 1), que tenham um elemento associado na entidade GENOMIC SEQUENCE. 3. Quantos genomas de um dado grupo taxonômico (e.g. Vertebrata) estão representados no banco de dados?  Inicialmente é necessário recuperar o taxonId para o grupo na entidade TAXONOMY e, então, contar todos os nodos com rank espécie (ou o menor rank, se houver), pertencentes a esse grupo, que possuam sequências genômicas associadas na entidade GENOMIC SEQUENCE. 4. Quantas proteínas, com sequências genômicas, pertencem a um dado grupo taxonômico?  É similar ao item anterior, mas é necessário considerar todas as sequências genômicas (na entidade GENOMIC SEQUENCE) de cada taxonId das espécies (ou o menor rank) pertencentes ao grupo taxonômico desejado em contar todas as ocorrências na entidade PROTEIN, TAXONOMY; e que estejam associadas a um elemento da entidade GENOMIC SEQUENCE pertencente a esse grupo taxonômico. 5. Retornar todos os hits (com proteínas) para uma dada protein X, com e-value abaixo de um cut-off:  Fazer uma busca nas ocorrências do relacionamento HIT_PP, restrita a e-values < cut-off escolhido, e listar aquelas em que query_gi ou subject_gi seja igual a X. 70 CONSULTAS COMPLEXAS: Seguem dois exemplos de procedimentos para a identificação de genes taxonomicamente restritos e parálogos. Nestes exemplos, a análise considerará apenas proteínas oriundas de genomas completos (atributo status = complete na entidade GENOMIC SEQUENCE), para garantir comparações entre proteomas completos. A. Identificação de proteínas restritas a uma espécie ou a um grupo taxonômico Resumidamente deseja-se identificar proteínas, do proteoma completo (“predito”) de uma espécie, que não tenham similaridade com nenhuma proteína de outro proteoma; ou identificar proteínas dos proteomas completos das espécies de um grupo taxonômico T que tenham similaridade com proteínas de todas as espécies do grupo T, e não tenham similaridade com nenhuma proteína fora do grupo taxonômico T. A.1 Genes restritos a uma espécie (ou o menor rank, que pode estar no nível taxonômico de espécie, strain ou sub-strain). 1. Obter o taxonId do organismo de interesse na entidade TAXONOMY (todas as sequências genômicas desse taxonId devem ter status = complete), 2. Para esse taxonId, considerar todas as sequências genômicas da entidade SEQUENCE GENOMIC que tenham elementos associados e comparados em PROTEIN (comp = 1), 3. Seja SeqGen o conjunto de sequências genômicas definidas em 2. 4. Para o conjunto SeqGen, identificar, dentre todos os seus elementos associados na entidade PROTEIN, aqueles que não tenham hit (e-value < cut-off) com sequências de proteína não associadas com o conjunto SeqGen. A.2 Genes restritos a um grupo taxonômico (gênero, por exemplo) 1. Obter os taxonId das espécies (ou nó folha inferior) do genêro X na entidade TAXONOMY (todas as sequências genômicas, para cada taxonId, devem ter status = complete), 2. Seja T o conjunto de taxon_id das espécies pertencentes ao gênero X. 3. Para cada taxonId pertencente a T, Seja SeqGen o conjunto de todas as sequências genômicas da entidade GENOMIC SEQUENCE desse taxonId, que tenham elementos associados e comparados em PROTEIN (comp = 1). 4. Seja SeqGlobal o conjunto de SeqGen. 5. Para o conjunto SeqGlobal, Identificar, dentre todos os seus elementos associados na entidade PROTEIN, aqueles que 71 satisfaçam as duas condições abaixo:  NÃO TENHAM hit (e-value < cut-off) com sequências de proteína não associadas em SeqGlobal,  TENHAM hit (e-value < cut-off) com pelo menos uma sequência de proteína associada em cada SeqGen. Como exemplo, pode-se citar o gênero Escherichia que possui a espécie E. coli (dentre várias outras). Essa espécie possui a linhagem (strain) O157:H7 (dentre várias outras), e E. coli O157:H7 possui várias sub-strains. Através dos procedimentos descritos acima, pode-se obter subconjuntos iniciais, por exemplo, para:  Genes únicos de Escherichia (ocorrem em todas as espécies/linhagens do gênero e não ocorrem fora do genêro);  Genes restritos à espécie E. coli (não ocorrem em outras espécies de Escherichia);  Genes restritos à uma linhagem de E. coli (O157:H7, ou qualquer outra),  Genes compartilhados e únicos de linhagens patogênicas e não patogênicas. É indicado que haja uma segunda etapa com procedimentos que comparem o resultado obtido em A.1 ou A.2 com todas as outras proteínas da entidade PROTEIN (que não tenham sido utilizadas na primeira fase), para confirmar se não existem proteínas similares em organismos que não foram considerados por não possuírem genomas completos. B. Identificação de Genes Parálogos Resumidamente, deseja-se identificar proteínas do proteoma completo (“predito”) de um organismo que tenham similaridade com outras proteínas do mesmo proteoma. 1. Obter o taxonId do organismo de interesse na entidade TAXONOMY (todas as sequências genômicas desse taxonId devem ter status = complete), 2. Para esse taxonId, considerar todas as sequências genômicas da entidade GENOMIC SEQUENCE, que tenham elementos associados e comparados em PROTEIN (comp = 1), 3. Seja SeqGen o conjunto de sequências genômicas definidas em 2. 4. Para o conjunto SeqGen, identificar, dentre todos os seus elementos associados na entidade PROTEIN, grupos de proteínas que tenham hits entre si (e-value < cut-off). 72 Nos dois exemplos acima, os possíveis resultados representam uma primeira etapa na identificação de genes restritos e parálogos. Diferentes valores de cut-off devem ser testados, e avaliações adicionais. C. Outros Procedimentos A seguir, são apresentados outros exemplos de procedimentos que podem ser especificados utilizando o esquema conceitual da FIGURA 4.8, como nos casos A. e B. descritos acima. Vale frisar que muito do poder de consulta do esquema provém de suas conexões com as bases de dados associadas, e que cada consulta/procedimento pode ser apenas a primeira fase de protocolos com múltiplas etapas. Resultados intermediários ou finais podem ser combinados de forma a atingir uma resposta mais específica.  Famílias de Parálogos: podem ser comparadas entre diferentes proteomas identificando, por exemplo, perdas, duplicações e diversificação nas famílias. Consultas adicionais:  Recuperar os domínios das proteínas na base de dados Pfam,  Utilizar a posição dos domínios Pfam para um entendimento da estrutura de domínios nos membros da família. Isto pode permitir o agrupamento de parálogos mais similares dentro da família (resultantes de ciclos independentes de duplicação). Esses grupos podem facilitar a comparação da história evolutiva da família em diferentes organismos (expansão/redução e diversificação).  O atributo region da entidade CDS pode ser utilizado para mapear a família de genes em seu genoma.  O alinhamento em HIT_PP pode se estender apenas ao longo de um domínio que define a família (comum a todos os parálogos do proteoma), e não ao longo do comprimento total das sequências comparadas.  Adicionar anotação GO da base Gene Ontology, e definition da entidade PROTEIN, para comparar anotações funcionais; e números EC da base KEGG no caso de enzimas.  O resultado pode fornecer indícios para uma busca mais detalhada de proteínas não identificadas no proteoma de um dos organismos (com uma função específica, por exemplo), mas que esteja presente no proteoma de outro organismo como integrante de uma família gênica compartilhada entre os dois.  Dentre outros. 73  Ortólogos: pode-se utilizar uma sequência representativa129 para sub-grupos distintos130 dentro de uma família de genes parálogos (partindo do caso acima). A análise de similaridade, auxiliada por informações de parálogos, pode facilitar a identificação de ortólogos entre diferentes proteomas completos (todas as sequências genômicas na entidade GENOMIC SEQUENCE de cada proteoma devem ter status = complete). Adicionalmente, pode-se considerar nas análises:  A cobertura dos alinhamentos (relacionamento HIT_PP), que deve se estender pelo comprimento total das sequências (ao contrário de parálogos, como citado anteriormente);  Adicionar anotação GO da base Gene Ontology, e definition da entidade PROTEIN, para comparação das anotações funcionais; e números EC da base KEGG no caso de enzimas.  Confirmar os domínios Pfam e a estrutura de domínios das proteínas.  O atributo region da entidade CDS permite: - Analisar a conservação de número e posição de introns, - Acessar a sequência genômica e região promotora dos genes para comparação,  Dentre outros.  Colinearidade: para os casos descritos acima, e várias outras consultas, outros fatores importantes podem ser analisados:  A vizinhança dos genes sob avaliação. Pode-se utilizar o atributo index de GENE.  Confirmar a existência de clusters de genes e a ordem dentro do cluster, e comparar essa estrutura com outros proteomas.  Avaliar o contexto genômico (ver abaixo).  Dentre outros.  Contexto genômico  Várias análises genômicas avaliam o conteúdo GC de genes e genomas,  Genes, assim como regiões genômicas, com uma composição anormal do conteúdo GC, com relação ao valor médio de genes e do genoma é um dos parâmetros utilizado em procedimentos para identificação de transferência 129 130 Ou gerar uma sequência consenso. Existem ferramentas para isto. Parálogos mais similares 74 lateral de genes (LGT) e ilhas genômicas (patogenicidade, resistência a antibióticos, dentre outras), por exemplo.  Alguns tipos de elementos genômicos estão associados com regiões que apresentam conteúdo GC diferenciado.  A entidade GENE possui a informação do conteúdo GC de genes (atributo GC_content);  A entidade GENOMIC SEQUENCE possui a informação do conteúdo GC de sequências genômicas (atributo GC_content).  Para análise de transferência lateral de genes, pode-se utilizar como parâmetros: - O conteúdo GC de genes individualmente e de clusters de genes, quando for o caso. - Colinearidade de genes em clusters (os atributos index e strand da entidade GENE - podem auxiliar). A existência de genes ou clusters de genes similares no genoma analisado e sua ausência em grupos taxonômicos próximos, porém existentes em organismos mais distantes. - Inversamente, a existência de genes ou clusters de genes similares no genoma analisado e em grupos taxonômicos vizinhos.  O atributo region da entidade CDS serve como ponto de referência para o acesso a regiões genômicas específicas, de forma que as questões descritas acima e várias outras (como por exemplo, a comparação de regiões promotoras de grupos específicos de genes) possam ser avaliadas.  Dentre outros.  Vias Bioquímicas  Supondo uma via bioquímica de interesse, pode-se utilizar como referência a mesma via já bem estudada num organismo modelo, por exemplo. E tentar reconstruir essa via em outros organismos de interesse.  Analisar proteínas similares para cada etapa de uma via em diferentes organismos, considerando as anotações funcionais oferecidas pelo sistema. Restringir o conjunto de dados utilizando os atributos dos elementos do esquema, associados às anotações. No caso de enzimas, considerar os números EC.  Esse processo pode fornecer insights sobre a existência e conservação de vias bioquímicas e realçar a ausência de proteínas/enzimas em diferentes organismos. 75  O banco de dados KEGG é referência para este tipo de estudo.  O estudo comparativo de vias bioquímicas fornece informações do estilo de vida dos organismos, fenótipos, adaptação a ambientes adversos, evolução, dentre outras.  Existem também as enzimas análogas que não apresentam similaridade de sequência131 mas possuem função similar132, e podem atuar num mesmo processo bioquímico em diferentes organismos. Para estes casos, pode-se utilizar informações funcionais das bases de dados associadas e números EC, avaliando os elementos em PROTEIN, associados a GENOMIC SEQUENCE com status = complete, que foram comparados no PCG (atributo comp = 1 em PROTEIN) mas não possuem elementos em HIT_PP.  Dentre outros. Alguns atributos dos elementos do esquema conceitual desenvolvido podem ser relevantes para complementar tais consultas; como por exemplo: Entidade PROTEIN gbkId: permite a construção de referências cruzadas entre a base de dados RefSeq (seção proteína) com outras bases de dados. uniprotId: permite a construção de referências cruzadas entre a base de dados UniProt com outras bases de dados. comp: sempre será utilizado para limitar (ou excluir) o conjunto de dados do PCG (sequências de aminoácido que foram comparadas). Entidade CDS region: sua função principal é mapear proteínas, CDSs, transcritos e genes na sequência genômica. Pode ser utilizado como posição de referência para o acesso e análise de regiões genômicas específicas. Entidade GENE geneId: permite a construção de referências cruzadas entre a base de dados Gene com outras bases de dados. 131 132 Não terão ocorrências em HIT_PP. Mesmo número EC e anotações funcionais similares. 76 transcriptId: pode ser útil em consultas direcionadas à expressão gênica, transcriptomas, perfis de expressão diferencial em células ou tecidos, por exemplo, e permitir a construção de referências cruzadas com bases de dados. Entidade GENOMIC SEQUENCE gbkId: permite a construção de referências cruzadas entre a base de dados RefSeq (seção genoma) com outras bases de dados. mol_type: pode limitar uma consulta a um tipo específico de molécula. seq_type: pode limitar uma consulta à tipo(s) específico(s) de unidade(s) genômica(s). length_mol: útil no cálculo de estatísticas, com relação a unidades elementares das sequências genômicas (e genoma). status: importante para limitar consultas a proteomas “preditos” completos (complete). A combinação de propostas, como as descritas acima, assim como a adição de informações das bases de dados associadas (Uniprot, RefSeq, Gene, Pfam, EC, GO, KEGG), permite uma ampla utilização do esquema apresentado. Adicionalmente, todas as consultas podem ser limitadas a uma espécie (ou rank inferior) ou a um grupo taxonômico, além de módulos Pfam, números EC e anotação GO, permitindo um maior controle do usuário. Importante lembrar que as consultas podem ser limitadas, ou não, ao conjunto de proteomas “preditos” completos (status = complete), e que as sequências de proteína que não pertencem a este grupo podem ser importantes para (in)validar resultados. Uma informação de grande utilidade para a tomada de decisão em qualquer procedimento é utilizar os códigos de confiabilidade de anotação das bases de dados associadas (PROTEIN EXISTENCE no UniProt, REVISION no RefSeq, EXISTENCE CODE no GO, por exemplo). Como comentário final deve-se frisar que um ponto fundamental, e um diferencial da proposta desenvolvida nesta tese, é que a especificação e programação de consultas não precisa considerar a etapa de comparação de sequências, que já foi executada pelo PCG, permitindo um ganho de processamento considerável no momento da execução dos procedimentos133. 133 Após a implementação física do sistema 77 5.4. CONSULTAS IMPLEMENTADAS NO PWDB V.1134 Resumidamente, usuários podem fazer “downloads”, comparar e analisar resultados de similaridade filtrados por genomas, funções de proteínas (utilizando números EC, domínios Pfam, GO, palavras-chave), clusters, dentre outras facilidades disponibilizadas através do menu da FIGURA 5.3. FIGURA 5.3. Menu de consultas da interface do PWDB v.1. EXEMPLOS:  Consulta 1: Opção: “Basic Searches” (FIGURA 5.3) Domínio Pfam PF00226, Genoma: Escherichia coli 536 FIGURA 5.4  Resultado 1: FIGURA 5.5 FIGURA 5.4. Parâmetros da Consulta 1. 134 Maiores informações sobre as consultas implementadas podem ser vistas em [Otto, Bezerra et al., 2010] e no site do PWDB v.1. 78 As proteínas presentes no banco de dados PWDB v.1 que preenchem os requisitos da Consulta 1 estão listadas na FIGURA 5.5 - Resultado 1. Cada proteína apresenta:  Os identificadores das bases RefSeq (linha superior da 1ª coluna) e UniProt (linha inferior da 1ª coluna).  A anotação das bases RefSeq (linha superior da 2ª coluna) e UniProt (linha inferior da 2ª coluna).  As duas anotações básicas (que descrevem a proteína) podem ser comparadas. Primary / Secondary ID 110640269 YP_667997 Annotation (Function) DnaJ-like protein DjlA Q0TLT3 Q0TLT3_ECOL5 SubName: Full=DnaJ-like protein DjlA; chaperone protein HscB 110642692 YP_670422 Q0TEV8 HSCB_ECOL5 110641882 YP_669612 Q0TH68 Q0TH68_ECOL5 110641883 YP_669613 Q0TH67 Q0TH67_ECOL5 * 110640228 YP_667956 Q0TLX4 Q0TLX4_ECOL5 RecName: Full=Co-chaperone protein hscB; AltName: Full=Hsc20; putative TPR repeat protein SubName: Full=Putative TPR repeat protein; putative TPR repeat protein SubName: Full=Putative TPR repeat protein; chaperone protein DnaJ RecName: Full=Chaperone protein dnaJ; 110641184 YP_668914 curved DNA-binding protein Q0TJ66 CBPA_ECOL5 RecName: Full=Curved DNA-binding protein; GO-terms GO:0031072 Pfam PF00226 GO:0031072 GO:0006457 GO:0051087 PF00226 GO:0031072 PF00226 PF07743 PF08238 GO:0031072 PF00226 PF08238 GO:0031072 GO:0006457 GO:0005737 GO:0006260 GO:0008270 GO:0051082 GO:0005524 GO:0009408 GO:0031072 GO:0006457 GO:0005737 GO:0003681 GO:0009295 GO:0051082 PF00226 PF01556 PF00684 PF00226 PF01556 FIGURA 5.5135. Resultado 1 – seis proteínas selecionadas de acordo com os parâmetros da Consulta1. Consulta 2: Opção: “Comparative Data” (FIGURA 5.3) Domain: PF00226 limitado ao genoma: Escherichia coli 536 Similaridade com o Genoma: todos FIGURA 5.6  Resultado 2: FIGURA 5.7. 135 Os três registros marcados com o símbolo * serão comentados na FIGURA 5.7 79 FIGURA 5.6. Parâmetros da Consulta 2. FIGURA 5.7. Resultado 2 – A Consulta 2 tem os mesmos parâmetros pfam e genoma da Consulta 1 (cujo resultado são as seis proteínas da FIGURA 5.5), além do limite de busca de genomas = todos. Na FIGURA 5.7 estão listados os resultados de apenas três destas sequências – marcadas na FIGURA 5.5 com o símbolo * Iniciando a pesquisa na opção “Comparative Data” pode-se:  Escolher parâmetros de e-value, identidade, sobreposição e pontuação SW,  Escolher parâmetros estatísticos, 80  Limitar a busca a uma característica (domínio Pfam, número EC, GO) de um genoma específico:  No exemplo, domínio PF00226, com a opção “Limite feature search on genomes” = Escherichia coli 536 – a consulta será feita para cada uma das seis sequências listadas no Resultado 1 da FIGURA 5.5.  Limitar os hits a um genoma específico. Consulta 3: Opção: “Unique Genes” (FIGURA 5.3) Cluster: Identidade 80%; cobertura do alinhamento: 90% 3.1 Genoma: Saccharomyces cerevisiae (FIGURA 5.8) 3.2 Genoma: E. coli 536  Resultado 3.1: FIGURA 5.9  Resultado 3.2: FIGURA 5.10 FIGURA 5.8. Parâmetros da Consulta 3. O termo “Unique Genes” deve ser usado com muita cautela. Nesta opção de consulta:  O resultado está baseado num método de agrupamento (cluster) específico136.  Proteínas multi-modulares são fatores complicadores para estes métodos.  O resultado depende também da representatividade dos grupos taxonômicos no banco de dados (com proteomas completos) e suas distâncias evolutivas137.  136 Se os parâmetros forem relaxados, o resultado será alterado. [Otto et al., 2008]. Existem vários métodos de agrupamento. Por exemplo, o grande número de variantes da espécie E. coli e outras espécies evolutivamente próximas presentes no banco de dados PWDB. 81 137 FIGURA 5.9. Resultado 3.1: 28 proteínas do genoma S. cerevisiae não possuem identidade de pelo menos 80% com cobertura do alinhamento de 90% com as outras proteínas do PWDB v.1. FIGURA 5.10. Resultado 3.2: 11 proteínas do genoma de E. coli 536 não possuem identidade de pelo menos 80% com cobertura do alinhamento de 90% com as outras proteínas do PWDB v.1. Uma das facilidades bastante interessante oferecida já na primeira versão do PWDB é a possibilidade de download do resultado da comparação entre dois proteomas completos (FIGURA 5.11). 82 FIGURA 5.11. Menu para a escolha de parâmetros para download do resultado da comparação entre dois proteomas (“preditos”) completos. Uma nova implementação do PWDB baseada no esquema da FIGURA 4.8, tem o potencial de oferecer novas possibilidades para pesquisas mais avançadas. Todas as consultas já disponíveis na primeira versão são passíveis de serem respondidas de forma ampliada, e o controle do usuário na elaboração de consultas pode ser mais preciso e pontual, fornecendo condições para a construção de procedimentos mais complexos. Além disso, pode-se pensar num sistema que recupere resultados de consultas intermediárias e os reutilize como input em etapas posteriores. Com o esquema conceitual proposto nessa tese, todas as consultas desenhadas para o PWDB v.1, por exemplo, podem ser limitadas ao táxon folha da hierarquia (espécie ou níveis inferiores) ou nodos superiores como gênero, ordem e assim por diante. Podem também ser limitadas aos genomas que possuem todas as suas sequências genômicas representadas no banco de dados, isto é, o proteoma completo (“predito”) do organismo estaria representado na entidade PROTEIN. A Consulta 1 da FIGURA 5.4, por exemplo, poderia ser limitada ao genoma de uma das variantes de E. coli138 (rank inferior à espécie; por exemplo: E. coli O157:H7 str. Sakai, taxonId = 386585), ou considerar todas as variantes, optando por um grupo de hierarquia superior como espécie (E. coli, taxonId = 562), gênero (Escherichia, taxonId = 561), classe (Gammaproteobacteria, taxonId = 1236) e etc. 138 Única opção através da interface do PWDB v.1 83 5.5. EXTENSÃO DO MODELO Um ponto a ser ressaltado no esquema da FIGURA 4.8, refere-se a entidade ORF_T e o relacionamento GS ORF_T. Este conjunto de elementos deve ser visto como um anexo ao módulo CENTRAL. As sequências tORF foram concebidas para um estudo específico do PCG. Considerando a ideia de módulos anexos, pode-se afirmar que o esquema conceitual proposto ultrapassou o objetivo original de modelagem direcionada, especificamente, aos dados e requerimentos do PCG. Módulos anexos podem ser inseridos/removidos para incluir outros projetos baseados em comparações de sequências de proteína, que se beneficiem das informações fornecidas pelo módulo CENTRAL do modelo. Da mesma forma, outras bases de dados específicas – por exemplo, bases de dados de: expressão gênica, transcriptomas, estruturas 3D de proteínas, proteomas (experimentais), interações de proteínas, dentre outras – podem ser integradas ao esquema a partir de referências cruzadas não só com a entidade SEQUENCE, PROTEIN, mas também com as entidades GENE e GENOMIC através dos atributos que referenciam os identificadores únicos das bases de dados RefSeq, UniProt, Gene e Taxonomy. Novas bases adicionadas ao esquema podem fornecer informações extra para responder requisitos e/ou necessidades futuras e incrementar o processo de anotação, além de oferecer novos parâmetros para consultas e procedimentos. Conjuntos com novas sequências de proteína (versões mais recentes das bases RefSeq e UniProt) podem ser comparadas e seus hits serem adicionadas aos do conjunto original do PCG, assim como outros conjuntos de dados de proteína podem ser comparados, e seus resultados substituírem os hits do PCG. As informações centrais do esquema que têm como referência as bases de dados RefSeq, Gene e UniProt, podem ser instanciadas e atualizadas a qualquer momento, utilizando scripts já desenvolvidos e disponíveis para a carga de dados [Tristão and Lifschitz, 2009]. 84 6. CONCLUSÕES O propósito original do estudo desta tese – modelagem conceitual de bancos de dados biológicos –, surgiu com a proposta para o desenvolvimento de um sistema de banco de dados para armazenar e gerenciar o resultado do Projeto Comparação de Genomas (PCG). O interesse em desenvolver um sistema para o PCG deve-se a importância de seu resultado:  Mais de 4 milhões de sequências de aminoácidos foram comparadas “par-a-par”,  Centenas de genomas completos foram utilizados,  O programa de comparação utilizado foi o SSEARCH,  O PCG gerou como resultado uma matriz de aproximadamente 1 Terabyte (TB), com 4,2 x 109 linhas com dados de similaridade de sequências139,  Resumindo, o PCG calculou e armazenou índices de similaridade, resultantes da comparação de milhões de sequências de proteína, eliminando, desta forma, a fase de maior custo computacional necessária para análises genômicas comparativas (que é a comparação de sequências140). A primeira produção do grupo LGFB/LaBBio utilizando os dados do PCG foi o PWDB v.1141. Este banco de dados foi publicado em [Otto, Bezerra et al., 2010], está atualmente funcional e disponível na web através de uma interface gráfica e atende aos requisitos de maior urgência da época em que foi desenvolvido. Num projeto de sistema de banco de dados, a organização do banco de dados é uma das etapas mais importantes e seu desenho deve ser representado, primeiramente, em um esquema conceitual, que é uma representação gráfica do modelo conceitual. A modelagem conceitual é a fase em que se busca representar, em uma linguagem de alto nível, os conceitos/objetos presentes no domínio do problema; e independe da escolha de software e paradigmas de desenvolvimento, do sistema de computação e da evolução de tecnologia. Ao longo do projeto de modelagem, objeto desta tese, dois pontos fundamentais foram considerados para responder adequadamente os requisitos do PCG: 139 Índices de similaridade com um cut-off mínimo, estatisticamente significativo. No caso específico do PCG, os elementos genômicos comparados foram sequências de proteína. Existem diferentes abordagens para comparação de genomas. 141 Anterior ao esquema conceitual proposto nesta tese. 85 140 (a) Para a recuperação de informações preditas para as proteínas em fontes de dados biológicos externas e comparação de diferentes anotações, foram construídas referências cruzadas entre os identificadores das sequências de aminoácidos de cada hit com as bases NCBI-RefSeq e UniProt. (b) Para estudos genômicos, a questão chave foi relacionar as sequências de aminoácidos com suas sequências de nucleotídeos de origem142 e sua posição genômica. O esquema conceitual desenvolvido nesta tese foi publicado em [Lifschitz, Bezerra et al., 2012]. Uma nova versão (já prevista) do banco de dados PWDB, baseada neste esquema, pode permitir pesquisas mais avançadas e a construção de procedimentos mais complexos. Devido a característica básica de um esquema conceitual de representar o modelo de dados de maneira independente de especificações computacionais, durante a fase conceitual de um sistema de banco de dados tenta-se adiar decisões de projeto relacionadas a paradigmas computacionais específicos, mantendo-se o foco no processo de compreensão e definição da semântica do domínio do problema. Nessa tese, o esquema conceitual foi representado através de um formato gráfico de fácil compreensão — o diagrama ER, proposto para facilitar o planejamento de consultas e procedimentos por pesquisadores da área de genômica (que normalmente possuem conhecimento limitado em bancos de dados), assim como guiar o desenvolvimento e a implementação física de uma segunda versão do PWDB por profissionais da área de computação (que normalmente possuem conhecimento limitado em genômica). Poder utilizar fontes distintas e associar diferentes tipos de informação biológica e métodos computacionais é uma interessante opção para pesquisas pontuais e mais específicas, que podem revelar novos dados, além de ressaltar possíveis incoerências ou erros. O esquema apresentado prevê a utilização de recursos variados com a vantagem de considerar a associação de bases de dados biológicos de referência a uma base com índices de similaridade já précalculados, resultantes da comparação de sequências de proteína oriundas de genomas completos (e incompletos). Foram apresentados alguns exemplos para demonstrar a possibilidade de utilização do esquema conceitual para planejamento de consultas e procedimentos, mesmo antes da 142 Da base de dados Refseq. 86 existência de um esquema lógico. Com isso, usuários sem conhecimento suficiente para utilizar uma linguagem de banco de dados podem ter uma maior participação no projeto de um sistema, utilizando os elementos do diagrama do esquema para um maior detalhamento de questões de interesse que poderão ser melhor compreendidas pelos desenvolvedores do sistema. Estudos e implementações utilizando o esquema vêm sendo desenvolvidos pelo grupo do LabBio, e dentre alguns já finalizados pode-se citar [Tristão C, 2012; Viana et al., 2011a; Viana et al., 2011b; Tristão and Lifschitz, 2009]. O esquema conceitual proposto pode ser estendido com facilidade. Módulos anexos podem ser inseridos/removidos para incluir outros projetos baseados em comparação de sequências de proteína que se beneficiem das informações fornecidas pelo módulo CENTRAL do modelo. Da mesma forma, novas bases de dados específicas de diferentes áreas (-ômicas, por exemplo) podem ser integradas ao esquema a partir de referências cruzadas não só com a entidade PROTEIN, mas também com as entidades GENE, GENOMIC SEQUENCE e TAXONOMY. Novas sequências de proteína podem ser comparadas entre si e com as sequências originais do PCG e seus hits serem adicionados aos do conjunto original, assim como outros conjuntos de sequências de proteína podem ser comparados, e seus resultados substituírem os hits do conjunto original do PCG. As informações centrais do esquema, que têm como referência as bases de dados RefSeq, Gene e UniProt, podem ser instanciadas e atualizadas a qualquer momento utilizando scripts já desenvolvidos e disponíveis para a carga de dados. Para finalizar, vale ressaltar um ponto fundamental da proposta do sistema de banco de dados PWDB que é permitir a construção de consultas e procedimentos no domínio da genômica comparativa sem a necessidade de comparação de sequências; e pode representar um ganho considerável em processamento, tempo e espaço computacional no momento de execução. 87 7. REFERÊNCIAS BIBLIOGRÁFICAS Allen G, Bajaj A, Khatri V, Ram S, Siau K. Advances in Data Modeling Research by Communications of the Association for Information Systems. 2006;17:677-692, Altenhoff AM, Studer RA, Robinson-Rechavi M, Dessimoz C. Resolving the Ortholog Conjecture: orthologs tend to be weakly, but significantly, more similar in function than paralogs. PLoS Comput Biol. 2012;8(5):e1002514. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J. Mol. Biol. 1990 Oct 5;215(3):403-10. Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 1997;25:33893402. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G. Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature Genet. 2000;25:25–29. Augen J. Information technology to the rescue! Nature Biotechnol. 2001;19:BE39–BE40. Bachman CW. Data Structure Diagrams. ACM SIGMIS Database. 1969;1(2):4-10. Bagowski CP, Bruins W, te Velthuis AJW. The nature of protein domain evolution: shaping the interaction network. Curr Genomics. 2010 Aug;11(5):368-76. Bell MJ, Gillespie CS, Swan D, Lord P. An approach to describing and analysing bulk biological annotation quality: a case study using UniProtKB. Bioinformatics. 2012 Sep 15;28(18):i562-i568. Beringer D. Limits of seamless in object oriented software development. In: Proceedings of the 13th International Conference on Technology of Object Oriented Languages and Systems. Versalles, France. 1994;161-171. Birney E, Clamp M. Biological database design and implementation. Briefings in Bioinformatics. 2004 March;l5(1):31–38. Boekhorst J, Snel B. Identification of homologs in insignificant blast hits by exploiting extrinsic gene properties. BMC Bioinformatics. 2007;8:356. Bornberg-Bauer E, Paton NW. Conceptual data modelling for bioinformatics. Brief Bioinform. 2002 Jun;3(2):166-80. Brenner S. Nobel Lecture: Nature´s Gift to Science. Nobelprize.org. 13 Dec 2012. http://www.nobelprize.org/nobel_prizes/medicine/laureates/2002/brenner-lecture.html Buljan M, Bateman A. The evolution of protein domain families. Biochem Soc Trans. 2009 Aug;37(Pt 4):751-5. Busch N, Wedemann G. Modeling genomic data with type attributes, balancing stability and maintainability. BMC Bioinformatics. 2009;10:97. 88 Bushman F. Lateral DNA transfer: mechanisms and consequences. Cold Spring Harbor Laboratory Press; November 13, 2001. Casneuf T, De Bodt S, Raes J, Maere S, Van de Peer Y. Nonrandom divergence of gene expression following gene and genome duplications in the flowering plant Arabidopsis thaliana. Genome Biol. 2006;7:R13. Chen J, Sidhu AS. Biological Database Modeling. Norwood, MA, USA: Artech House Inc.; 2007 Chen JY, Carlis JV. Genomic data modeling. Information. Special issue: Data management in bioinformatics. June 2003;28(4):287–310 Chen PP, Thalheim B, Wong LY. Future directions of conceptual modeling. Conceptual modeling, Current Issues and Future Directions. Lecture Notes in Computer Science. 1999;1565:287-301 Chen PP. The Entity-Relationship model - toward a unified view of data. ACM Transactions of Database Systems. 1976;1(1):9-36. Chen X, Zhang J. The ortholog conjecture is untestable by the current gene ontology but is supported by RNA sequencing data. PLoS Comput Biol. 2012;8(11):e1002784. Chena YJ, Carlisb JV. Genomic data modeling. Information Systems. 2003;28:287–310. Codd EF. A relational model for large shared databanks. Communications of the ACM. 1970;13:377-387. Dalquen DA, Altenhoff AM, Gonnet GH, Dessimoz C. The impact of gene duplication, insertion, deletion, lateral gene transfer and sequencing error on orthology inference: a simulation study. PLoS One. 2013;8(2):e56925. Descorps-Declère S, Lemoine F, Sculo Q, Lespinet O, Labedan B. The multiple facets of homology and their use in comparative genomics to study the evolution of genes, genomes, and species. Biochimie. 2008 Apr;90(4):595-608. Dunnen JD, Antonarakis S. Nomenclature for the description of human sequence variations. Human genetics. 2001;109(1):121-124. Durrens P, Nikolski M, Sherman D. Fusion and Fission of Genes Define a Metric between Fungal Genomes. PLoS Comput Biol. 2008;4(10):e1000200 Eisen JA, Fraser CM. Phylogenomics: intersection of evolution and genomics. Science. 2003;300:17061707. El-Mabrouk N, Sankoff D. Analysis of gene order evolution beyond single-copy genes. Methods Mol Biol. 2012;855:397-429. Elmasri R, Ji F, Fu J, Zhang Y, Raja Z. Modelling Concepts And Database Implementation Techniques For Complex Biological Data. International Journal of Bioinformatics Research and Applications. 2007;3(3):366–388. Elmasri R, Navathe S. Sistemas de Banco de Dados. – 6.ed. São Paulo: Pearson Education Br; 2011. Farrar, M. Striped Smith-Waterman speeds database searches six times over other SIMD implementations. Bioinformatics. 2007;23(2):156–161. Fitch WM. Distinguishing homologous from analogous proteins. Syst Zool. 1970;19:99-113. 89 Fitch WM. Homology a personal view on some of the problems. Trends Genet. 2000 May;16(5):227-31. Forslund K, Pekkari I, Sonnhammer EL. Domain architecture conservation in orthologs. BMC Bioinformatics. 2011 Aug 5;12:326. Fulton DL, Li YvonneY, Laird MR, Horsman BGS, Roche FM, Brinkman FSL. Improving the specificity of high-throughput ortholog prediction. BMC Bioinformatics. 2006;7:270. Gillis J, Pavlidis P. Characterizing the state of the art in the computational assignment of gene function: lessons from the first critical assessment of functional annotation (CAFA). In Selected proceedings from the Automated Function Prediction Meeting. Vienna, Austria, 15-16 July 2011. BMC Bioinformatics 2013;14(Suppl 3):S15. Gregory TR. The evolution of the genome. Elsevier/Academic Press; 2005. Guimarães ACR. Identificação in silico de enzimas isofuncionais não-homólogas, um potencial reservatório de alvos terapêuticos [tese]. Rio de Janeiro: Instituto Oswaldo Cruz - FIOCRUZ; 2010. Halpin TA. Comparing metamodels for ER, ORM and UML data models. In: Keng Siau. Advanced Topics in Database Research Volume 3. Missouri University of Science and Technology, USA; 2004.23-44. Hammer M, Mcleod D. Database description with SDM: a semantic database model. ACM Transactions on Database Systems. 1981;6(3):351-386. Harrington JL. Relational database design and implementation: clearly explained. 3rd ed. Morgan Kaufmann Series in Data Management Systems; 2009. Heger A, Wilton CA, Sivakumar A, Holm L. ADDA: a domain database with global coverage of the protein universe. Nucleic Acids Res. 2005 Jan 1;33(Database issue):D188-91. Henricson A, Forslund K, Sonnhammer EL. Orthology confers intron position conservation. BMC Genomics. 2010 Jul 2;11:412. Ideker T, Galitski T, Hood L. A new approach to decoding life: Systems Biology. Annu. Rev. Genomics Hum. Genet. 2001;2:343–72. Ishak I, Salim N. Database integration approaches for heterogeneous biological data sources: an overview. In: Postgraduate Annual Research Seminar (PARS 2006). Postgraduate Studies Department FSKSM, UTM Skudai; 2006 Jachiet PA, Pogorelcnik R, Berry A, Lopez P, Bapteste E. MosaicFinder: identification of fused gene families in sequence similarity networks. Bioinformatics, 2013;29(7):837-844. Jun J, Mandoiu II, Nelson CE. Identification of mammalian orthologs using local synteny. BMC Genomics. 2009;10:630. Juristo, AM. Introductory paper: reflections on conceptual modelling. Data & Knowledge Engineering. 2000;33:103-117. Kaindls H, Carroll JM. Simbolic modeling in practice. Communications of the ACM. 1999;42(1):28-30. Karp PD, Ouzounis CA, Moore-Kochlacs C, Goldovsky L, Kaipa P, Ahrén D, Tsoka S, Darzentas N, Kunin V, López-Bigas N. Expansion of the BioCyc collection of pathway/genome databases to 160 genomes. Nucleic Acids Res. 2005;33:6083–6089 90 Kassahn KS, Dang VT, Wilkins SJ, Perkins AC, Ragan MA. Evolution of gene function and regulatory control after whole-genome duplication: comparative analyses in vertebrates. Genome Res. 2009 Aug;19(8):1404-18. Katari MS, Nowicki SD, Aceituno FF, Nero D, Kelfer J, Thompson LP, Cabello JM, Davidson RS, Goldberg AP, Shasha DE, Coruzzi GM, Gutiérrez RA. VirtualPlant: a software platform to support systems biology research. Plant Physiol. 2010 Feb;152(2):500-15. Keet CM. Biological data and conceptual modelling methods. Journal of Conceptual Modeling. 2003 October;29. Khajeh-Saeed A, Poole S, Perot JB. Acceleration of the Smith-Waterman algorithm using single and multiple graphics processors,” Journal of Computational Physics. 2010;229(11):4247–4258. Klimke W, O'Donovan C, White O, Brister JR, Clark K, Fedorov B, Mizrachi I, Pruitt KD, Tatusova T. Solving the Problem: Genome Annotation Standards before the Data Deluge. Stand Genomic Sci. 2011 October 15;5(1):168–193. Köhler J, Philippi S, Lange M. SEMEDA: ontology based semantic integration of biological databases. Bioinformatics. 2003;19:2420–2427. Koonin EV. Orthologs, paralogs, and evolutionary genomics. Annual Review of Genetics. 2005;539: 309–338. Kummerfeld SK, Teichmann SA. Protein domain organisation: adding order. BMC Bioinformatics. 2009 Jan 29;10:39. Kummerfeld SK, Teichmann SA. Relative rates of gene fusion and fission in multi-domain proteins. Trends in Genetics. January 2005;21(1):25–30. Lee ST, Lin CY, Hung CL. GPU-based cloud service for Smith-Waterman algorithm using frequency distance filtration scheme. Biomed Res Int. 2013;2013:721738. Li ITS, Shum W, Truong K. 160-fold acceleration of the Smith-Waterman algorithm using a field programmable gate array (FPGA). BMC Bioinformatics. 2007;8:185. Lifschitz S, Viana CJM, Tristão C, Catanho M, Degrave WM, Miranda AB, Bezerra M, Otto TD. Design and implementation of ProteinWorldDB. Advances in Bioinformatics and Computational Biology. Lecture Notes in Computer Science. 2012;7409:144-155. Lipman DJ, Pearson WR. Rapid and sensitive protein similarity searches. Science. 1985;227(4693):1435–41. Liu Y, Wirawan A, Schmidt B. CUDASW++ 3.0: accelerating Smith-Waterman protein database search by coupling CPU and GPU SIMD instructions. BMC Bioinformatics. 2013;14:117. Long M. A New Function Evolved from Gene Fusion. Genome Res. 2000;10:1655-1657 Loucopoulos P, Karakostas V. System requirements engineering. New York, NY, USA: McGraw-Hill, Inc.; 1995. Manavski SA, Valle G. CUDA compatible GPU cards as efficient hardware accelerators for SmithWaterman sequence alignment. BMC Bioinformatics. 2008;vol 9,supplement 2,article S10. 91 Mayordomo AM. Human genome conceptual modeling: an ontological framework for the design and implementation of genomic information systems. Research Challenges in Information Science (RCIS) IEE. 2012;1-6. Mazumder R, Natale DA, Murthy S, Thiagarajan R, Wu CH. Computational identification of strain-, species- and genus-specific proteins. BMC Bioinformatics. 2005 Nov 23;6:279 Mazza R, Strozzi F, Caprera A, Ajmone-Marsan P, Williams JL. The other side of comparative genomics: genes with no orthologs between the cow and other mammalian species. BMC Genomics. 2009 Dec 14;10:604. Mendes P, Sha W, Ye K. Artificial gene networks for objective comparison of analysis algorithms. Bioinformatics. 2003;19(2):II122—II129 Navathe SB, Kogelnik AM. The challenges of modeling biological information for genome databases. In: Goos G, Hartmanis J, van Leeuwen J., Chen PP, Akoka J, Kangassalu H, Thalheim B. Selected Papers from the Symposium on Conceptual Modeling, Current Issues and Future Directions. Lecture Notes in Computer Science; 1999. 15651:68-182. Nelson MR, Reisinger SJ, Henry SG. Designing databases to store biological information. Biosilico. 2003;1(4):134-142. Olinski RP, Lundin LG, Hallböök F. Conserved synteny between the Ciona genome and human paralogons identifies large duplication events in the molecular evolution of the insulin-relaxin gene family. Mol Biol Evol. 2006 Jan;23(1):10-22. Ostel JM, Wheelan SJ, Kans JA. The NCBI data model. 2001. In: Baxevanis AD, Ouellette BF. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, 2nd ed. John Wiley & Sons, Inc.; 2001. Chapter 2. Otto TD, Catanho M, Tristão C, Bezerra M, Fernandes RM, Elias GS, Scaglia AC, Bovermann B, Berstis V, Lifschitz S, de Miranda AB, Degrave W. ProteinWorldDB: querying radical pairwise alignments among protein sets from complete genomes. Bioinformatics. 2010 Mar 1;26(5):705-7. Pastor O, Casamayor JC, Celma M, Mota L, Ángeles Pastor M, Levin AM. Conceptual modeling of human genome: integration challenges. In: Conceptual Modelling and Its Theoretical Foundations. Lecture Notes in Computer Science. 2012;7260:231-250 Pastor O. Conceptual modeling meets the human genome. In: Qing Li, Spaccapietra S, Yu E, Olivé A. Conceptual Modeling - ER 2008: 27th International Conference on Conceptual Modeling, Barcelona, Spain. Lecture Notes In Computer Science. 2008;1-11 Paton NW, Khan SA, Hayes A, Moussouni F, Brass A, Eilbeck K, Goble CA, Hubbard SJ, Oliver SG. Conceptual modeling of genomic information. Bioinformatics. 2000;16(6):548-557. Pearson WR. Comparison of methods for searching protein sequence databases. Protein Sci. 1995 Jun;4(6):1145-60. Pearson WR. Searching protein sequence libraries: comparison of the sensitivity and selectivity of the Smith-Waterman and FASTA algorithms. Genomics. 1991 Nov;11(3):635-50. Pennisi E. How will big pictures emerge from a sea of biological data? Science. 2005;309:94. 92 Philippi S, Köhler J. Addressing the problems with life-science databases for traditional uses and systems biology. Nat Rev Genet. 2006 Jun;7(6):482-8. Philippi S, Köhler, J. Using XML technology for the ontology-based semantic integration of life science databases. IEEE Trans. Inf. Technol. Biomed. 2004;8:154–160. Philippi S. Light-weight integration of molecular biological databases. Bioinformatics. 2004 Jan 1;20(1):51-7. Poptsova MS, Gogarten JP. Using comparative genome analysis to identify problems in annotated microbial genomes. Microbiology. July 2010;156(7):1909-1917. Punta M, Coggill PC, Eberhardt RY, Mistry J, Tate J, Boursnell C, Pang N, Forslund K, Ceric G, Clements J, Heger A, Holm L, Sonnhammer EL, Eddy SR, Bateman A, Finn RD. The Pfam protein families database. Nucleic Acids Res. 2012 Jan;40(Database issue):D290-301. Ram, S. Intelligent database design using the unifying semantic model. Information and Management. 1995;29(4):191-206. Rattei T, Tischler P, Götz S, Jehl MA, Hoser J, Arnold R, Conesa A, Mewes HW. SIMAP--a comprehensive database of pre-calculated protein sequence similarities, domains, annotations and clusters. Nucleic Acids Res. 2010 Jan;38(Database issue):D223-6. Rattei T, Arnold R, Tischler P, Lindner D, Stümpflen V, Mewes HW. SIMAP: the Similarity Matrix of Proteins. Nucleic Acids Res. 2006 Jan 1;34(Database issue):D252-6. Reeves GA, Talavera D, Thornton JM. Genome and proteome annotation: organization, interpretation and integration. J R Soc Interface. 2009 Feb 6;6(31):129-47. Reference Genome Group of the Gene Ontology Consortium. The Gene Ontology's Reference Genome Project: a unified framework for functional annotation across species. PLoS Comput Biol. 2009;5:e1000431. Reid AJ, Ranea JAG, Clegg AB, Orengo CA. CODA: Accurate Detection of Functional Associations between Proteins in Eukaryotic Genomes Using Domain Fusion. PLoS One. 2010;5(6):e10908. Rentzsch R, Orengo CA. Protein function prediction using domain families. In: Selected proceedings from the Automated Function Prediction Meeting 2011. BMC Bioinformatics. 2013;14(3):S5. Richesson R, Turley JP. Conceptual models: definitions, construction, and applications in public health surveillance. Journal of Urban Health. 2003;80:128. Riechmann JL, Heard J, Martin G, Reuber L, Jiang C, Keddie J, Adam L, Pineda O, Ratcliffe OJ, Samaha RR, Creelman R, Pilgrim M, Broun P, Zhang JZ, Ghandehari D, Sherman BK, Yu G. Arabidopsis transcription factors: genome-wide comparative analysis among eukaryotes. Science. 2000 Dec 15;290(5499):2105-10. Rognes T. Faster Smith-Waterman database searches with inter-sequence SIMD parallelisation. BMC Bioinformatics. 2011 Jun 1;12:221. Rojas-Mujica I, Bornberg-Bauer E. Database systems for the analysis of biochemical pathways. In Molecular Biology and Pathogenicity of Mycoplasmas (Razin S and Hermann R, eds). 2002:201–220, Kluwer Academic. 93 Roos DS. Computational biology. Bioinformatics – trying to swim in a sea of data. Science. 2001;291:1260–1261. Rost B. Enzyme function less conserved than anticipated. J. Mol. Biol. 2002;3318:595–608. Rubin DL, Shafa F, Oliver DE, Hewett M, Altman RB. Representing genetic sequence data for pharmacogenomics: an evolutionary approach using ontological and relational models. Bioinformatics. 2002;18(Suppl. 1):S207–S215 Rudnicki WR, Jankowski A, Modzelewski A, Piotrowski A, Zadrozny A. The new SIMD implementation of the smith-waterman algorithm on cell microprocessor. Fundamenta Informaticae. 2009;96(1-2):181–194. Shpaer EG, Robinson M, Yee D, Candlin JD, Mines R, Hunkapiller T. Sensitivity and selectivity in protein similarity searches: a comparison of smith-waterman in hardware to blast and fasta. Genomics. 1996;38(2):179–191. Siew N, Fischer D. Analysis of singleton ORFans in fully sequenced microbial genomes. Proteins. 2003;53:241-251. Sjölander K, Datta RS, Shen Y, Shoffner GM. Ortholog identification in the presence of domain architecture rearrangement. Brief Bioinform. 2011 Sep;12(5):413-22. Smith JM, Smith DCP. Database abstractions: aggregation and generalization. ACM Transactions on Database Systems. 1977;2(2):105-133. Smith TF, Waterman MS. Comparison of Biosequences. Adv. Appl. Math. 1981;2:482-9. Smith TF, Waterman MS. Identification of common molecular subsequences. J Mol Biol. 1981 Mar 25;147(1):195-7. Sokhansanj BA, Fitch JP, Quong JN, Quong AA. Linear fuzzy gene network models obtained from microarray data by exhaustive search. BMC Bioinformatics. 2004;5(1):108. Stein L. Genome annotation: from sequence to biology. Nat Rev Genet. 2001 Jul;2(7):493-503. Stein LD. Integrating biological databases. Nature Reviews Genetics. 2003 may;4:337. Stevens R, Baker P, Bechhofer S, Ng G, Jacoby A, Paton NW, Goble CA, Brass A. TAMBIS: transparent access to multiple bioinformatics information sources. Bioinformatics. 2000 Feb;16(2):184-5. Tatusov RL, Koonin EV, Lipman DJ. A genomic perspective on protein families. Science. 1997;278:631-637. TianW, Skolnick J. How well is enzyme function conserved as a function of pairwise sequence identity? J. Mol. Biol. 2003;333:863–882. Toll-Riera M, Mar Albà M. Emergence of novel domains in proteins. BMC Evolutionary Biology. 2013;13:47. Torbjørn R. Faster Smith–Waterman database searches with inter-sequence SIMD parallelization. BMC Bioinformatics. 2011;12:221. 94 Tristão C, Lifschitz S. Protein World Database: geração do esquema lógico e processo de ETL. [Monografia em Ciência da Computação]. Rio de Janeiro: Pontifícia Universidade Católica do Rio de Janeiro; outubro, 2009:28/09. Tristão C. Uma Abordagem para Modelar, Armazenar e Acessar Sequências Biológicas [tese]. Rio de Janeiro: Pontifícia Universidade Católica do Rio de Janeiro; 2012. Tsichritzis DC, Lochovsky FH. Hierarchical database management: a survey. Computing Surveys. 1976 March;105-124. Uchiyama I. MBGD: a platform for microbial comparative genomics based on the automated construction of orthologous groups. Nucleic Acids Res. 2007;35:D343–D346. Viana CJ, Lifschitz S, Haeusler EH, Miranda AB. Processamento de dados semânticos na cloud: um estudo de caso com o Protein World Database. [Monografia em Ciência da Computação]. Rio de Janeiro: Pontifícia Universidade Católica do Rio de Janeiro; abril 2011:03/11. Viana CJ, Lifschitz S, Haeusler EH, Miranda AB. Protein World Database: definição e implementação de estruturas organizacionais [Monografia em Ciência da Computação]. Rio de Janeiro: Pontifícia Universidade Católica do Rio de Janeiro; abril 2011:02/11. Wieringa R. Requirements engineering frameworks for understanding. Wiley; April 1996. WR Pearson. Searching protein sequence libraries: comparison of the sensitivity and selectivity of the Smith-Waterman and FASTA algorithms. Genomics. 1991 Nov;11(3):635-50. Xiaohua Zhou, Il-Yeol Song. Conceptual Modeling of Genetic Studies and Pharmacogenetics. Computational science and its applications – ICCSA 2005. Lecture Notes in Computer Science. 2005; 3482:402-415 Yupeng Wang, Haibao Tang, DeBarry JD, Xu Tan, Jingping Li, Xiyin Wang, Tae-ho Lee, Huizhe Jin, Marler B, Hui Guo, Kissinger JC, Paterson AH. MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucl. Acids Res. 2012;40(7):e49. 95 8. ANEXOS I. II. Design And Implementation of ProteinWorldDB [Lifschitz, Bezerra et al., 2012] .... 97 ProteinWorldDB: Querying Radical Pairwise Alignments among Protein Sets from Complete Genomes [Otto, Bezerra et al., 2010] ............... 109 III. Projeto Comparação de Genomas – PCG .................................................................. 112 IV. Bases De Dados 1. NCBI – RefSeq ..................................................................................................... 118 2. UniProt .................................................................................................................. 123 3. NCBI – Gene ........................................................................................................ 126 4. Pfam ...................................................................................................................... 129 5. Gene Ontology (GO) ............................................................................................ 131 6. KEEG .................................................................................................................... 133 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 III. PROJETO COMPARAÇÃO DE GENOMAS – PCG O Projeto Comparação de Genomas (PCG)143, uma iniciativa do grupo de pesquisas genômicas do Laboratório de Genômica Funcional e Bioinformática (LGFB) do Instituto Oswaldo Cruz / Fiocruz, comparou aproximadamente quatro milhões de sequências de aminoácido e gerou como resultado uma matriz com quase 900 GB, que precisava ser estruturada, armazenada e disponibilizada para a comunidade científica. Mais detalhadamente, o PCG foi planejado visando:  A construção de um repositório de referência para a comunidade de anotadores, proporcionando uma fonte de dados confiável para pesquisas. Utilizando-se os índices de similaridade, armazenados na matriz de resultados, juntamente com uma nomenclatura padronizada de genes e seus produtos (Gene Ontology144) e de outras bases de dados145 de proteínas, para dar suporte ao processo de anotação, e fazer um cruzamento de anotações de diferentes tipos;  Permitir pesquisas avançadas de genômica comparativa, com base na similaridade entre o conjunto total de sequências proteicas de genomas completamente sequenciados (“proteomas preditos”). Para as comparações, utilizou-se uma estrutura distribuída de grid fornecida pelo World Community Grid (WCG)146: Execução  Processamento no WCG: 143  Início: 20 de dezembro de 2006  Término: 21 de julho de 2007  Total: 07 meses de calendário; http://www.dbbm.fiocruz.br/labwim/bioinfoteam/templates/archives/GenomeComparison/GenomeComparison http://www.worldcommunitygrid.org/research/fcg1/overview.do 144 http://www.geneontology.org. 145 Com informações funcionais, de domínios, e classes enzimáticas. 146 http://www.worldcommunitygrid.org/ 112  Quantidade de sequências proteicas comparadas:  3.812.663 sequências da base de dados NCBI-RefSeq147 v.21;  254.609 sequências da base de dados UniProt-Swiss-Prot148 v.51.5;  Um conjunto de quase três milhões de sequências tORFs.  Comparação:  Par-a-par e todas-contra-todas149  Programa: SSEARCH150,151;  Parâmetros: padrão do SSEARCH;  Valor de corte152: E-value = 1;  Número de comparações realizadas: 16 x 1012. Formato do Resultado  Na FIGURA III.1 temos o exemplo do resultado de uma comparação gerada pelo SSEARCH:  A sequência consulta = query_gi = 67523787  A sequência subject = subject_gi = 67540134 FIGURA III.1. Exemplo do resultado de uma comparação produzido pelo SSEARCH. A matriz de resultados do PCG é composta apenas por registros com este formato, onde somente os valores das comparações são armazenados. A linha superior da figura apresenta apenas os descritores dos valores, que estão especificados na TABELA III.1.  Resultados armazenados:  147 Apenas as informações dos alinhamentos (FIGURA III.1 e TABELA III.1); (http://www.ncbi.nlm.nih.gov/refseq/). Todas as proteínas preditas codificadas em 458 genomas (completos e não finalizados). 148 http://www.uniprot.org/ 149 Comparou-se todas as sequências de proteína presentes em cada genoma de cada organismo entre si e entre todas as sequências de proteína presentes nos genomas de todos os outros diferentes organismos. 150 [Pearson WR, 1991]; http://fasta.bioch.virginia.edu/. 151 Uma implementação do algoritmo de Smith-Waterman [Smith and Waterman, 1981], o qual encontra o melhor alinhamento local (do ponto de vista matemático) entre pares de sequências. 152 Só foram armazenados resultados de similaridades com e-value <= 1. 113  Apenas pareamentos com valor de similaridade estatisticamente significativo (evalue <= valor de corte);  O alinhamento entre o par de sequências comparado não foi armazenado;  Número de alinhamentos significativos: 4.2 x 109;  Quantidade de dados da matriz (descompactados): 900 Gb. Parâmetro Descrição SW score Pontuação obtida para o alinhamento de duas sequências, de acordo com uma matriz de substituição particular Bit score Bit score. Pontuação normalizada E-value Valor esperado ou E-value. Representa o número de alinhamentos com a mesma pontuação ou maior esperado ao acaso % identity Fração de posições idênticas para um dado alinhamento. Alignment length Comprimento do alinhamento. Query start Posição inicial da sequência consulta no alinhamento. Query end Posição final da sequência consulta no alinhamento. Subject start Posição inicial da sequência no alinhamento. Subject end Posição final da sequência comparada no alinhamento. Query gaps No de gaps introduzidos na sequência consulta durante o alinhamento. Subject gaps No de gaps introduzidos na sequência comparada durante o alinhamento. TABELA III.1: Descrição dos parâmetros listados no resultado do SSEARCH da comparação de um par de sequências. ENFOQUE COMPUTACIONAL Sob o ponto de vista computacional, podemos ver o problema da quantidade de dados a ser gerenciada como um desafio. 900 Gb referem-se somente à matriz de resultados das comparações, valor que se tornará bem maior com a adição de dados das bases que serão associadas para dar suporte ao processo de anotação e pesquisas genômicas. Uma utilização eficiente desses resultados está diretamente relacionada com a forma como estes dados serão armazenados e as facilidades para execução de consultas complexas e do tempo de resposta, isto é, do projeto do banco de dados e facilidades de gerenciamento desses dados. 114 Com relação ao sistema de banco de dados que dará suporte às pesquisas biológicas, deve ser considerado:  A questão de persistência dos dados (com uma ordem de grandeza de terabytes);  A questão de acesso e busca eficientes;  Soluções eficientes para que não ocorram gargalos de processamento, em termos da relação entre os dados em disco e memória RAM;  O projeto da base de dados de forma que, em termos de software, atenda às necessidades de busca;  Versões futuras incrementais e atualização do banco de dados. ENFOQUE BIOLÓGICO O ponto inicial para as pesquisas biológicas é a matriz de resultados do PCG que contém os índices de similaridades resultantes das comparações entre o conjunto total de sequências proteicas (“proteoma predito”) codificado nos diversos genomas considerados. O segundo ponto, que permitirá o estudo de diferentes questões de genômica comparativa, requisitadas pelos organizadores do PCG, dependerá das bases de dados integradas a essa matriz, definindo e limitando o domínio que fornecerá os contornos básicos para o projeto conceitual do PWDB. De acordo com a documentação e conversas com a equipe do PCG, algumas das questões a serem analisadas, através de consultas diretas ao banco de dados, ou pela seleção de conjuntos de dados intermediários para utilização em procedimentos posteriores são:  Obter uma anotação mais precisa das sequências comparadas, de modo a oferecer um repositório de referência para a comunidade de anotadores, proporcionando uma fonte de dados confiável para pesquisas;  A atribuição de possíveis funções a proteínas hipotéticas de função desconhecida,  Identificação de proteínas com múltiplos domínios e elementos funcionais,  Detecção de relacionamentos distantes entre proteínas;  Relacionamentos evolutivos entre proteínas para uma melhor compreensão da organização genômica, sua evolução e funções celulares;  Estudos evolutivos de genomas e famílias de proteínas; 115  Compreensão do conteúdo protéico total de uma célula, das interações entre as proteínas e das vias bioquímicas e sua regulação;  Análise da biodiversidade, através do estudo de diferentes aspectos da genética e bioquímica dos organismos;  Entendimento de relacionamentos parasito-hospedeiro;  Busca de novos métodos diagnóstico assim como o desenvolvimento de novas drogas e vacinas;  Tentativa de descobrir padrões incomuns de codificação em sequências genômicas de procariotos, utilizando os resultados do grupo de sequências de aminoácidos derivadas de ORFs153 que não foram identificadas como codificadoras de proteína através dos métodos computacionais clássicos. DIFERENCIAL DO PCG Um ponto importante e inovador desse projeto é a utilização do software SSEARCH para as comparações, e a parceria com o World Community Grid – IBM, que disponibilizou a capacidade ociosa de computadores pessoais de voluntários em todo o mundo, através de uma infraestrutura de computação distribuída, sem a qual esse volume de comparações, utilizando este método de comparação em especial, não seria possível. O PCG é único no que diz respeito à utilização do SSEARH para comparação desse volume de dados. Pode-se citar o SIMAP (the Similarity Matrix of Proteins [Rattei et al., 2006, 2010]), como um trabalho similar, mas este utiliza o Blast [Altschul et al. 1990, 1997] nas comparações e, inclusive, os autores comentam que a solução ótima para gerar uma matriz de similaridade seria a aplicação do algoritmo de alinhamento Smith–Waterman (SW) e o subsequente armazenamento dos scores significativos154. E concluem155 que apesar de existirem implementações eficientes do algoritmo SW os custos computacionais seriam totalmente inviáveis. Assim, no SIMAP, é utilizado o método heurístico Blast para acelerar a busca nos bancos de dados. 153 O PCG resolveu utilizar essas sequências nas comparações numa tentativa de identificar possíveis sequências candidatas a serem codificadoras, não detectadas pelos métodos automatizados, através do grau de similaridade com sequências de proteína já conhecidas. "Non-coding_ORF” (ncORF) e “translated_ORF” (tORF) são termos definidos para o esquema conceitual do PWDB v.2. Não são proteínas cadastradas em bancos de dados de sequências. Maiores detalhes, anteriormente, em DISCUSSÃO. 154 Essa foi exatamente a metodologia empregada pelo PCG. 155 Citando [Rognes et al., 2000]. 116 COMPARAÇÃO DE SEQUÊNCIAS Buscas por similaridade de sequências em bancos de dados é um processo repetitivo, em que as mesmas buscas são refeitas frequentemente, e, normalmente, é apenas o passo inicial para direcionar estudos posteriores. Assim, pode-se frisar mais um ponto importante sobre o PCG: o projeto comparou todo o conteúdo protéico codificado nos genomas de centenas de organismos, incluindo o homem e diversas outras espécies de interesse médico, comercial, industrial ou de importância em pesquisa como organismos-modelo. Foram comparações “para-par” e “todas-contra-todas”, e os resultados de comparações considerados estatisticamente significativos foram armazenados numa matriz. Isso significa que para a obtenção de informações sobre similaridades e, em última análise, homologias, não é necessário comparar mais de uma vez, por exemplo, o proteoma de um genoma X com o proteoma de um genoma Y, se X e Y foram comparados no PCG. O resultado das comparações (normalmente a parte mais demorada e computacionalmente intensiva da pesquisa) já está armazenado na matriz do PCG. Consultas de similaridade entre proteínas de interesse pertencentes a X e/ou Y, podem ser recuperadas diretamente da matriz do PCG. BANCO DE DADOS PROTEINWORLDDB (PWDB) V.1156 O PCG gerou resultados importantes e bastante úteis para a comunidade científica e resultados de similaridade entre sequências de proteína de centenas de genomas comparados no PCG podem ser facilmente recuperados, além de inúmeras outras consultas, no banco de dados PWDB v.1. O PWDB v.1 foi desenvolvido através de uma parceria entre o LGFB do IOC/FIOCRUZ e o Laboratório de Tecnologias de Gerência de Dados em Bioinformática (LaBBio) da PUC-Rio e IBM. 156 (http://157.86.176.108/ProteinWorldDB/default.php). Ver DISCUSSÃO. 117 IV. BASES DE DADOS IV.1 NCBI REFSEQ Parte 1:  A base de dados RefSeq é uma coleção de sequências, não redundante e ricamente anotada. O projeto fornece padrões de sequências de referência para as moléculas do dogma central, que ocorrem naturalmente na natureza, desde cromossomos, mRNAs até proteínas (TABELA IV.1.1). RefSeq Release 61 Statistics Release date Sep 09, 2013 Number of Accessions: 41.958.567 ========================================== Directory: complete Number of taxids: 29.414 molecule type Genomic: RNA: Protein: Number of Accessions 4.291.237 4.528.216 33.139.114 TABELA IV.1.1. Estatísticas da versão 61 da base de dados RefSeq.  Inclui sequências de archaea, bactérias, eucariotos, vírus, plasmídeos e organelas.  É um recurso único pois provê um amplo banco de dados de sequências multi-espécie e curado, com registros separados porém com links explícitos de genomas com seus transcritos e produtos traduzidos (quando apropriado).  A coleção RefSeq é o resultado da extração de dados de submissões INSDC, curadoria e computação, combinados com uma ampla colaboração com grupos oficiais. Cada molécula é anotada com a maior precisão possível. Se múltiplas submissões do INSDC representam a mesma molécula para um organismo, a “melhor” sequência é escolhida para representar o registro RefSeq.  Semelhante a um artigo de revisão, um registro RefSeq é uma síntese das informações disiponíveis em múltiplas fontes de dados num determinado momento.  Registros RefSeq fornecem uma fundamentação, unificando dados de sequências com informação genética e funcional. São gerados para prover padrões de referência com objetivos diversos desde anotação de genomas à descrição da localização de variações de sequências em registros médicos.  Em oposição à redundância de sequências encontrada em repositórios públicos como o INSDC, a coleção RefSeq busca fornecer, para cada espécie incluída, um conjunto completo 118 de dados não redundante, com extensivas referências cruzadas, e registros de sequências de ácido nucleico e proteína ricamente anotados.  A natureza não redundante da coleção RefSeq facilita pesquisas baseadas na localização genômica, sequência ou anotação textual.  As sequências são validadas para confirmar se a sequência genômica correspondente a um mRNA anotado coincide com o registro da sequência de mRNA, e se a região CDS traduz corretamente a sequência de proteína correspondente.  A cobertura e finalização de sequências genômicas disponíveis publicamente varia entre organismos e, desta forma, existem registros genômicos intermediários em algumas circunstâncias.  A coleção RefSeq está disponível sem restrições e pode ser recuperada através de buscas (via Blast), links disponíveis no NCBI157 e através do RefSeq FTP site.  A coleção RefSeq permite uma base útil para a integração de diversos tipos de dados, incluindo sequências, genética, expressão, e informação funcional, em um consistente framework com um conjunto uniforme de convenções e standards.  A coleção RefSeq suporta as seguintes atividades: - Anotação genômica, - Caracterização de genes, - Genômica Comparativa, - Descrição de variações de sequências, - Estudos de expressão.  Cada sequência RefSeq tem associado um número de acesso estável (ACCESSION NUMBER), um número para a versão (VERSION) e um identificador inteiro (GI)158.  O número GI e a VERSÃO são incrementados quando a sequência é atualizada, enquanto que o ACCESSION permanece o mesmo. O conjunto de identificadores GI e "ACCESSION.VERSION", provê a melhor resolução de referência para uma sequência.  Registros RefSeq podem ser distinguidos dos outros registros INSDC pela existência de um sinal underscore ( _ ) na terceira posição do ACCESSION NUMBER159.  O campo COMMENT indica o nível de revisão que um registro possui (FIGURA IV.1.1 e TABELA IV.1.2).  Versões obsoletas estão geralmente disponíveis se a sequência é atualizada.  Os prefixos de acesso têm um significado implícito com relação ao tipo de molécula que representam (TABELA IV.1.3 e IV.1.4). 157 Incluindo PUBMED, Nucleotide, Protein, Gene, and Map Viewer. O número GI é um identificador único, interno do NCBI. Cada sequência de nucleotídeo e de proteína cadastrada no NCBI tem um número GI associado (fonte: glossário NCBI). 159 Números de acesso no DDBJ/EMBL/GenBank nunca incluem o símbolo ( _ ). 119 158 LOCUS DEFINITION ACCESSION VERSION NP_061223 246 aa linear 14-3-3 protein beta/alpha [Mus musculus]. NP_061223 NP_061223.2 GI:31543974 ROD 28-JUL-2013 ....... COMMENT PROVISIONAL REFSEQ: This record has not yet been subject to final NCBI review. The reference sequence was derived from AL591542.20. On Jun 9, 2003 this sequence version replaced gi:9055384. Sequence Note: The RefSeq transcript and protein were derived from genomic sequence to make the sequence consistent with the reference genome assembly. The genomic coordinates used for the transcript record were based on alignments. Publication Note: This RefSeq record includes a subset of the publications that are available for this gene. Please see the Gene record to access additional publications. ##Evidence-Data-START## Transcript exon combination :: AK004872.1, AK144061.1 [ECO:0000332] ##Evidence-Data-END## .... FIGURA IV.1.1. Registro Refseq NP_061223160. Pode-se ver: GI, ACCESSION, VERSION, COMMENT. DESCRIÇÃO DOS CÓDIGOS DE REVISÃO MODEL The RefSeq record is provided by the NCBI Genome Annotation pipeline and is not subject to individual review or revision between annotation runs. INFERRED The RefSeq record has been predicted by genome sequence analysis, but it is not yet supported by experimental evidence. The record may be partially supported by homology data. PREDICTED The RefSeq record has not yet been subject to individual review, and some aspect of the RefSeq record is predicted. PROVISIONAL The RefSeq record has not yet been subject to individual review. The initial sequence-to-gene association has been established by outside collaborators or NCBI staff. REVIEWED The RefSeq record has been reviewed by NCBI staff or by a collaborator. The NCBI review process includes assessing available sequence data and the literature. Some RefSeq records may incorporate expanded sequence and annotation information. VALIDATED The RefSeq record has undergone an initial review to provide the preferred sequence standard. The record has not yet been subject to final review at which time additional functional information may be provided. WGS The RefSeq record is provided to represent a collection of whole genome shotgun sequences. These records are not subject to individual review or revisions between genome updates. TABELA IV.1.2. Código de revisão de registros. 160 NP_: proteína com accession NM_: mRNA ou NC_: Genomic, Complete genomic molecule, usually reference assembly (TABELA IV.1. ). 120 ACCESSION PREFIX AC_ NC_ NG_ NT_ NW_ NS_ NZ_b NM_ NR_ XM_c XR_c AP_ NP_ YP_c XP_c ZP_c MOLECULE TYPE COMMENT Genomic Complete genomic molecule, usually alternate assembly Genomic Complete genomic molecule, usually reference assembly Genomic Incomplete genomic region Genomic Contig or scaffold, clone-based or WGSa Genomic Contig or scaffold, primarily WGS a Genomic Environmental sequence Genomic Unfinished WGS mRNA RNA mRNA Predicted model RNA Predicted model Protein Annotated on AC_ alternate assembly Protein Associated with an NM_ or NC_ accession Protein Protein Predicted model, associated with an XM_ accession Protein Predicted model, annotated on NZ_ genomic records a Whole Genome Shotgun sequence data An ordered collection of WGS sequence for a genome, c Computed. b TABELA IV.1.3. Prefixos RefSeq e tipos de moléculas. Molecule Type Accession Prefix ---------------------------------------------protein NP_; XP_; ZP_; AP_; YP_; rna NM_; NR_; XM_; XR_ genomic NC_; NG_; NT_; NW_; NZ_; NS_; AC_ TABELA IV.1.4. Resumo por tipo de molécula da TABELA IV.1.3. Parte 2  Moléculas: /mol_type = genomic DNA, genomic RNA, mRNA, tRNA, rRNA, snoRNA, snRNA, scRNA, pre-RNA, tmRNA, viral cRNA, other RNA, other DNA, unassigned DNA, unassigned RNA. /organelle: tipo de estrutura intracelular, limitada por membrana, a partir da qual foi obtida a sequência = mitochondrion, nucleomorph, plastid, mitochondrion:kinetoplast, plastid:chloroplast, plastid:apicoplast, plastid:chromoplast, plastid:cyanelle, plastid:leucoplast, plastid:proplastid, 121 /plasmid = Nome do plasmídeo de ocorrência natural a partir do qual foi obtida a sequência. A estrutura plasmídeo é definida como uma unidade genética replicante de forma independente que não pode ser descrita por cromossoma ou segmento.  Sequenciamento de Genomas: Status: propriedade que se refere ao estágio atual do projeto de sequenciamento. - Complete – tipicamente significa que cada cromossomo está representado por apenas uma sequência (scaffold) com montagem de alta qualidade, - Assembly – tipicamente significa que existem montagens (scaffolds) que ainda não estão no nível de cromossomo e/ou sequências draft, - In Progress – indica que o projeto de sequenciamento está numa fase de pré montagem, ou as sequências montadas/completas ainda não foram submetidas ao GenBank/ EMBL/ DDBJ. Prefixos - Prefixo NC_: foram obtidas por procedimento automatizado e revisão de especialista para alguns registros. - Prefixos NT_, NW_, NZ_: indicam registros que não são individualmente revisados; as atualizações do genoma são liberadas como blocos. Sequências - Sequências Draft: sequências de DNA que ainda não estão finalizadas mas geralmente possuem alta qualidade (uma acurácia maior ou igual a 90%). Geralmente são fragmentos com 10.000 pares de bases. As posições cromossômicas aproximadas destes fragmentos são conhecidas. - Sequências Finished: sequências com alta qualidade, taxa de erro baixa e sem gaps. É permitido apenas um erro a cada 10.000 bases (i.e., uma acurácia de 99.999%). Referências: http://www.ncbi.nlm.nih.gov/RefSeq/ RefSeq Help - Bethesda (MD): National Center for Biotechnology Information (US); 2011, http://www.ncbi.nlm.nih.gov/books/NBK50680/ The NCBI Handbook, Editors: Jo McEntyre, Jim Ostell, National Center for Biotechnology Information, Bethesda (MD): National Center for Biotechnology Information (US); 2002, http://www.ncbi.nlm.nih.gov/books/NBK21101/ http://www.jgi.doe.gov/education/genomics_1.html 122 IV.2 UNIPROT Características:  O Universal Protein Resource (UniProt) é um recurso abrangente para dados de sequências de proteína e anotação. É uma colaboração entre o European Bioinformatics Institute (EMBL-EBI)161, o Swiss Institute of Bioinformatics (SIB)162 e o Protein Information Resource (PIR)163.  A missão do UniProt é fornecer à comunidade científica um amplo recurso de sequências de proteína e informação funcional, com alta qualidade e acesso gratuito.  Os bancos de dados do UniProt são: UniProt Knowledgebase (UniProtKB), o UniProt Reference Clusters (UniRef), e o UniProt Archive (UniParc). E o banco de dados UniProt Metagenomic e Environmental Sequences (UniMES) é um repositório especificamente desenvolvido para dados metagenômicos e ambientais.  Os dados de sequências padrão do UniProtKB são: - Sequências codificadoras (CDS) traduzidas do DDBJ/ENA/GenBank (INSDC)164, - Sequências de estruturas do PDB165, - Sequências do Ensembl166 e RefSeq167, - Dados derivados de sequências de aminoácido submetidas diretamente ao UniProtKB ou obtidas da literatura.  A parte central das atividades do Consórcio UniProt – UniProtKb – é um banco de dados de proteína, ricamente curado por especialistas, consistindo de duas seções: UniProtKB/Swiss-Prot e UniProtKB/TrEMBL - UniProtKB/Swiss-Prot - É a seção manualmente anotada e revisada. Um banco de dados de sequências de proteína não redundante e com anotação manual de alta qualidade, que agrupa resultados experimentais, características computadas e conclusões científicas. 161 http://www.ebi.ac.uk/ http://www.isb-sib.ch/ 163 http://pir.georgetown.edu/ 164 http://www.insdc.org/ 165 http://www.wwpdb.org/ 166 http://www.ensembl.org/index.html 167 http://www.ncbi.nlm.nih.gov/refseq/ 162 123 - A anotação manual consiste na análise, comparação e fusão de todas as sequências disponíveis para uma dada proteína, assim como uma revisão crítica de dados associados – experimentais e preditos. - Os curadores UniProt extraem informação biológica da literatura e executam numerosas análises computacionais. - O objetivo do UniProtKB / Swiss-Prot é prover todas as informações relevantes sobre uma proteína particular. Ele descreve, num único registro, os diferentes produtos de uma proteína derivados de um certo gene de uma dada espécie, incluindo cada proteína derivada (splicing alternativo, polimorfismos e/ou modificações pós-translational). - As prioridades e processos de curadoria do UniProt estão documentadas em www.uniprot.org/help/biocuration. - UniProtKB/TrEMBL - Contém registros analisados computacionalmente de alta qualidade, enriquecidos com anotação automática e classificação. - Registros são selecionados para uma anotação manual completa e posteriormente integrados ao UniProtKB/Swiss-Prot de acordo com algumas prioridades definidas para anotação.  O UniProtKb e, em particular, o UniProtKB/Swiss-Prot é utilizado para acessar informações funcionais de proteínas. Cada registro UniProt contém a sequência de aminoácido, o nome da proteína ou descrição, dados de taxonomia e informação de citações, e além disso são adicionadas o maior número de anotações possíveis. Isso inclui ontologias biológicas, classificações e referências cruzadas, assim como indicações claras sobre a qualidade da anotação na forma de atribuição de evidência dos dados experimentais e computacionais.  O atibuto PROTEIN EXISTENCE identifica o tipo de evidência que suporta a existência da proteína (TABELA IV.2.1). Não fornece informação de acurácia ou afirmação da sequência estar correta. - Apesar de fornecer informação da existência de uma proteína, pode acontecer de a sequência ser ligeiramente diferente, especialmente para sequências derivadas de modelos de genes preditos de sequências genômicas. - Apenas os níveis mais altos ou mais confiáveis de suporte de evidência da existência de uma proteína são exibidos para cada entrada. Por exemplo, se a existência de uma 124 proteína é suportada pela presença de ESTs e sequenciamento direto da proteína, será selecionado o valor Evidence at protein level. Protein level Indica que existe uma clara evidência experimental para a existência da proteína (sequenciamento de Edman parcial ou completo, clara identificação através de espectrometria de massa, estrutura de raio-X ou NMR, interação proteína-proteína de boa qualidade ou detecção da proteína através de anticorpos). Transcript level Indica que a existência da proteína não está provada rigorosamente, mas dados de expressão (como a existência de cdna(s), RT-PCR ou Northern blots) indicam a existência de um transcrito. Inferred by homology Indica que a existência da proteína é provável devido a uma clara evidência da existência de ortólogos em espécies relacionadas. Predicted O termo é usado para registros sem evidência de proteína, transcrito ou homologia. Uncertain Indica que a existência da proteína é incerta. TABELA IV.2.1. Tipos de evidência para a existência de uma proteína. Referência: http://www.uniprot.org/ 125 IV.3 NCBI GENE Características:  Um dos principais objetivos dos projetos de sequenciamento de genomas é a identificação e caracterização de genes.  GENE foi implementado no National Center for Biotechnology Information (NCBI) 168 para organizar informação sobre genes, servindo como um importante nó em relação aos dados de mapa genômico, sequência, expressão, estrutura de proteína, função e homologia.  Cada registro em GENE recebe um identificador único, GeneID, que pode ser rastreado ao longo dos ciclos de revisão.  Registros em GENE são estáveis para genes conhecidos ou preditos, os quais são definidos pela sequência de nucleotídeo ou posição no mapa. Nem todos os taxa estão representados, e o atual escopo corresponde ao do NCBI.  De uma forma regular, bancos de dados de organismos modelo e outros grupos contribuintes são checados por novas informações. - Se o registro já existe no GENE, nova informação é adicionada e informações desatualizadas são corrigidas. - Caso contrário, um novo registro é criado.  GENE pode ser considerado curado pois muitos dos bancos de dados contribuintes são curados. Porém, nem sempre o banco de dados tenta reconciliar genes definidos por diferentes pipelines de anotação que podem diferir em níveis de regras e revisão curatorial.  GENE serve com um ponto central de informações para bancos de dados internos e externos ao NCBI. - Registros são processados gene-a-gene ou como parte da submissão de um genoma anotado ou cromossoma; - Identificadores de Genes e nomes associados, e acesso de sequências, provêm uma estrutura comum de referência para vários bancos de dados. - Para alguns genomas (e.g. humano, camundongo, rato, galinha, cachorro), os registros em GENE são atualizados continuamente. 168 http://www.ncbi.nlm.nih.gov/ 126 - Para outros genomas, atualizações dependem de re-submissão da anotação da sequência genômica por um grupo externo.  GENE inclui registros para genes confirmados e genes preditos por processos de anotação. A evidência para um gene pode ser inferida a partir do status do RefSeq169 que o define. - Por exemplo, RefSeqs definidos como predito ou modelo possuem menos suporte de evidência do que aqueles das categorias validado, provisório ou revisado.  GENE não pretende ser completo. Ele serve como um guia para informações adicionais em outros bancos de dados. - Por exemplo, um gene pode ser representado por múltiplas sequências, mas nem todas são reportadas explicitamente a partir do GENE. Em vez disso, conexões são fornecidas do GENE para o Entrez Protein, Nucleotide e Blink (NCBI), onde mais sequências com similaridade significativa podem ser recuperadas.  Em adição aos múltiplos links dos bancos de dados do NCBI, LinkOuts de bancos de dados externos submetidos ao GENE suportam uma imediata navegação a mais informações específicas de genes.  As funções centrais do GENE são estabelecer identificadores únicos para genes que podem ser rastreados e, através disso, dar suporte a conexões acuradas definindo sequências, nomenclatura e outros descritores. Com essa infraestrutura é possível: - Dar suporte ao pipeline de anotação do NCBI com base no posicionamento de sequências com GeneID conhecido. - Fornecer uma estrutura de referência de genes e todos os seus atributos independente de espécie. - Dar suporte a identificação de genes representados por sequências em bases de dados públicas externas.  Muito do poder de consulta do GENE vem de explorar suas conexões com outros bancos de dados.  Informações de sequências (accessions e links) são distribuídas através do registro de GENE. - Por exemplo, os diagramas de transcritos e produtos são providos quando um gene foi anotado numa sequência genômica RefSeq, isto é, quando a informação de intron/exon/coding region está disponível nas coordenadas genômicas. 169 http://www.ncbi.nlm.nih.gov/refseq/ 127 - Cada posição num produto gênico, quando representado por um RefSeq RNA e/ou Proteína, é fornecido relativo à sua sequência genômica de DNA. - Cada RefSeq ACCESSION NUMBER (genômica, mRNA e proteína) ancora um link para diferentes formatos de sequência no Entrez Nucleotídeo ou Entrez Proteína. - O link do ACCESSION NUMBER para a sequência genômica apresenta apenas a região específica do gene.  A base GENE utiliza várias abordagens para descrever a função de um gene e seus produtos codificados, incluindo: - Declarações descritivas explícitas (RefSeq Summary e GeneRIF); - Nomes de genes, produtos e vias biológicas; - Ontologias associadas (GO); - Relatórios de interações; - Números EC (Enzyme Commission); - Inferências a partir do conteúdo de domínios; - Descrição de doenças e fenótipos específicos de alelos; - Links para outros bancos de dados (OMIM, HomoloGene, PubMed etc). - Muitas destas categorias incluem links para informações adicionais em outros bancos de dados. Referências: http://www.ncbi.nlm.nih.gov/gene/ Gene Help - Bethesda (MD): National Center for Biotechnology Information (US); 2005. http://www.ncbi.nlm.nih.gov/books/NBK3839/ Maglott D, Pruitt K, Tatusova T. Gene: A Directory of Genes. In: McEntyre J, Ostell J, editors. The NCBI Handbook [Internet]. Bethesda (MD): National Center for Biotechnology Information (US); 2002. Chapter 19. 2005 Mar 3 [Updated 2011 Dec 12]. Available from: http://www.ncbi.nlm.nih.gov/books/NBK21085/. 128 IV.4 PFAM Características:  O banco de dados PFAM é uma ampla coleção de famílias de proteína, cada uma representada por alinhamentos múltiplos de sequências e modelos escondidos de Markov (HMM).  Para cada família na base PFAM é possível analisar múltiplos alinhamentos, avaliar arquiteturas de domínios, examinar a distribuição entre espécies, seguir links para outros bancos de dados e visualizar estruturas de proteínas conhecidas.  São dois os componentes do PFAM: Pfam-A e Pfam-B. - Os registros do Pfam-A são de famílias com alta qualidade e curadas manualmente. Apesar do Pfam-A cobrir uma grande proporção de sequências dos bancos de dados de sequências, para oferecer uma cobertura mais ampla de proteínas conhecidas é gerado um suplemento usando o banco de dados ADDA170 [Heger et al., 2005]. Essas entradas geradas automaticamente são chamadas Pfam-B. - Famílias Pfam-B não são anotadas e possuem baixa qualidade pois são geradas automaticamente a partir de clusters não redundantes da versão mais recente do banco de dados ADDA. - Apesar da qualidade mais baixa, as famílias do Pfam-B podem ser úteis para identificar regiões conservadas quando não existem registros no Pfam-A.  PFAM também gera agrupamentos de famílias relacionadas de alto nível, conhecidos como clãs. Um clã é uma coleção de registros Pfam-A que estão relacionados por similaridade de sequências, estrutura ou perfis HMM.  Os registros PFAM são classificados em uma das quatro opções: - Family: coleção de regiões de proteína relacionadas. - Domain: unidade estrutural. - Repeat: unidade curta que é instável isoladamente mas forma uma estrutura estável quando múltiplas cópias estão presentes. - Motif: unidade curta encontrada externamente aos domínios globulares. ADDA é um programa baseado em alinhamentos “todos-contra-todos” para demarcar domínios em sequências de proteína. http://wwwfgu.anat.ox.ac.uk/~andreas/adda/index.html 129 170 Diversidade de Proteínas:  Proteínas são geralmente compostas por um ou mais regiões funcionais, denominados domínios. Diferentes combinações de domínios geralmente dão origem à diversidade de proteínas encontradas na natureza.  A identificação de domínios em proteínas pode fornecer indícios sobre suas funções.  Uma dada família Pfam pode ocorrer muitas vezes numa única sequência de proteína, se a família/domínio for uma unidade repetitiva, por exemplo, ou quando um perfil HMM coincide com pequenos segmentos da sequência, mas várias vezes.  Mais de 79,9% das proteínas do SWISSPROT e TrEMBL (06/2012) têm pelo menos uma correspondência com uma família Pfam-A171.  Cada Pfam HMM representa uma família de proteína ou domínio. Fazendo uma busca de uma sequência de proteína contra a biblioteca HMM do PFAM, pode-se determinar quais domínios ela possui, i.e. sua arquitetura de domínios.  PFAM também pode ser usado para analisar proteomas e questões de arquiteturas complexas de domínios.  Um HMM é um modelo probabilístico. - No PFAM usa-se HMMs para transformar a informação contida num alinhamento múltiplo de sequências num sistema de pontuação específico de posição. - Pode-se fazer buscas de HMMs contra o banco de dados de proteína UniProt para encontrar sequências homólogas. Referências: http://pfam.sanger.ac.uk/ http://pfam.sanger.ac.uk/help 171 Pfam 27.0, Março 2013, 14831 famílias 130 IV.5 GENE ONTOLOGY (GO) Características:  O projeto Gene Ontology é um esforço colaborativo que surgiu da necessidade de se elaborar descrições de produtos gênicos que sejam consistentes em diferentes bases de dados.  O projeto GO desenvolveu três vocabulários controlados (ontologias) que descrevem produtos gênicos (independente do organismo) em termos de sua associação com processos biológicos, componentes celulares e funções moleculares. São três aspectos distintos: - O desenvolvimento e manutenção das próprias ontologias - A anotação dos produtos gênicos, o que implica fazer associações entre as ontologias e os genes e produtos gênicos nos bancos de dados colaboradores - Desenvolvimento de ferramentas que facilitam a criação, manutenção e utilização das ontologias.  Este vocabulário controlado pode ajudar a análise de fontes de dados diversificadas, facilitar a padronização de anotação, melhorar a elaboração, auxiliar a construção de expressões e processamento de consultas.  O uso de termos GO por bancos de dados colaboradores facilita a uniformidade de consultas entre eles. Os vocabulários controlados são estruturados de forma que eles podem ser consultados em diferentes níveis, por exemplo, pode-se usar GO para encontrar todos os produtos gênicos no genoma do rato que estão envolvidos em transdução de sinal, ou podese focar em todos os receptores tyrosine kinase, por exemplo.  Esta estrutura também permite que anotadores possam atribuir propriedades de genes ou seus produtos em diferentes níveis, dependendo da profundidade do conhecimento sobre a entidade.  A ontologia abrange três domínios: - Componente celular: partes de uma célula ou seu ambiente extracelular; - Função molecular: atividades elementares de um produto gênico no nível molecular, como ligação ou catálise; - Processo Biológico: operações ou conjunto de operações de eventos moleculares com um início e fim definido, pertinente ao funcionamento integrado de unidades vivas: células, tecidos, órgãos e organismos. 131  Por exemplo, o produto gênico cytochrome c pode ser descrito: - Função molecular: pelo termo oxidoreductase activity; - Processo biológico: pelos termos oxidative phosphorylation and induction of cell death; - Componente cellular: pelos termos mitochondrial matrix and mitochondrial inner membrane  A ontologia GO é estruturada como um grafo acíclico dirigido e cada termo tem relacionamentos definidos com um ou mais termos no mesmo domínio, e às vezes em outros domínios:  Uma sequência de proteína pode ser anotada com zero ou mais nós e em qualquer nível dentro de cada ontologia. A anotação em uma ontologia é independente de sua anotação nas outras ontologias.  GO não é um banco de dados de sequências gênicas, nem um catálogo de produtos gênicos. Ela descreve como os produtos gênicos se comportam num contexto celular.  GO não é uma norma imposta, obrigando sua utilização entre bancos de dados. Grupos participam por interesse próprio, e cooperam para atingir um consenso.  GO é um caminho para unificar bancos de dados biológicos (i.e., GO não é uma “solução federada”). O compartilhamento de um vocabulário é um passo para a unificação, mas não é, por si só, suficiente.  A anotação é a prática de capturar as atividade e localização de um produto gênico com termos GO, oferecendo referências e indicando que tipos de evidência estão disponíveis para dar suporte às anotações.  A existência de várias ontologias permite que sejam criados 'cross-products' que maximizam a utilidade de cada ontologia enquanto evitam redundância. - Por exemplo, combinando termos de desenvolvimento em processos GO com uma segunda ontologia que descreve estruturas anatômicas de Drosophila, pode ser criada uma ontologia do desenvolvimento de moscas. Pode-se repetir esse processo para outros organismos sem ter que sobrecarregar GO com um grande número de termos específicos de espécies. De forma análoga, pode-se criar uma ontologia de vias de biossíntese combinando termos de biossíntese na ontologia de processos GO com uma ontologia de química. Referência: http://www.geneontology.org/ 132 IV.6. KEGG – Kyoto Encyclopedia of Genes and Genomes Características:  É um sistema de bancos de dados para a compreensão de funções e sistemas biológicos em alto nível.  É atualmente uma proeminente base de conhecimento de referência para a integração e interpretação de conjuntos de dados moleculares de larga escala gerados pelo sequenciamento de genomas e outras tecnologias experimentais high-throughput.  É uma representação computacional de um sistema biológico, que consiste de blocos construtores de genes e proteínas (informação genômica) e substâncias químicas (informação química), integradas com o conhecimento de diagramas de ligação de interações, reações e redes de relações (informação de sistemas).  Consiste de 16 bancos de dados principais (TABELA IV.6.1) que podem ser categorizados, de forma ampla, em informação de sistemas, genômica e química.  Estes bancos de dados contêm vários objetos de dados para a representação computacional de sistemas biológicos. Desta forma, um registro do KEGG é chamado de objeto KEEG para cada banco de dados.  Estatística em 29/08/2013 (TABELA IV.6.2) Para o projeto conceitual desta tese, dois módulos foram considerados inicialmente: KEGG PATHWAY e, dentro do KEGG LIGAND172, a base ENZYME.  O KEGG PATHWAY é uma coleção de mapas manualmente traçados de forma a representar o conhecimento das redes de reações e interações moleculares para metabolismo, processamento de informação genética, processamento de informações ambientais, processos celulares e doenças humanas.  O KEGG LIGAND contém o conhecimento do universo de substâncias químicas e reações relevantes para a vida.  O esquema, atualmente, faz referência cruzada apenas com a base de dados ENZYME, derivada da Nomenclatura de Enzimas173 IUPAC-IUBMB. 172 Consiste das bases de dados: COMPOUND, DRUG, GLYCAN, REACTION, RPAIR e ENZYME Nomenclature Committee of the International Union of Biochemistry and Molecular Biology (NC-IUBMB). Enzyme Nomenclature: Recommendations of the Nomenclature Committee of the International Union of Biochemistry and Molecular Biology on the Nomenclature and Classification of Enzymes by the Reactions they catalyze (http://www.chem.qmul.ac.uk/iubmb/enzyme/). 133 173 Category Systems information Genomic information Chemical information Database KEGG PATHWAY KEGG BRITE KEGG MODULE KEGG DISEASE KEGG DRUG KEGG ENVIRON KEGG ORTHOLOGY KEGG GENOME KEGG GENES KEGG SSDB KEGG COMPOUND KEGG GLYCAN KEGG REACTION KEGG RPAIR KEGG RCLASS KEGG ENZYME Content KEGG pathway maps BRITE functional hierarchies KEGG modules of functional units Human diseases Drugs Crude drugs and health-related substances KEGG Orthology (KO) groups KEGG organisms with complete genomes Gene catalogs in complete genomes Sequence similarity database for GENES Metabolites and other small molecules Glycans Biochemical reactions Reactant pair chemical transformations Reaction class defined by RPAIR Enzyme nomenclature TABELA IV.6.1. Lista dos 16 bancos de dados principais. KEGG PATHWAY Pathway maps, reference (total) KEGG BRITE Functional hierarchies, reference (total) KEGG MODULE KEGG modules, reference (total) KEGG DISEASE Human diseases KEGG DRUG Drugs KEGG ENVIRON Crude drugs and health-related substances KEGG ORTHOLOGY KEGG Orthology (KO) groups KEGG GENOME KEGG Organisms KEGG GENES Genes in high-quality genomes (192 eukaryotes, 2452 bacteria, 160 archaea) KEGG SSDB Best hit relations within GENES Bi-directional best hit relations within GENES KEGG DGENES Genes in draft genomes (18 eukaryotes) KEGG EGENES Genes as EST contigs (99 eukaryotes) KEGG MGENES Genes in metagenomes (716 samples) KEGG COMPOUND Metabolites and other small molecules KEGG GLYCAN Glycans KEGG REACTION Biochemical reactions KEGG RPAIR Reactant pair chemical transformations KEGG RCLASS Reaction class KEGG ENZYME Enzyme nomenclature TABELA IV.6.2. Estatística em 29/08/2013. Referência: http://www.genome.jp/kegg/ 134 448 (262,304) 147 (88,012) 582 (195,843) 1,301 10,018 845 17,046 2,822 11,228,989 144,053,385,301 3,323,814,251 432,488 3,792,883 90,754,418 17,084 10,985 9,398 14,218 2,831 6,043