Analise de Dados Omicos Multidimensionais-1
Analise de Dados Omicos Multidimensionais-1
Analise de Dados Omicos Multidimensionais-1
MULTIDIMENSIONAIS
Elaboração
Produção
APRESENTAÇÃO......................................................................................................................................................... 4
INTRODUÇÃO.............................................................................................................................................................. 7
UNIDADE I
BIOLOGIA MOLECULAR...................................................................................................................................................................................................... 9
CAPÍTULO 1
GENÉTICA MOLECULAR E CÓDIGO GENÉTICO........................................................................................................................................ 9
CAPÍTULO 2
PROCESSOS DE REPLICAÇÃO, TRANSCRIÇÃO E TRADUÇÃO......................................................................................................... 22
CAPÍTULO 3
SEQUENCIAMENTO............................................................................................................................................................................................ 33
UNIDADE II
FORMATOS BIOLÓGICOS................................................................................................................................................................................................. 50
CAPÍTULO 1
SEQUÊNCIAS NUCLEOTÍDICAS E PROTEICAS....................................................................................................................................... 50
CAPÍTULO 2
REGISTRO DE GENES......................................................................................................................................................................................... 55
CAPÍTULO 3
ESTRUTURAS MOLECULARES TRIDIMENSIONAIS............................................................................................................................. 58
UNIDADE III
ALGORITMOS E ALINHAMENTO................................................................................................................................................................................... 63
CAPÍTULO 1
BANCO DE DADOS............................................................................................................................................................................................... 63
CAPÍTULO 2
ALGORITMOS DE ALINHAMENTO................................................................................................................................................................ 68
CAPÍTULO 3
TIPOS DE ALINHAMENTO................................................................................................................................................................................ 74
UNIDADE IV
ANÁLISE DE DADOS........................................................................................................................................................................................................... 77
CAPÍTULO 1
ANÁLISE DA QUALIDADE DE SEQUÊNCIAS............................................................................................................................................. 77
CAPÍTULO 2
MONTAGEM E COMPARAÇÃO DE DADOS................................................................................................................................................. 84
CAPÍTULO 3
FERRAMENTAS DE VISUALIZAÇÃO.............................................................................................................................................................. 91
REFERÊNCIAS........................................................................................................................................................... 94
APRESENTAÇÃO
Caro aluno
Conselho Editorial
4
ORGANIZAÇÃO DO CADERNO
DE ESTUDOS E PESQUISA
A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos
Cadernos de Estudos e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto
antes mesmo de iniciar sua leitura ou após algum trecho pertinente para
o autor conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma
pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em
seu raciocínio. É importante que ele verifique seus conhecimentos, suas
experiências e seus sentimentos. As reflexões são o ponto de partida para
a construção de suas conclusões.
Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam
para a síntese/conclusão do assunto abordado.
5
Organização do Caderno de Estudos e Pesquisa
Saiba mais
Informações complementares para elucidar a construção das sínteses/
conclusões sobre o assunto abordado.
Sintetizando
Trecho que busca resumir informações relevantes do conteúdo, facilitando
o entendimento pelo aluno sobre trechos mais complexos.
6
INTRODUÇÃO
7
Com base nas informações acima, o objetivo deste material é apresentar e
discutir os pontos mais importantes sobre o que é análise de dados ômicos,
qual a sua importância para a bioinformática e como ela é realizada.
Objetivos
» Apresentar uma visão geral sobre biologia molecular (DNA, RNA e
Proteínas) e seu dogma central (replicação, transcrição e tradução).
» Conceituar genes.
CAPÍTULO 1
Genética molecular e código genético
Desde que o monge austríaco conhecido como Gregor Mendel iniciou seus
experimentos com ervilhas e por meio deles definiu os primeiros conceitos
básicos em genética e suas duas leis, ambos considerados até hoje a base dos
estudos em genética, muitas descobertas foram realizadas e passou-se mais
de um século para que conseguíssemos obter o sequenciamento do primeiro
organismo.
9
Unidade i | Biologia Molecular
Ácidos nucleicos
Os ácidos nucleicos são conhecidos também como moléculas informacionais
que participam do fluxo da informação genética. As informações genéticas de
todos os seres vivos estão contidas nos ácidos nucleicos e são submetidas a
processos de replicação, transcrição e tradução para que possam ser expressas
em seu fenótipo.
Replicação
Transcrição Tradução
10
Biologia Molecular | Unidade i
Base Nitrogenada
Pentose
Grupo Fosfato
11
Unidade i | Biologia Molecular
Base
Nitrogenada
Pentose
12
Biologia Molecular | Unidade i
Já as bases pirimídicas são representadas pela timina (T), citosina (C) e uracila
(U), derivam das pirimidinas e se caracterizam por apresentar apenas um
anel em sua estrutura molecular (figura 4). A citocina se encontra tanto na
molécula de DNA quanto na molécula de RNA, no entanto, a timina é uma
base nitrogenada encontrada apenas na molécula de DNA, assim como a uracila
é exclusiva da molécula de RNA.
Figura 4. Estrutura das bases nitrogenadas. Acima, estrutura das purinas: Adenina e Guanina. Abaixo, estrutura das
pirimidinas: Timina, Citosina e Uracila.
Adenina Guanina
13
Unidade i | Biologia Molecular
Com base nesses estudos prévios, Watson e Crick mostraram que o DNA é
formado por uma fita dupla, ou seja, é composto por duas cadeias polinucleotídicas
helicoidais, formando uma dupla hélice em torno de um eixo central. Cada
uma dessas fitas ocupa posições opostas, uma fita está na direção 5’-3’e a outra
está na direção 3’-5’, por isso a molécula de DNA é dita antiparalela (figura 5).
As duas fitas são unidas entre si por pontes de hidrogênio entre as bases
nitrogenadas, as quais ficam no interior da hélice, sendo comparadas aos
degraus de uma escada. O pareamento entre as bases é importante para a
manutenção da dupla fita.
14
Biologia Molecular | Unidade i
Figura 5. Estrutura da molécula do DNA: fita dupla antiparalela e complementar entre si.
3’OH
5’P
Adenina Timina
Citosina Guanina
Timina Adenina
Guanina Citosina
15
Unidade i | Biologia Molecular
Cavidade menor
Cavidade maior
Cavidade menor
Cavidade maior
Cavidade maior
DNA-B DNA-A
DNA-Z
16
Biologia Molecular | Unidade i
17
Unidade i | Biologia Molecular
18
Biologia Molecular | Unidade i
Sítio de Ligação
de aminoácidos
Alça D Alça T
Anticódon
Fonte: Griffiths et al., 2016.
Código genético
O código genético corresponde à relação entre a sequência de nucleotídeos
presentes no DNA e a sequência correspondente de aminoácidos na proteína.
Decifrar o código genético foi uma das maiores conquistas dos últimos anos. Isso
deu-se graças aos estudos realizados pelos pesquisadores Marshall Nirenberg
e Har Gobind Khorana.
19
Unidade i | Biologia Molecular
Visto que existem quatro diferentes tipos de bases nos ácidos nucleicos e que
são necessários três nucleotídeos (um códon) para codificar um aminoácido,
há 64 combinações diferentes de códons. Sendo 61 códons que representam
aminoácidos e três que causam o término da síntese proteica (UAA, UAG e
UGA). O códon AUG determina o início da síntese proteica, o que significa
que o primeiro aminoácido a ser incorporado em todas as proteínas dos
organismos, tanto procariotos quanto eucariotos, é uma metionina (tabela 1).
As bases dentro do código genético são lidas da esquerda para a direita, em que
A corresponde a adenina, G corresponde a guanina, C corresponde a citosina
e T corresponde a timina. E os aminoácidos estão representados por suas
abreviações, em que Ala corresponde a alanina, Arg corresponde a arginina, Asp
corresponde a asparagina ou ao ácido aspártico, Cys corresponde a cisteína, Gln
corresponde a glutamina, Glu corresponde ao ácido glutâmico, Gly corresponde
a glicina, His corresponde a histidina, Ile corresponde a isoleucina, Leu
corresponde a leucina, Lys corresponde a lisina, Met corresponde a metionina,
Phe corresponde a fenilalanina, Pro corresponde a prolina, Ser corresponde
a serina, Thr corresponde a treonina, Trp corresponde a triptofano, Tyr
corresponde a tirosina e Val corresponde a valina (tabela 1).
20
Biologia Molecular | Unidade i
Por haver um número menor de aminoácidos (20) do que de códons (61), quase
todos os aminoácidos são representados por mais de um códon. Ou seja, um
mesmo aminoácido pode ser codificado por vários códons diferentes. Esse
processo é conhecido como degeneração do código genético. Com exceção
dos aminoácidos metionina (AUG) e triptofano (UGG), todos os outros são
codificados por mais de um códon (tabela 1). Os códons que representam mais
de um aminoácido são chamados de códons sinônimos.
21
CAPÍTULO 2
Processos de Replicação, Transcrição e
Tradução
Para que a célula possa iniciar seu processo de divisão celular, ela precisa
duplicar o seu material genético para que assim este material genético seja
dividido de forma igual entre as suas células–filhas. Sendo assim, este processo
de duplicação ou replicação da molécula de DNA ocorre durante a interfase,
quando a célula está se preparando para a divisão celular, mais especificamente
no período S da interfase.
A seguir estudaremos com mais detalhes cada um dos processos citados acima.
22
Biologia Molecular | Unidade i
Replicação
A estrutura da molécula de DNA, apresentada pelos cientistas Watson e Crick,
em 1953, caracterizada por ser uma dupla hélice, revelou como essa molécula
poderia ser replicada.
Início da replicação
23
Unidade i | Biologia Molecular
Esse processo segue ao longo de toda a molécula em uma única direção, sendo
chamada de replicação unidirecional, ou segue em direções opostas, quando
duas forquilhas de replicação partem da origem e vão uma para cada lado,
sendo chamada de replicação bidirecional.
Após a ação das helicases para abrir a fita do DNA é necessária a presença
das proteínas SSB nas fitas simples do DNA para evitar com que essa região
sofra torções, repareamento entre as bases e degradação por nucleases. Para
dar início ao processo de replicação, a enzima primase sintetiza um primer
(pequenas sequências de RNA complementar à fita molde) para que assim
as DNA-polimerases possam iniciar a replicação. As novas fitas de DNA são
sintetizadas em direções opostas, ou seja, uma fita é sintetizada de forma
contínua e a outra fita de forma descontínua (figura 9).
Figura 9. Replicação do DNA de forma contínua e de forma descontínua.
Fita molde
Replicação descontínua
Filamento contínuo
Movimento da forquilha
24
Biologia Molecular | Unidade i
Helicase
SSB
SSB
D Primase
N Primer SSB
A
- D
N
A
-
DNA-pol I
DNA ligase
Término da replicação
25
Unidade i | Biologia Molecular
Transcrição
A célula é quem controla quando uma sequência de DNA será ou não transcrita
em um RNA e o quanto deve ser sintetizado. Por isso, existem pontos específicos
nas sequências de DNA para que se inicie e termine uma transcrição.
É por meio desse processo que são sintetizados todos os RNAs presentes nas
células. Os RNAs recém-sintetizados são chamados de transcritos primários ou
26
Biologia Molecular | Unidade i
As alterações mais comuns que ocorrem nos RNAs ribossômicos (RNAr) e nos
RNAs transportadores (RNAt) são as trocas de bases. Já os RNAs mensageiros
(RNAm) dependem do organismo para sofrer ou não processamento. Os
RNAm de procariotos já sofrem tradução antes mesmo que o processo de
transcrição termine e, por isso, não sofrem processamento. Eles são transcritos
e traduzidos simultaneamente.
Transcrição em procariotos
1. reconhecimento do Promotor;
2. início;
3. alongamento;
4. término.
27
Unidade i | Biologia Molecular
Transcrição em eucariotos
1. reconhecimento do Promotor;
2. início;
3. alongamento;
4. término.
28
Biologia Molecular | Unidade i
29
Unidade i | Biologia Molecular
gene
Transcrição
Transcrito Primário
AAAA...
Spliciossomo
CAP Splicing
AAAA...
Retirada do Íntron
AAAA... Núcleo
Fonte: http://aprendendogenetica.blogspot.com/2012/03/genetica-molecular-biologia-aula-04.html.
Tradução
O processo de tradução, também conhecido como síntese proteica, nada mais
é que a conversão das informações contidas na molécula de RNA mensageiro
em proteínas. E ocorre no citoplasma das células.
30
Biologia Molecular | Unidade i
formados pelo RNAr, ocorre a síntese proteica. Essas organelas são formadas
por duas subunidades, uma maior e a outra menor, as quais apresentam vários
sítios onde ocorre a síntese proteica. Sítios A e P relacionados com a síntese
das novas proteínas e o sítio E conhecido como sítio de saída das proteínas
formadas.
1. início;
2. alongamento;
3. término.
Início da tradução
31
Unidade i | Biologia Molecular
Alongamento da tradução
Término da tradução
32
CAPÍTULO 3
Sequenciamento
33
Unidade i | Biologia Molecular
Primer 1
2
Primer 2
3
Primer 3
4
Primer 4
Continuação do processo
34
Biologia Molecular | Unidade i
Para a perfeita execução dessas técnicas, tem-se que ter cuidado para que
não haja nenhuma contaminação com DNA genômico nas amostras de RNA.
E estas devem apresentar uma boa qualidade. Essas metodologias permitem
estudar todo o transcriptoma de uma determinada espécie sem precisar
sequenciar completamente todos os genes que estão sendo expressos. Assim,
essas abordagens têm como vantagem rapidez na obtenção dos dados e redução
de custo.
35
Unidade i | Biologia Molecular
Bibliotecas de ESTs podem ser utilizadas ainda para comparar tecidos tumorais
com graus diferenciados de um determinado tumor e procurar, assim, por
marcadores de prognóstico de câncer.
36
Biologia Molecular | Unidade i
De maneira geral, o sequenciamento nada mais é que uma técnica que permite
identificar a sequência de nucleotídeos, na ordem correta, em uma molécula
de DNA ou RNA, objetivando conhecer as informações genéticas ali contidas.
37
Unidade i | Biologia Molecular
Método Maxam-Gilbert
38
Biologia Molecular | Unidade i
5’ 3’
DNAaaser
DNA sersequenciado
sequenciado
3’ 5’
5’ 3’
Desnaturação das fitas
3’ 5’
Adição de P32
5’ 3’ na extremidade
5’
G G/A C/T C
5’ AGTAAGTTAGCCTCAGT 3
Método Sanger
39
Unidade i | Biologia Molecular
5’ 3’
3’
DNA a ser sequenciado
5’
5’ 3’
Desnaturação das fitas
3’ 5’
Adição do oligonucleotídeo
5’ 3’
marcado com P32
Mix PCR
G C A T
Fonte: Moreira et al., 2015.
40
Biologia Molecular | Unidade i
Um exemplo de sequenciador que usa esse método é o ABI 377. Por volta dos
anos de 1990, o sequenciamento de Sanger tornou-se automatizado, ou seja,
os géis foram substituídos por capilares onde as amostras são aplicadas por
eletroinjeção. Depois da molécula do DNA sofrer desnaturação, incorporação
dos didesoxinucleotídeos marcados com fluoróforos à fita de DNA recém-
sintetizada, os fragmentos de DNA agora são aplicados em capilares, por meio
de um sistema de eletroinjeção e começam a migrar até encontrar um feixe
de raios laser que os excita, fazendo com que eles emitam sua fluorescência
característica. O próximo passo é, então, registrar essa fluorescência emitida
por meio de um detector, o qual transmite a um computador que possui um
software capaz de converter essas fluorescências em um cromatograma, que
nada mais é que a sequência de nucleotídeos presente no fragmento (figura 15).
41
Unidade i | Biologia Molecular
5’ 3’
3’ DNA a ser sequenciado
5’
5’ 3’
Desnaturação das fitas
3’ 5’
5’ 3’ Anelamento do oligonucleotídeo
Mix PCR
ddATP/ddGTP
ddCTP/ddTTP
Eletroinjeção
Cromatograma
da amostra
nos capilares
Detector
Laser
Apesar dessa tecnologia sequenciar fragmentos maiores (até 1Kb) e suportar até
96 amostras por vez, era extremamente cara e, por isso, buscou-se desenvolver
outras tecnologias que apresentassem menor custo e maior capacidade de
sequenciamento.
42
Biologia Molecular | Unidade i
Plataforma 454
43
Unidade i | Biologia Molecular
Fragmentos
com
Adaptadores adaptadores
selecionados
Fragmentos com
A adaptadores Biblioteca de DNA
Genoma Genoma Fragmentado fita simples
Reagentes
PCR
Reação Eliminação
PCR da gotícula
BEADS
Adição de Pirossequenciamento
Reagentes
44
Biologia Molecular | Unidade i
Da mesma forma que na plataforma 454, o Ion Torrent apresenta três etapas
de sequenciamento, iniciando pelo processo de preparação da amostra, onde
ocorre a fragmentação da molécula de DNA e a ligação de adaptadores aos
fragmentos gerados. A reação de ePCR, com a ligação dos fragmentos a beads
onde irá ocorrer a amplificação desses fragmentos, é a etapa final, que é o
sequenciamento. Esses produtos de amplificação são colocados em um chip de
sequenciamento, em que a cada ciclo quando uma base é adicionada, o sensor
presente nesse chip detecta íons H+ liberados.
Plataforma SOLID
45
Unidade i | Biologia Molecular
Plataforma Illumina
46
Biologia Molecular | Unidade i
47
Unidade i | Biologia Molecular
Plataforma PacBio
Esse equipamento gera vários milhões de kilobases e long reads (20kb) por
corrida, sendo uma plataforma ideal para a montagem de genomas. Para
melhorar a qualidade da leitura das sequências e diminuir a taxa de erro, a
Pacific Biosciences desenvolveu uma estratégia de sequenciamento consenso
circular (CCS), que se baseia na estrutura circular das moléculas das bibliotecas
da PacBio. A estrutura circular permite um sequenciamento contínuo e repetido
de cadeia no sentido sense e anti-sense, que pode ser usado para gerar uma
única read consenso com precisão muito elevada (> 99%). Essa alta precisão
é útil em metagenômica e especialmente em projetos de sequenciamento, de
novo, uma vez que impede a superestimativa da diversidade biológica devido a
erros de sequenciamento, a PacBio RS II, atualmente, utiliza a química C3/P5
para realizar o sequenciamento. Isso proporciona os maiores comprimentos
de leitura (em torno de 8.500 bases) e o maior número de leituras por corrida
(cerca de 16kb) obtidas com boa qualidade. (KNIEF, 2014).
Plataforma Nanopore
49
FORMATOS
BIOLÓGICOS UNIDADE II
CAPÍTULO 1
Sequências nucleotídicas e proteicas
50
Formatos Biológicos | Unidade II
51
Unidade II | Formatos Biológicos
DNA:
GGTATAGGCGCTGTTCTTAAGGTGCTAACAACGGGGTTACCCGCGTTGAT
CTCGTGGATAAAACGCAAACGCCACAG
RNA:
GGUAUAGGCGCUGUUCUUAAGGUGCUAACAACGGGGUUACCCGCGUUG
AUCUCGUGGAUAAAACGCAAACGCCAACAG
Aminoácidos:
GIGAVLKVLTTGLPALISWIKRKRQQ
52
Formatos Biológicos | Unidade II
54
CAPÍTULO 2
Registro de genes
55
Unidade II | Formatos Biológicos
Genes Procarióticos
Sítio de
Sítio de início da Códon de Códon de término da
Transcrição início término Transcrição
Genes Eucarióticos
Sítio de
Sítio de início Códon de Códon de término da
da Transcrição início término Transcrição
Íntron
s
56
Formatos Biológicos | Unidade II
A identificação dos genes pode ser feita tanto pela identificação do produto de
cada ORF quanto pela identificação de RNAs não codificantes. As principais
ferramentas utilizadas para a predição de genes por meio da identificação das
ORFs são: BLAST, BLAT, USEARCH, HMMER, Uniprot e Pfam. E se for
identificar genes por meio de RNAs não codificantes, os principais programas
usados são: BLAST, HMMER, Aragorn e tRNAscan-SE.
57
CAPÍTULO 3
Estruturas moleculares tridimensionais
58
Formatos Biológicos | Unidade II
Para os ácidos nucleicos, além do cálculo dos ângulos torcionais, são também
utilizados doze parâmetros geométricos distintos para fazer a caracterização de
sua estrutura tridimensional. Isso ocorre devido aos movimentos de rotação
e translação que os pares de bases sofrem dentro da região de pareamento
(figura 23).
Deslizamento Inclinação
Cisalhamento Torcidos
59
Unidade II | Formatos Biológicos
Esses pontos são conhecidos como motivos (folds) e possuem várias classificações
de acordo com as suas características (figura 24). Conhecer o motivo de uma
proteína é importante para saber sobre o mecanismo de ação em nível molecular,
uma vez que a função de uma proteína está diretamente relacionada à sua
estrutura tridimensional.
60
Formatos Biológicos | Unidade II
61
Unidade II | Formatos Biológicos
62
ALGORITMOS E
ALINHAMENTO UNIDADE III
CAPÍTULO 1
Banco de dados
63
Unidade III | AlgorITmos e Alinhamento
64
AlgorITmos e Alinhamento | Unidade III
Esses bancos de dados biológicos têm sido de grande relevância, pois facilitam
a busca pelas informações sobre determinado organismo e diminuem o tempo
de pesquisa.
65
Unidade III | AlgorITmos e Alinhamento
Destaca-se aqui o PDB (Protein Data Bank). Esse banco de dados determina a
estrutura de uma proteína por meio de informações experimentais, atribuições
estruturais secundárias, interações moleculares e coordenadas atômicas.
66
AlgorITmos e Alinhamento | Unidade III
67
CAPÍTULO 2
Algoritmos de alinhamento
68
AlgorITmos e Alinhamento | Unidade III
Sequência 01
Sequência 02
Sequência 03
Sequência 04
b
Sequência 01
Sequência 02
Sequência 03
Sequência 04
a. Sequência 01
Sequência 01
Sequência 02 Sequência 04
Sequência 03
Sequência 02
Sequência 04
Sequência 03
b.
Desconhecida
Conhecida
Alfa-hélice Beta-hélice
c.
Desconhecida
Conhecida
Função catalítica
d.
Não Afetado
Não Afetado
Afetado
Afetado
69
Unidade III | AlgorITmos e Alinhamento
70
AlgorITmos e Alinhamento | Unidade III
Sequência 01
Sequência 02
b.
Alinhamento 01:
Sequência 01
Sequência 02
c.
Alinhamento 01:
Sequência 01
Sequência 02
71
Unidade III | AlgorITmos e Alinhamento
Figura 29. Análise de alinhamento de sequências utilizando matriz de pontos (dot matrix).
72
AlgorITmos e Alinhamento | Unidade III
73
CAPÍTULO 3
Tipos de alinhamento
Alinhamento simples
Esse tipo de alinhamento também é conhecido como alinhamento par-a-par e
utiliza em sua análise três principais algoritmos: matriz de pontos (dot matrix),
programação dinâmica e o K-tuple.
74
AlgorITmos e Alinhamento | Unidade III
Alinhamento progressivo
75
Unidade III | AlgorITmos e Alinhamento
e-value. Esse valor significa que quanto menor ele é, menor é a probabilidade
de esse alinhamento ter ocorrido ao acaso, ou seja, maior é a confiabilidade
do resultado. Logo, quanto mais próximo de zero for o valor de e-value mais
similar são as sequências analisadas.
76
ANÁLISE DE DADOS UNIDADE IV
CAPÍTULO 1
Análise da qualidade de sequências
77
Unidade IV | Análise de Dados
FastQC
78
Análise de Dados | Unidade IV
Figura 31. Gráfico da qualidade da sequência por base gerado pelo programa FastQC.
79
Unidade IV | Análise de Dados
Figura 32. Gráfico do conteúdo da sequência por base gerado pelo programa FastQC.
80
Análise de Dados | Unidade IV
Trimmomatic
FastX Toolkit
81
Unidade IV | Análise de Dados
NGS Toolkit
Na figura abaixo tem-se um resumo das principais análises realizadas por essa
ferramenta: controle de qualidade das sequências, trimagem, conversão de
formatos de arquivos e análises estatísticas (figura 33).
82
Análise de Dados | Unidade IV
Figura 33. Resumo das análises realizadas pela ferramenta NGS Toolkit.
NGS QC Toolkit
IlluQC Cálculos de
454QC N50
Qualidade
83
CAPÍTULO 2
Montagem e comparação de dados
Podemos dizer que a Era Genômica iniciou quando foi determinado o genoma
do primeiro organismo, o Bacteriófago phi-x174, contendo 5.375 pares de
bases, determinado por Sanger, em 1977. Em 1980, utilizando uma outra
técnica, chamada de shotgun, a qual consiste em fragmentar o DNA em pedaços
randômicos para depois sequenciar e agrupar em pedaços maiores até se obter
a montagem final e completa de uma longa sequência contínua de DNA,
Sanger sequenciou o genoma de outro bacteriófago, o Bacteriófago M13, o
qual apresentava genoma maior que o primeiro, com 48.502 pares de bases.
Após Sanger demonstrar que era possível sequenciar genomas, uma série de
outros genomas virais começaram a ser demonstrados, como o vírus Vaccina
e o Cytomegalovírus, com 187.000 e 192.000 pares de bases, respectivamente.
84
Análise de Dados | Unidade IV
O Projeto Genoma Humano teve início no ano de 1990, quando dois centros
de pesquisa norte-americanos propuseram realizar o mapa genético, o mapa
físico e a sequência completa de nucleotídeos do Homo sapiens. Sua publicação
foi, somente, no ano 2001. Nesse estudo, chegaram à conclusão de que o
genoma humano é formado por, aproximadamente, três bilhões de pares
de bases distribuídos em 24 cromossomos. Apenas 3% do nosso genoma
apresenta a capacidade de ser transcrito e traduzido em proteína. Também foi
por meio desse estudo que se pôde inferir a proximidade do ser humano com
outros animais quanto à quantidade de genes funcionais, além de apresentar
a semelhança de vários genes com o de outras espécies, como bactérias, vírus,
vermes, moscas, camundongos e chipanzés.
85
Unidade IV | Análise de Dados
86
Análise de Dados | Unidade IV
Nome Análise
AByss Genomas grandes
ALLPATHS-LG Genomas grandes
Celera WGS Assembler Genomas grandes
CLC Genomics Workbench Genomas e transcriptomas
Geneious Genomas
Newbler Genomas e transcriptomas
Phrap Genomas e transcriptomas
SOAPdenovo Genomas e transcriptomas
Trans-ABySS Transcriptomas
Staden gap4 package Genomas pequenos e transcriptomas
Velvet Genomas pequenos e transcriptomas
Fonte: Verli, 2014.
87
Unidade IV | Análise de Dados
Montagem de genomas
88
Análise de Dados | Unidade IV
Para vencer esses desafios e obter uma montagem de qualidade deve-se escolher
a melhor metodologia de sequenciamento associada ao montador mais adequado
ao genoma que está sendo trabalhado.
Montagem de transcriptomas
89
Unidade IV | Análise de Dados
O segundo passo é o alinhamento dessas reads, que pode ser feito usando
um genoma de referência ou não. Na primeira estratégia, a ideia é alinhar o
conjunto de reads usando o conhecimento prévio de um genoma conhecido
(genoma de referência) e depois buscar a sobreposição. Para fazer essa análise
podem ser usados vários programas, como Tophat, Bowtie, BWA, MapSplice,
entre outros.
Por último, tem-se a anotação, que nada mais é que o processo de procurar
informação relevante dos transcritos mapeados para obter o significado
biológico, permitindo a compreensão dos processos metabólicos.
90
CAPÍTULO 3
Ferramentas de visualização
91
Unidade IV | Análise de Dados
CGView
Ferramenta de visualização de genomas circulares, como cromossomos
bacterianos, DNA mitocondrial e plasmídeos. Desenvolvida em linguagem
Java e disponível gratuitamente para download.
Artemis
Ferramenta gratuita de visualização e anotação que permite a visualização de
características das sequências geradas pelos sequenciadores de nova geração.
JBrowse
Ferramenta de visualização de genomas desenvolvido em Java e HTML5. Pode
ser executado na área de trabalho ou incorporado em site.
GenomeView
Ferramenta de visualização e edição de genomas desenvolvida pelo Broad
Institute, fornece visualização interativa de sequências, anotações, alinhamentos
múltiplos, mapeamentos sintênicos, entre outros.
92
Análise de Dados | Unidade IV
Circos
Ferramenta de visualização e informações de dados. É controlado por arquivos
de configuração de texto simples, o que o torna facilmente incorporado em
pipelines de aquisição, análise e relatório de dados.
KEEG
Banco de dados biológico on-line que também serve como ferramenta de
visualização de genomas, vias metabólicas, redes de interações moleculares
nas células, entre outras.
BLAST2GO
Ferramenta utilizada para a anotação funcional e automática de genes com
alto rendimento, permitindo a visualização dessa análise, assim como rotas
e vias metabólicas de proteínas.
93
REFERÊNCIAS
ANDREWS, S. FastQC A Quality Control tool for High Throughput Sequence Data. 2010.
Disponível em: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/. Acesso em: 27 fev. 2021.
BOLGER, A. M.; LOHSE, M.; USADEL, B. Trimmomatic: A flexible trimmer for Illumina Sequence
Data. Bioinformatics, btu170. 2014.
GOFFEAU, A. et al. Life in 6000 genes. Science. 1996 Oct 25;274(5287):546, 563-7.
GRIFFITHS, A. J. F.; WESSLER, S. R.; CARROLL, S. B.; DOEBLEY, J. Introdução à Genética.
11. ed. Rio de Janeiro: Guanabara Koogan, 2016.
KNIEF, C. Analysis of plant microbe interactions in the era of next generation sequencing
technologies. Frontiers in plant science, v.5, 2014.
MAXAM, A. M.; GILBERT, W. A new method for sequencing DNA. PANS. 1977 Fev., 74 (2),
560-564. DOI: 10.1073/pnas.74.2.560.
MOREIRA, L. M. et al. Ciências Genômicas: Fundamentos e Aplicações. 1. ed. Ribeirão Preto:
Cubo, 2015.
NIERMAN, W.; EISEN, J. A.; FRASER, C. M. Microbial genome sequencing 2000: new insights
into physiology, evolution and expression analysis. Res Microbiol. 2000 Mar; 151(2): 79-84. PMID:
10865951.
PATEL, R. K.; JAIN, M. NGS QC Toolkit: a toolkit for quality control of next generation sequencing
data. PLoS One. 2012;7(2): e30619.
ROBERTS, R. J.; CARNEIRO, M. O.; SCHATZ, M. C. The advantages of SMRT sequencing.
Genome biology, v.14, p.405, 2013.
TRABUCO, L.; VILLA, E. Case Study: DNA. Disponível em: http://www.ks.uiuc.edu/Training/
CaseStudies/pdfs/dna.pdf. Acesso em: 11 nov. 2020.
VENTER, J. C. et al. The sequence of the human genome. Science. 2001 Feb 16;291(5507):1304-
51. doi: 10.1126/science.1058040. Erratum in: Science 2001 Jun 5;292(5523):1838. PMID: 11181995.
VERLI, H. et al. Bioinformática: Da Biologia à Flexibilidade Molecular. 1. ed. São Paulo: SBBq, 2014.
ZAHA, A.; FERREIRA, H. B.; PASSAGLIA, L. M. P. Biologia Molecular Básica. 5. ed. Porto
Alegre: Artmed, 2014.
Sites
http://aprendendogenetica.blogspot.com/2012/03/genetica-molecular-biologia-aula-04.html.
Acesso em: 27 fev. 2021.
https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/. Acesso em: 27 fev. 2021.
94