Proxectos xenoma

A secuencia do xenoma humano, se se imprime en libros con letra apertada, ocuparía uns 100 grosos volumes.

Os proxectos xenoma son proxectos científicos que pretenden como obxectivo final determinar a secuencia do xenoma completo de diversos organismos de todos os tipos (animais, plantas, a fungos, bacterias, arqueas, protistas e tamén virus) e anotar os xenes codificantes de proteínas que conteñen e outras importantes características codificadas no xenoma.^[1] A secuencia xenómica dun organismo inclúe as secuencias de ADN de cada un dos seus cromosomas. Para unha bacteria, que contén un só cromosoma, un proxecto xenoma terá que mapar a secuencia dese cromosoma. Para a especie humana, supoñerá a secuenciación dos seus 22 pares de autosomas e 2 cromosomas sexuais.

Os primeiros xenomas dos que se lograron secuencias completamente eran de bacterias e virus, pero despois conseguiron secuenciarse xenomas de eucariotas superiores, e as técnicas que xurdiron despois facilitaron moitísimo o proceso. O proxecto xenoma de máis sona foi o Proxecto Xenoma Humano, que está tendo un grande impacto na investigación sobre as ciencias da vida, e dá a posibilidade de impulsar numerosos avances médicos e comerciais.^[2]

Ensamblaxe do xenoma

Artigo principal: Ensamblaxe de secuencias.

A ensamblaxe de secuencias é o proceso de unir moitas secuencias curtas de ADN procedentes do ADN fragmentado dun conxunto de cromosomas para crear a representación dos cromosomas orixinais das que proceden. Nun proxecto de secuenciación shotgun (de escopeta), todos os ADNs procedentes dunha fonte (xeralmente un só organismo) fractúranse primeiro en millóns de pequenos fragmentos. Estes fragmentos son despois "lidos" por máquinas secuenciadoras automáticas, que poden ler ata 1000 nucleótidos ou bases á vez. As catro bases son adenina, guanina, citosina e timina, representados por AGCT. Un algoritmo de ensamblaxe do xenoma funciona collendo todos os fragmentos e aliñándoos, e detectando todos os lugares onde dúas das curtas secuencias (ou lecturas) se solapan. Esas lecturas solapadas poden fusionarse, e o proceso continúa.

A ensamblaxe do xenoma é un problema de computación moi difícil, cuxa dificultade se incrementa porque moitos xenomas conteñen gran cantidade de secuencias idénticas, coñecidas como repeticións. Estas repeticións poden ter lonxitudes de miles de nucleótidos, e algunhas aparecen en miles de localizacións diferentes, especialmente nos xenomas grandes de plantas e animais.

A secuencia xenómica (borrador) resultante prodúcese combinando a información de cóntigos (contigs) secuenciados e despois emprega a información de ligamento para crear andamios. Os andamios son situados ao longo do mapa físico dos cromosomas creando un "camiño dourado" ("golden path").

Software de ensamblaxe

Orixinalmente, a maioría dos centros de secuenciación de ADN a grande escala desenvolveron o seu propio software para a ensamblaxe das secuencias que producían. Porén, isto cambiou a medida que o software se fixo máis complexo e se incrementou o número de centros que facían secuenciación. Un exemplo de tales ensambladores é Short Oligonucleotide Analysis Package (Paquete de Análise de Oligonucleótidos Curtos) desenvolvido por BGI para a ensamblaxe de novo de xenomas de tamaño do humano, o seu aliñamento, detección de SNP, a resecuenciación, busca de indeis e análises de variacións estruturais.^[3]^[4]^[5]

Anotación do xenoma

Artigo principal: Anotación do ADN.

Desde a década de 1980, a bioloxía molecular e a bioinformática tiveron a necesidade de facer a anotacións de ADN. A anotación do ADN ou anotación do xenoma é o proceso de identificar a información biolóxica asociada ás secuencias, e particularmente a identificación das localizacións dos xenes e determinación das súas funcións.

Finalización dun proxecto xenoma

Cando se secuencia un xenoma, normalmente hai rexións que son difíciles de secuenciar (xeralmente rexións ricas en ADN repetitivo). Así, as chamadas secuencias xenómicas 'completas' raramente son realmente completas, e a miúdio úsanse termos como 'borrador de traballo' ou 'esencialmente completa' para describir máis exactamente o estado deses proxectos xenómicos. Mesmo nos casos en que se determinaron todos os pares de bases dunha secuencia xenómica, probablemente segue habendo erros porque a secuenciación do ADN non é un proceso totalmente exacto. Ademais, un proxecto xenómico completo debería incluír as secuencias do ADN mitocondrial e, nas plantas, do ADN cloroplástico, xa que estes orgánulos teñen os seus propios xenomas.

A miúdo dise que o obxectivo de secuenciar un xenoma é obter información sobre o conxunto completo de xenes nunha determinada secuencia xenómica. A proporción dun xenoma que codifica xenes pode ser moi pequena (especialmente en eucariotas, como os humanos, nos que o ADN codificante pode supoñer só unha porcentaxe pequena do total da secuencia). Porén, non sempre é posible (ou desexable) secuenciar só as rexións codificantes por separado. Ademais, a medida que se sabe máis sobre o ADN non codificante, cada vez considérase máis importante coñecer a secuencia xenómica completa para comprender globalmente a xenética e a bioloxía dun organismo.

En moitos aspectos, os proxectos xenoma non se circunscriben só a determinar a secuencia do ADN dun organismo. Ditos proxectos poden tamén incluír unha predición de xenes para atopar onde están situados os xenes no xenoma, e que función exercen eses xenes. Pode haber tamén proxectos relacionados para secuenciar ESTs ou ARNms para determinar onde están exactamente os xenes.

Perspectivas históricas e tecnolóxicas

Historicamente, cando se secuenciaban xenomas eucariotas (como o do verme Caenorhabditis elegans) era común mapar o xenoma primeiro para proporcionar unha serie de puntos de referencia ao longo do xenoma. En vez de secuenciar un cromosoma enteiro dun golpe, secuenciábase fragmento por fragmento (tendo o coñecemento previo de onde estaba situado cada fragmento aproximadamente no cromosoma completo). Os cambios na tecnoloxía dos últimos anos e especialmente as melloras no poder de procesamento dos computadores, fixeron que agora os xenomas poidan ser completamente secuenciados dun golpe por 'secuenciación shotgun' (de escopeta), aínda que hai algunhas precaucións que hai que ter nestes métodos en comparación cos métodos tradicionais.

As melloras na tecnoloxía de secuenciación do ADN significaron que o custo da secuenciación dunha nova secuencia xenómica baixase constantemente (en canto ao custo por par de bases) e as novas tecnoloxías supuxeron que os xenomas poden ser secuenciados moito máis rapidamente.

Cando as axencias de investigación deciden que novos xenomas queren secuenciar, a énfase ponse nas especies que son de grande importancia como organismos modelo ou teñen unha relevancia para a saúde humana (por exemplo, as bacterias patóxenas ou os vectores epidemiolóxicos como os mosquitos) ou especies que teñen importancia comercial (por exemplo, o gando doméstico ou as plantas agrícolas). Ponse unha énfase secundaria nas especies cuxos xenomas poden axudar a responder importantes cuestións na evolución molecular (por exemplo, o chimpancé común).

No futuro, é probable que a secuenciación de xenomas se faga cada vez máis barata e rápida. Isto permitirá que sexan determinadas as secuencias xenómicas completas de moitos individuos dunha especie. Para os humanos, isto posibilitará unha mellor comprensión de aspectos da diversidade xenética humana. Tamén permitiría potencialmente unha medicina máis individualizada, ao poder coñecer rapidamente o xenoma dun individuuo.

Exemplos de proxectos xenoma

L1 Dominette 01449, a Hereford que serviu como suxeito para o Proxecto Xenoma Bovino.

En moitos organismos realizáronse proxectos xenoma que que foron xa completados ou están a piques de completarse, entre os que están:

Humanos, Homo sapiens; ver Proxecto Xenoma Humano
Humanos, Homo sapiens; Human Genome Project–Write
Paleoesquimal,^[4] un humano antigo
Neanderthal, Homo neanderthalensis (parcial); Proxecto Xenoma do Neanderthal
Chimpancé común, Pan troglodytes; Proxecto Xenoma do Chimpancé
Vaca doméstica.^[6]^[7]
Xenoma bovino
Consorcio para a Secuenciación do Xenoma da Abella do Mel
Xenoma do cabalo^[8]
Proxecto Microbioma Humano
Programa do Xenoma da Vide Internacional
Proxecto HapMap Internacional
Proxecto de resecuenciación do xenoma do tomate 150+
Proxecto Xenoma 100K

Notas

↑ Pevsner, Jonathan (2009). Bioinformatics and functional genomics (2nd ed.). Hoboken, N.J: Wiley-Blackwell. ISBN 9780470085851.
↑ "Potential Benefits of Human Genome Project Research". Department of Energy, Human Genome Project Information. 2009-10-09. Arquivado dende o orixinal o 08 de xullo de 2013. Consultado o 2010-06-18.
↑ Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li S, Shan G, Kristiansen K, Li S, Yang H, Wang J, Wang J (February 2010). "De novo assembly of human genomes with massively parallel short read sequencing". Genome Research 20 (2): 265–272. ISSN 1549-5469. PMC 2813482. PMID 20019144. doi:10.1101/gr.097261.109.
↑ ^4,0 ^4,1 Rasmussen M, Li Y, Lindgreen S, Pedersen JS, Albrechtsen A, Moltke I, Metspalu M, Metspalu E, Kivisild T, Gupta R, Bertalan M, Nielsen K, Gilbert MT, Wang Y, Raghavan M, Campos PF, Kamp HM, Wilson AS, Gledhill A, Tridico S, Bunce M, Lorenzen ED, Binladen J, Guo X, Zhao J, Zhang X, Zhang H, Li Z, Chen M, Orlando L, Kristiansen K, Bak M, Tommerup N, Bendixen C, Pierre TL, Grønnow B, Meldgaard M, Andreasen C, Fedorova SA, Osipova LP, Higham TF, Ramsey CB, Hansen TV, Nielsen FC, Crawford MH, Brunak S, Sicheritz-Pontén T, Villems R, Nielsen R, Krogh A, Wang J, Willerslev E (2010-02-11). "Ancient human genome sequence of an extinct Palaeo-Eskimo". Nature 463 (7282): 757–762. ISSN 1476-4687. PMC 3951495. PMID 20148029. doi:10.1038/nature08835.
↑ Wang J, Wang W, Li R, Li Y, Tian G, Goodman L, Fan W, Zhang J, Li J, Zhang J, Guo Y, Feng B, Li H, Lu Y, Fang X, Liang H, Du Z, Li D, Zhao Y, Hu Y, Yang Z, Zheng H, Hellmann I, Inouye M, Pool J, Yi X, Zhao J, Duan J, Zhou Y, Qin J, Ma L, Li G, Yang Z, Zhang G, Yang B, Yu C, Liang F, Li W, Li S, Li D, Ni P, Ruan J, Li Q, Zhu H, Liu D, Lu Z, Li N, Guo G, Zhang J, Ye J, Fang L, Hao Q, Chen Q, Liang Y, Su Y, San A, Ping C, Yang S, Chen F, Li L, Zhou K, Zheng H, Ren Y, Yang L, Gao Y, Yang G, Li Z, Feng X, Kristiansen K, Wong GK, Nielsen R, Durbin R, Bolund L, Zhang X, Li S, Yang H, Wang J (2008-11-06). "The diploid genome sequence of an Asian individual". Nature 456 (7218): 60–65. ISSN 0028-0836. PMC 2716080. PMID 18987735. doi:10.1038/nature07484. Consultado o 2012-12-22.
↑ Yates, Diana (2009-04-23). "What makes a cow a cow? Genome sequence sheds light on ruminant evolution" (Press Release). EurekAlert!. Consultado o 2012-12-22.
↑ Elsik, C. G.; Elsik, R. L.; Tellam, K. C.; Worley, R. A.; Gibbs, D. M.; Muzny, G. M.; Weinstock, D. L.; Adelson, E. E.; Eichler, L.; Elnitski, R.; Guigó, D. L.; Hamernik, S. M.; Kappes, H. A.; Lewin, D. J.; Lynn, F. W.; Nicholas, A.; Reymond, M.; Rijnkels, L. C.; Skow, E. M.; Zdobnov, L.; Schook, J.; Womack, T.; Alioto, S. E.; Antonarakis, A.; Astashyn, C. E.; Chapple, H. -C.; Chen, J.; Chrast, F.; Câmara, O.; Ermolaeva, C. N. (2009). "The Genome Sequence of Taurine Cattle: A Window to Ruminant Biology and Evolution". Science 324 (5926): 522–528. PMC 2943200. PMID 19390049. doi:10.1126/science.1169588.
↑ http://www.genome.gov/20519480

Véxase tamén

Bibliografía

Stein, L. (2001). "Genome annotation: from sequence to biology". Nature Reviews Genetics 2 (7): 493–503. PMID 11433356. doi:10.1038/35080529.
"Ensembl's genome annotation pipeline online documentation". Arquivado dende o orixinal o 05 de marzo de 2016. Consultado o 26 de outubro de 2016.
Gupta, Nitin; Stephen Tanner; Navdeep Jaitly; Joshua N Adkins; Mary Lipton; Robert Edwards; Margaret Romine; Andrei Osterman; Vineet Bafna; Richard D Smith; Pavel A Pevzner (September 2007). "Whole proteome analysis of post-translational modifications: applications of mass-spectrometry for proteogenomic annotation". Genome Research 17 (9): 1362–1377. ISSN 1088-9051. PMC 1950905. PMID 17690205. doi:10.1101/gr.6427907.
Huss, Jon W.; Orozco, C; Goodale, J; Wu, C; Batalov, S; Vickers, TJ; Valafar, F; Su, AI (2008). "A Gene Wiki for Community Annotation of Gene Function". PLoS Biology 6 (7): e175. PMC 2443188. PMID 18613750. doi:10.1371/journal.pbio.0060175.

Véxase tamén

Outros artigos

Joint Genome Institute
Organismo modelo
National Center for Biotechnology Information
Illumina, compañía implicada na secuenciación de xenomas
Knome, compañía que analiza e secuencia xenomas
Proxecto Xenoma Humano

Ligazóns externas

GOLD:Genomes OnLine Database
Genome Project Database
The Protein Naming Utility
SUPERFAMILY Arquivado 17 de outubro de 2008 en Wayback Machine.
EchinoBase Base de datos xenómica dos equinodermos, (previamente SpBase, unha base de datos xenómica do ourizo de mar)
NRCPB.
Global Invertebrate Genomics Alliance (GIGA) Arquivado 21 de xaneiro de 2021 en Wayback Machine.

[pevsner2009-1] Pevsner, Jonathan (2009). Bioinformatics and functional genomics (2nd ed.). Hoboken, N.J: Wiley-Blackwell. ISBN 9780470085851.

[doe2009-2] "Potential Benefits of Human Genome Project Research". Department of Energy, Human Genome Project Information. 2009-10-09. Arquivado dende o orixinal o 08 de xullo de 2013. Consultado o 2010-06-18.

[li2010-3] Li R, Zhu H, Ruan J, Qian W, Fang X, Shi Z, Li Y, Li S, Shan G, Kristiansen K, Li S, Yang H, Wang J, Wang J (February 2010). "De novo assembly of human genomes with massively parallel short read sequencing". Genome Research 20 (2): 265–272. ISSN 1549-5469. PMC 2813482. PMID 20019144. doi:10.1101/gr.097261.109.

[ReferenceA-4] 4,0 ^4,1 Rasmussen M, Li Y, Lindgreen S, Pedersen JS, Albrechtsen A, Moltke I, Metspalu M, Metspalu E, Kivisild T, Gupta R, Bertalan M, Nielsen K, Gilbert MT, Wang Y, Raghavan M, Campos PF, Kamp HM, Wilson AS, Gledhill A, Tridico S, Bunce M, Lorenzen ED, Binladen J, Guo X, Zhao J, Zhang X, Zhang H, Li Z, Chen M, Orlando L, Kristiansen K, Bak M, Tommerup N, Bendixen C, Pierre TL, Grønnow B, Meldgaard M, Andreasen C, Fedorova SA, Osipova LP, Higham TF, Ramsey CB, Hansen TV, Nielsen FC, Crawford MH, Brunak S, Sicheritz-Pontén T, Villems R, Nielsen R, Krogh A, Wang J, Willerslev E (2010-02-11). "Ancient human genome sequence of an extinct Palaeo-Eskimo". Nature 463 (7282): 757–762. ISSN 1476-4687. PMC 3951495. PMID 20148029. doi:10.1038/nature08835.

[wang2008-5] Wang J, Wang W, Li R, Li Y, Tian G, Goodman L, Fan W, Zhang J, Li J, Zhang J, Guo Y, Feng B, Li H, Lu Y, Fang X, Liang H, Du Z, Li D, Zhao Y, Hu Y, Yang Z, Zheng H, Hellmann I, Inouye M, Pool J, Yi X, Zhao J, Duan J, Zhou Y, Qin J, Ma L, Li G, Yang Z, Zhang G, Yang B, Yu C, Liang F, Li W, Li S, Li D, Ni P, Ruan J, Li Q, Zhu H, Liu D, Lu Z, Li N, Guo G, Zhang J, Ye J, Fang L, Hao Q, Chen Q, Liang Y, Su Y, San A, Ping C, Yang S, Chen F, Li L, Zhou K, Zheng H, Ren Y, Yang L, Gao Y, Yang G, Li Z, Feng X, Kristiansen K, Wong GK, Nielsen R, Durbin R, Bolund L, Zhang X, Li S, Yang H, Wang J (2008-11-06). "The diploid genome sequence of an Asian individual". Nature 456 (7218): 60–65. ISSN 0028-0836. PMC 2716080. PMID 18987735. doi:10.1038/nature07484. Consultado o 2012-12-22.

[cowpr-6] Yates, Diana (2009-04-23). "What makes a cow a cow? Genome sequence sheds light on ruminant evolution" (Press Release). EurekAlert!. Consultado o 2012-12-22.

[cowGenome-7] Elsik, C. G.; Elsik, R. L.; Tellam, K. C.; Worley, R. A.; Gibbs, D. M.; Muzny, G. M.; Weinstock, D. L.; Adelson, E. E.; Eichler, L.; Elnitski, R.; Guigó, D. L.; Hamernik, S. M.; Kappes, H. A.; Lewin, D. J.; Lynn, F. W.; Nicholas, A.; Reymond, M.; Rijnkels, L. C.; Skow, E. M.; Zdobnov, L.; Schook, J.; Womack, T.; Alioto, S. E.; Antonarakis, A.; Astashyn, C. E.; Chapple, H. -C.; Chen, J.; Chrast, F.; Câmara, O.; Ermolaeva, C. N. (2009). "The Genome Sequence of Taurine Cattle: A Window to Ruminant Biology and Evolution". Science 324 (5926): 522–528. PMC 2943200. PMID 19390049. doi:10.1126/science.1169588.

[8] ttp://www.genome.gov/20519480

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]