Projekt konsenzusnog kodiranja sekvenci
Projekt konsenzusnog kodiranja sekvenci (CCDS) zajednički je napor da se održi skup podataka o regionima koje kodiraju proteine koji su identično označeni na skupovima genoma čovjeka i miša. Projekt CCDS prati identične proteinske zapis na referentnom mišjem i ljudskom genomu, sa stabilnim identifikatorom (CCDS ID) i osigurava da ih dosljedno predstavlja (NCBI) , Ensembl i UCSC pretraživač genoma. Integritet CCDS skupa podataka održava se strogim testiranjem sigurnosti kvaliteta i u toku ručnog održavanja.[1]
Projekt CCDS | |
---|---|
Skraćenica | CCDS |
Datum osnivanja | 2009. |
Vrsta | Standardizacija genomskih podataka |
Status | Aktivna, izdanje CCDS 21 |
Cilj | Konvergencija prema standardnom skupu zapisa o genima |
Glavno sjedište | Nacionalni centar za informacije o biotehnologiji Evropski institut za bioinformatiku Kalifornijski Univerzitet, Santa Cruz Institut Wellcome Trust Sanger |
Jezik | Engleski |
Br. volontera | Neograničen |
Veb-sajt | https://www.ncbi.nlm.nih.gov/projects/CCDS/CcdsBrowse.cgi |
Motivacija i podloga
urediBiološka i biomedicinska istraživanja zasnivaju se na preciznoj i dosljednoj anotaciji gena i njihovih proizvoda na sklopovima genoma. Referentne anotacije genoma dostupne su iz različitih izvora, svaka sa svojim nezavisnim ciljevima i politikama, što rezultira njihovim određenim varijacijama.
Projekt CCDS uspostavljen je kako bi se identificirao zlatni standardni skup genskih anotacija koje kodiraju proteine i koje su identificirane na sklopovima referentnih genoma čovjeka i miša u grupama koje su sudjelovale. Genetički setovi CCDS-a, do kojih se došlo konsenzusom različitih partnera [1] sada se sastoje od preko 18.000 ljudskih i preko 20.000 mišjih gena. CCDS skup podataka sve više predstavlja više događaja alternativni oblici prerade RNK sa svakim novim izdanjem.[2]
Učesnici
urediGrupe učesnika prikupljanja bilješki koje uključuju:
- Ručno bilježenje pruža
- Referentna sekvenca (RefSeq) na NCBI
- Analiza i zapisi o genima ljudi i kičmenjaka (HAVANA) na Institutu „Wellcome Trust Sanger“.
Definiranje CCDS genskih setova
urediKonsenzus je definiran kao regije za kodiranje proteina, koje se slažu na startnom kodonu, stop kodonu i spojnim preradama i za koje predviđanje ispunjava mjerila osiguranja kvaliteta. Kombinaciju ručnih i automatiziranih bilješki genoma napisali su (NCBI) i Ensembl (koji uključuje ručne HAVANA bilješke), koje se uspoređuju, kako bi se identificirale napomene s odgovarajućim genomskim koordinatama.
Testiranje osiguranja kvaliteta
urediKako bi se osiguralo da su CDS visokokvalitetni, provode se testovi višestrukog osiguranja kvaliteta (QA) . Svi testovi se izvode prateći korak upoređivanja napomena svake ugradnje u CCDS i neovisni su o pojedinačnim QA testovima grupe zapisa izvršenih prije njihovog upoređivanja.
Test QA | Svrha testa |
---|---|
Podložno NMD | Provjerava transkripte koji mogu biti podložni propadanju zbog besmislica (nonsens-zapisa: NMD |
Nizak kvalitet | Provjera niske sklonost kodiranju |
Neonsenzusni sajtovi za preradu RNK | Provjere nekanonskih mjesta prerade |
Predviđeni pseudogen | Provjera UCSC-a za gena koji su predvivi pseudogeni |
Prekratki | Provjera transkripata ili proteina koji su neobično kratki, obično <100 aminokiselina |
Ortolog nije pronađen/nije konzerviran | Provjera gena koji nisu konzervirani i/ili nisu u HomoloGene-klasteru |
CDS startuju ili zaustavljaju bez poravnanja | Provjera startnih ili stop kodona u referentnoj sekvenci genoma |
Unutrašni stop | Provjera prisutnost internog stop kodona u genomskoj sekvenci |
NCBI: Razliirta dužina Ensembllovog protein | Provjera je li protein kodiran NCBI RefSeq iste dužine kao i EBI / WTSI protein |
NCBI:Ensembl niskog identiteta | Provjera > 99% ukupnog identiteta između NCBI i EBI / WTSI proteina |
Diskontinuirani gen | Provjera da li GeneID više nije validan |
Anotacije koje ne uspiju proći QA testove, ručno se provjeravaju, što može poboljšati rezultate ili donijeti odluku o odbijanju podudaranja zapisa na temelju neuspjeha u QA (provjeri kvaliteta).
Proces recenziranja
urediBaza podataka CCDS jedinstvena je po tome što postupak recenzija mora provoditi više suradnika, a prije bilo kakvih promjena mora se postići konsenzus. To je omogućeno sistemom koordinacije suradnika koji uključuje tok radnog procesa i forume za analizu i diskusiju. Baza podataka CCDS ima internu web stranicu koja služi u više svrha, uključujući komunikaciju kustosa, glasanje suradnika, pružanje posebnih izvještaja i praćenje statusa CCDS reprezentacija. Kada član CCDS grupe koji surađuje identificira CCDS ID koji će možda trebati pregledati, koristi se postupak glasanja za odlučivanje o konačnom ishodu.
Izazovi nadgledanja i anotacijske smjernice
urediNonsens-posredovano propadanje (NMD): NMD je najmoćniji nadzorni proces iRNK. Ono uklanja oštećenu iRNK prije nego što se može prevesti u protein.[3] Ovo je važno jer ako se prevede oštećena iRNK, krnji protein može uzrokovati bolest. Predloženi su različiti mehanizmi za objašnjenje NMD; jedan je model kompleks spojeva egzona (EJC). U ovom modelu, ako je stop kodon > 50 nt uzvodno od posljednjeg spoja egzon-egzon, pretpostavlja se da je transkript kandidat za NMD. Saradnici CCDS-a koristite konzervativni metod, zasnovan na EJC modelu, za pregled transkripata iRNK. Svi transkripti za koje je utvrđeno da su kandidati za NMD, izuzeti su iz CCDS skupa podataka, osim u sljedećim situacijama:
- procjenjuje se da su svi transkripti na određenom lokusu kandidati NMD, ali ranije je poznato da je lokus regija koja kodira proteine;
- postoje eksperimentalni dokazi koji sugeriraju da se funkcionalni protein proizvodi iz transkripta kandidata NMD.
Prije su RefSeq i HAVANA kandidatski transkripti NMD smatrani transkriptima koji kodiraju proteine, a time su i ovi transkripti kandidata za NMD predstavljeni u CCDS skupu podataka. Grupa RefSeq i projekt HAVANA naknadno su revidirali svoje politike zapisa
Multipla početna stranica u translacijskom okviru : Više inicijatora doprinosi inicijaciji translacije, kao što su uzvodno otvoreni okvir čitanja (uORF), sekundarna struktura i kontekst sekvence oko mjesta inicijacije prijevoda. Uobičajena početna lokacija kod kičmenjaka definirana je u Kozakovom konsenzusnom sekvencom: (GCC) GCCACCAUGG. Sekvenca u zagradama (GCC), motiv je s nepoznatim biološkim uticajem.[4] Unutar Kozakove konsenzusne sekvence ostoje varijacije, kao što su G ili A tri uočena uzvodna nukleotida (na položaju -3) od AUG. Baze između položaja –3 i +4 Kozakove sekvence imaju najznačajniji uticaj na translacijsku efikasnost. Stoga je sekvenca (A/G) NNAUGG definirana kao jak Kozakov signal u projektu CCDS.
Prema mehanizmu skeniranja, mala ribosomska podjedinica može inicirati translaciju od prvog postignutog početnog kodona. Postoje izuzeci od modela skeniranja:
- kada mjesto inicijacije nije okruženo jakim Kozakovim signalom, što rezultira propuštanjem skeniranja. Na taj način, ribosom preskače ovaj AUG i započinje translaciju sa početne stranice nizvodno;
- kada kraći ORF može dozvoliti da ribosom ponovo pokrene prevođenje nizvodno od ORF-a.
Prema smjernicama za bilježenje CCDS-a, najduži ORF mora biti označen, osim ako postoje eksperimentalni dokazi da se interno početno mjesto koristi za pokretanje prevođenja. Pored toga, drugi tipovi novih podataka, poput onih za profiliranje ribosoma,[5]mogu se koristiti za identifikaciju početnih kodona. CCDS skup podataka bilježi jedno mjesto pokretanja translacije po CCDS ID-u. Bilo koja alternativna početna mjesta može se koristiti za translaciju i bit će navedena u javnom zapisu CCDS-a.
Uzvodni otvoreni okviri čitanja: Inicijacijski kodoni AUG smješteni unutar vođa transkripata poznati su kao uzvodni AUG (uAUG). Ponekad su uAUG povezani s u ORF. U ORF-u nalazi se u približno 50% transkripata ljudi i miša.[6] Postojanja u ORF-u su još jedan izazov za CCDS skup podataka. Mehanizam skeniranja za iniciranje prevođenja sugerira da se male ribosomske podjedinice (40S) vežu na 5 'kraju novonastalog iRNK transkripta i skeniraju za prvi AOD startni kodon. To je moguće ako se prvo prepozna uAUG, a zatim prevede odgovarajući uORF. Prevod u ORF-u mogao bi biti kandidat NMD, iako su studije pokazale da neki u ORF mogu izbjeći NMD. Prosječna granica veličine za u ORF-ove koji će izbjeći NMD je približno 35 aminokiselina.[1][7] Također se sugerira da ORF inhibiraju translaciju gena nizvodno, zarobljavanjem inicijacijskog kompleksa ribosoma i uzrokujući disocijaciju ribosoma od iRNK prije nego što stigne do regija koje kodiraju proteine. Do sada, ni jedna studija nije izvijestila o globalnom uticaju u ORF-u na translacijsku regulaciju.
Sadašnje smjernice za zapise CCDS-a omogućavaju uključivanje transkripata iRNK koji se sadrže u ORF-ovima, ako ispunjavaju sljedeća dva biološka zahtjeva:
- Transkript iRNK ima jak Kozakov signal;
- Transkript iRNK je ili ≥ 35 aminokiselina ili se preklapa sa primarnim otvorenim okvirom čitanja.
Pročitani transkripti: Pročitani transkripti poznati su i kao spojeni gen ili kotranskribirani geni. Pročitani transkripti definirani su kao transkripti koji kombiniraju barem dio jednog egzona iz svakog od dva ili više različitih poznatih (partnerskih) gena koji na istom hromosomu u istoj orijentaciji.[8] Biološka funkcija pročitanih transkripata i njihovih odgovarajućih molekula proteina ostaje nepoznata. Međutim, definicija čitavog gena u CCDS skupu podataka glasi da pojedinačni partnerski geni moraju biti različiti, a pročitani transkripti moraju dijeliti ≥ 1 egzon (ili ≥ 2 mjesta prerade, osim u slučaju zajedničkog terminalnog egzona) sa svakim od različitih kraćih lokusa. Transkripti se ne smatraju pročitanim u sljedećim okolnostima:
- kada se transkripti proizvode iz preklapajućim genima, ali ne dijele iste lokacije za preradu;
- kada se transkripti prevode iz gena koji imaju međusobno ugniježđene stukture. U ovom slučaju, saradnici CCDS-a i HGNC složili su se da se pročitani transkript predstavlja kao zasebno mjesto.
Kvalitet referentne sekvence genoma: Kako je CCDS skup podataka izgrađen tako da predstavlja genomske zapisee čovjeka i miša, problemi s kvalitetom sekvenci referentnog genoma čovjeka i miša postaju još jedan izazov. Problemi s kvalitetom nastaju kada se referentni genom pogrešno sklopi. Zato rastavljeni genom može sadržavati preuranjene stop kodone, indeks sa pomicanjem okvira ili vjerovatno polimorfne pseudogene. Kada se utvrde ovi problemi s kvalitetom, saradnici CCDS-a prijavljuju ih referentnom konzorciju za genom, koji istražuje i vrši potrebne ispravke.
Pristup CCDS podacima
urediProjekt CCDS dostupan je na stranici skupa podataka NCBI CCDS(ovdje), koji pruža FTP veze za preuzimanje i interfejs upita za prikupljanje informacija o CCDS sekvencama i lokacijama. CCDS izvještaji mogu se dobiti korištenjem interfejsa za upit, koje se nalazi na vrhu stranice skupa podataka CCDS-a. Korisnici mogu odabrati različite tipove identifikatora kao što su CCDS ID, ID gena, simbol gena, ID nukleotida i ID proteina za traženje određenih CCDS informacija. Izvještaji CCDS (slika) predstavljeni su u obliku tabele, pružajući veze do određenih resursa, poput izvještaja o povijesti, Entrez gena [9] ili ponovnogo upisa CCDS skupa podataka. Tabela identifikatora sekvence prikazuje informacije o transkriptima u VEGA, Ensembl i Blink. Tabela lokacija na hromosomima uključuje genomske koordinate za svaki pojedinačni egzon određene kodirajuće sekvence. Također nudi veze do nekoliko različitih preglednika genoma, koji omogućavaju vizualiziranje strukture kodirajuće regije. Tačne nukleotidne i proteinske sekvence određene kodirajuće sekvence također su prikazane u odjeljku CCDS za podatke o sekvencama.
Sadašnje aplikacije
urediCCDS skup podataka sastavni je dio projekta GENCODE označavanja gena[10] i koristi se kao standard za visokokvalitetno kodiranje definicije egzona u raznim poljima istraživanja, uključujući kliničke studije, velike epigenomske studije, egzomne projekte i dizajn egzonske sekvence. Zbog konsenzusne anotacije CCDS egzona nezavisnih grupa za anotaciju, egzomski projekti su posebno smatrali CCDS kodirajuće egzone pouzdanim ciljevima za nizvodna ispitivanja (npr. za detekciju jednonukleotidnih varijanti), a ovi egzoni korišteni su kao kodirajuća regija ciljeva u komercijalno dostupnim egzomskim setovima.[11]
Historija izdanja CCDS-a
urediVeličina CCDS skupova podataka nastavila je da se povećava, kako ažuriranjem računarskih zapisa genoma, koje integriraju nove skupove podataka dostavljene u Bazi podataka za međunarodnu saradnju o nukleotidnoj sekvenci (International Nucleotide Sequence Database Collaboration (INSDC), tako i tokom tekuće provjere aktivnosti koje dopunjuju ili poboljšavaju tu anotaciju. Slijedeća tabela sažima ključnu statistiku za svaku izradu CCDS-a, gdje su Javni CCDS ID-ovi svi oni koji nisu bili na pregledu ili na čekanju do ažuriranja ili povlačenja na datum objavljivanja.
Izdanje | Vrsta | Naziv sklopa | Broj javnih CCDS ID-ova | Broj ID-ova | Sadašnji podatak |
---|---|---|---|---|---|
1 | Homo sapiens | NCBI35 | 13,740 | 12,950 | Mar 14, 2007 |
2 | Mus musculus | MGSCv36 | 13,218 | 13,012 | Nov 28, 2007 |
3 | Homo sapiens | NCBI36 | 17,494 | 15,805 | Maj 1, 2008 |
4 | Mus musculus | MGSCv37 | 17, 082 | 16,888 | Jan 24, 2011 |
5 | Homo sapiens | NCBI36 | 19,393 | 17,053 | Sep 2, 2009 |
6 | Homo sapiens | GRCh37 | 22,912 | 18,174 | Apr 20, 2011 |
7 | Mus musculus | MGSCv37 | 21,874 | 19,507 | Avg 14, 2012 |
8 | Homo sapiens | GRCh37.p2 | 25,354 | 18,407 | Sep 6, 2011 |
9 | Homo sapiens | GRCh37.p5 | 26,254 | 18,474 | Okt 25, 2012 |
10 | Mus musculus | GRCm38 | 22,934 | 19,945 | Avg 5, 2013 |
11 | Homo sapiens | GRCh37.p9 | 27,377 | 18,535 | Apr 29, 2013 |
12 | Homo sapiens | GRCh37.p10 | 27,655 | 18,607 | Okt 24, 2013 |
13 | Mus musculus | GRCm38.p1 | 23,010 | 19,990 | Apr 7, 2014 |
14 | Homo sapiens | GRCh37.p13 | 28,649 | 18,673 | Nov 29, 2013 |
15 | Homo sapiens | GRCh37.p13 | 28,897 | 18,681 | Avg 7, 2014 |
16 | Mus musculus | GRCm38.p2 | 23,835 | 20,079 | Sep 10, 2014 |
17 | Homo sapiens | GRCh38 | 30,461 | 18,800 | Sep 10, 2014 |
18 | Homo sapiens | GRCh38.p2 | 31,371 | 18,826 | Maj 12, 2015 |
19 | Mus musculus | GRCm38.p3 | 24,834 | 20,215 | Juli 30, 2015 |
20 | Homo sapiens | GRCh38.p7 | 32,524 | 18,892 | Sep 8, 2016 |
21 | Mus musculus | GRCm38.p4 | 25,757 | 20,354 | Dec 8, 2016 |
Kompletna statistika izdanja može se naći na službenoj web stranici CCDS-a na njihovom sajtu Releases & Statistics .
Budući izgledi
urediDugoročni ciljevi uključuju dodavanje atributa koji pokazuju gdje je anotacija transkripta također identična (uključujući UTR) i ukazivanje na varijante prerade različitim UTR-ova koji imaju isti CCDS ID . Također se očekuje da će, kako potpuniji i kvalitetniji podaci o sekvencama genoma postaju dostupni za druge organizme, anotacije tih organizama možda biti u opsegu za predstavljanje CCDS-a.
Skup CCDS-a postat će cjelovitiji, kako se neovisne grupe provjerivača dogovore o slučajevima u kojima se u početku razlikuju, kako se javlja dodatna eksperimentalna provjera slabo podržanih gena i kako se metode automatskog bilježenja nastavljaju poboljšavati. Komunikacija između CCDS grupa za suradnju je u toku i riješit će razlike i identificirati usavršavanja između ciklusa ažuriranja CCDS-a. Očekuje se da će se ažuriranja ljudskih gena događati otprilike svakih šest mjeseci, a za miševe se izdaju svake godine.
Također pogledajte
urediReference
uredi- ^ a b c Harte, RA; Farrell, CM; Loveland, JE; Suner, MM; Wilming, L; Aken, B; Barrell, D; Frankish, A; Wallin, C; Searle, S; Diekhans, M; Harrow, J; Pruitt, KD (2012). "Tracking and coordinating an international curation effort for the CCDS project". Database. 2012: bas008. doi:10.1093/database/bas008. PMC 3308164. PMID 22434842.
- ^ a b Farrell, CM; O'Leary, NA; Harte, RA; Loveland, JE; Wilming, LG; Wallin, C; Diehans, M; Barrell, D; Searle, SM; Aken, B; Hiatt, SM; Frankish, A; Suner, MM; Rajput, B; Steward, CA; Brown, GR; Bennet, R; Murphy, M; Wu, W; Kay, MP; Hart, J; Rajan, J; Weber, J; Snow, C; Riddick, LD; Hunt, T; Webb, D; Thomas, M; Tamez, P; Rangwala, SH; McGarvey, KM; Pujar, S; Shkeda, A; Mudge, JM; Gonzale, JM; Gilbert, JG; Trevaion, SJ; Baetsch, R; Harrow, JL; Hubbard, T; Ostell, JM; Haussler, D; Pruitt, KD (2014). "Current status and new features of the Consensus Coding Sequence database". Nucleic Acids Res. 42 (D1): D865–D872. doi:10.1093/nar/gkt1059. PMC 3965069. PMID 24217909.
- ^ Alberts, B; Johnson, A; Lewis, J; Raff, M; Roberts, K; Walter, P (2002). Molecular Biology of the Cell 5th edn. New York: Garland Science.
- ^ Kozak, M (2002). "Pushing the limits of the scanning mechanism for initiation of translation". Gene. 299 (1–2): 1–34. doi:10.1016/S0378-1119(02)01056-9. PMC 7126118. PMID 12459250.
- ^ Ingolia, NT; Brar, GA; Rouskin, S; McGeachy, AM; Weissman, JS (2014). "Genome-wide Annotation and Quantitation of Translation by Ribosome Profiling". Curr. Protoc. Mol. Biol. Chapter 4: Unit–4.18. doi:10.1002/0471142727.mb0418s103. ISBN 9780471142720. PMC 3775365. PMID 23821443.
- ^ Calvo, SE; Pagliarni, DJ; Mootha, VK (2009). "Upstream open reading frames cause widespread reduction of protein expression and are polymorphic among humans" (PDF). Proc. Natl. Acad. Sci. U.S.A. 106 (18): 7507–12. Bibcode:2009PNAS..106.7507C. doi:10.1073/pnas.0810916106. PMC 2669787. PMID 19372376.
- ^ Silva, AL; Pereira, FJC; Morgado, A; Kong, J; Martins, R; Faustino, P; Liebhaber, SA; Romao, L (2006). "The canonical UPF1-dependent nonsense-mediated mRNA decay is inhibited in transcripts carrying a short open reading frame independent of sequence context". RNA. 12 (12): 2160–70. doi:10.1261/rna.201406. PMC 1664719. PMID 17077274.
- ^ Prakash, Tulika; Sharma, Vineet K.; Adati, Naoki; Ozawa, Ritsuko; Kumar, Naveen; Nishida, Yuichiro; Fujikake, Takayoshi; Takeda, Tadayuki; Taylor, Todd D.; Michalak, Pawel (12 October 2010). "Expression of Conjoined Genes: Another Mechanism for Gene Regulation in Eukaryotes". PLOS ONE. 5 (10): e13284. Bibcode:2010PLoSO...513284P. doi:10.1371/journal.pone.0013284. PMC 2953495. PMID 20967262.
- ^ Maglott, D.; Ostell, J.; Pruitt, K. D.; Tatusova, T. (28 November 2010). "Entrez Gene: gene-centered information at NCBI". Nucleic Acids Res. 39 (Database): D52–D57. doi:10.1093/nar/gkq1237. PMC 3013746. PMID 21115458.
- ^ Harrow, J.; Frankish, A.; Gonzalez, J. M.; Tapanari, E.; Diekhans, M.; Kokocinski, F.; Aken, B. L.; Barrell, D.; Zadissa, A.; Searle, S.; Barnes, I.; Bignell, A.; Boychenko, V.; Hunt, T.; Kay, M.; Mukherjee, G.; Rajan, J.; Despacio-Reyes, G.; Saunders, G.; Steward, C.; Harte, R.; Lin, M.; Howald, C.; Tanzer, A.; Derrien, T.; Chrast, J.; Walters, N.; Balasubramanian, S.; Pei, B.; Tress, M.; Rodriguez, J. M.; Ezkurdia, I.; van Baren, J.; Brent, M.; Haussler, D.; Kellis, M.; Valencia, A.; Reymond, A.; Gerstein, M.; Guigo, R.; Hubbard, T. J. (5 September 2012). "GENCODE: The reference human genome annotation for The ENCODE Project". Genome Res. 22 (9): 1760–1774. doi:10.1101/gr.135350.111. PMC 3431492. PMID 22955987.
- ^ Parla, Jennifer S; Iossifov, Ivan; Grabill, Ian; Spector, Mona S; Kramer, Melissa; McCombie, W Richard (2011). "A comparative analysis of exome capture". Genome Biol. 12 (9): R97. doi:10.1186/gb-2011-12-9-r97. PMC 3308060. PMID 21958622.