DNR sekoskaita
Šį straipsnį ar jo skyrių reikėtų peržiūrėti. Būtina ištaisyti gramatines klaidas, patikrinti rašybą, skyrybą, stilių ir pan. Ištaisę pastebėtas klaidas, ištrinkite šį pranešimą. |
Šį puslapį ar jo dalį reikia sutvarkyti pagal Vikipedijos standartus – vidinės nuorodos, šaltiniai, kategorijos Jei galite, sutvarkykite. |
DNR sekoskaita (taip pat vadinama DNR sekvenavimu) – metodų visuma, skirta DNR molekulių sekų nustatymui.
DNR sekoskaitai pagrindą padėjo Frederiko Sendžerio tyrimai. Pirmieji sekoskaitos metodai pasirodė apie 1970 m.[1]
Naujos kartos sekoskaita
[redaguoti | redaguoti vikitekstą]Naujos kartos sekoskaita arba didelio našumo sekoskaita – terminas, apibūdinantis daugelį modernių DNR sekoskaitos technologijų, kurios revoliucionizavo genomikos ir molekulinės biologijos tyrimus, nes mokslininkams leido nuskaityti didelius kiekius DNR ar RNR sekų daug greičiau ir pigiau, nei anksčiau naudota Sendžerio sekoskaita. Dauguma šių naujųjų technologijų yra paremtos sekoskaita sintezės metu (SSM), kai tiksli nukleotidinė seka yra nustatoma DNR polimerazei vykdant naujos grandinės sintezę pagal šabloninę tiriamo mėginio grandinę. DNR seka nustatoma įjungiant fluoroforais modifikuotus nukleotidus arba detektuojant DNR sintezės metu atsiskyrusius šalutinius reakcijos produktus: vandenilio jonus ar pirofosfato molekules. Naujos kartos sekoskaitą nuo anksčiau naudotų sekų nustatymo metodų labiausiai išskiria didelis paralelizmas (vienu metu vykdoma milijonai sekoskaitos reakcijų) ir automatizavimas, kuriuo kartu siekiama visus procesus (bibliotekos paruošimą, kloninį padauginimą ir SSM ir kt.) sujungti viename sekoskaitos įrenginyje.
Lietuvoje naujos kartos sekoskaitos įranga jau sėkmingai naudojama:
- „Thermo Fisher Scientific Baltics“ mokslinių tyrimų centre (Illumina MiSeq, IonTorrent PGM, Roche GS Junior);
- Vilniaus universiteto ligoninės Santaros klinikose (Illumina MiSeq, IonTorrent PGM, ABI Solid);
- Vilniaus universiteto Gamtos mokslų fakultete (Roche GS Junior).
Naujos kartos sekoskaitos, kaip ir bet kuriuo kitu didelio našumo metodu sugeneruotuose, duomenyse yra gausu technologinių ir biologinių veiksnių sukeltų tendencingumų (angl. bias). Šie tendencingumai gali smarkiai neigiamai įtakoti detalią duomenų analizę, todėl labai svarbu žinoti, kaip jų išvengti ar pašalinti. Tik kai tendencingumai yra tiksliai identifikuojami ir patikimai pakoreguojami, duomenys gali tapti reikšmingu moksliniu ar klinikiniu įrankiu. Tendencingumų apstu visose NKS stadijose: signalo apdorojimo, bazių priskyrimo, nuskaitymų lygiavimo ir tolimesnės analizės žingsniuose. Juos dažniausiai sukeliantys veiksniai yra DNR fragmentacijoje, bibliotekų paruošime, padauginime ir sekoskaitos procese naudojami fermentai, neefektyviai blokuojančiomis ir aptikimo žymėmis modifikuoti dNTP, netobuli detekcijos įrenginiai bei analizės algoritmai. Didžiąją dalį visų NKS tendencingumų galima suskirstyti į dvi grupes:
- perdengimų tendencingumas – nukrypimas nuo visam genomui (egzomui, kt.) tolygaus nuskaitymų skaičiaus;
- klaidų dažnio tendencingumas (angl. bias in base-call error rates) – nukrypimas nuo visam genomui tolygaus bazių neatitikimo, insecijų ir delecijų dažnio.
Signalo apdorojimas
[redaguoti | redaguoti vikitekstą]Signalo apdorojimas – procesas, kurio metu tikslinis signalas atskiriamas nuo foninio signalo. Šis pirminis žingsnis, dėl savo technologinio sudėtingumo įtakoja visą tolesnę analizės eigą ir yra pirminė klaidų dažnio didėjimo sekoskaitos eigoje tendencingumo priežastis. Iššūkius su kuriais susiduriama signalo apdorojimo metu vaizdžiai galima atskleisti IonTorrent sekoskaitos pavyzdžiu (1 pav.). Vykstant sekoskaitai sintezės metu, matuojamas srovės pokytis mikrograndyno šulinėliuose, kai į DNR grandinę įjungus nukleotidą atsiskiria vandenilio jonas. Nustatomas srovės pokytis yra ypatingai mažas ir jį labai įtakoja tėkmėse (angl. flows) naudojamų reagentų neefektyvus pašalinimas, bei ne 100 % efektyvumu vykstanti DNR sintezė, dėl ko kyla fazinis triukšmas, kuris kiekviename sekoskaitos cikle vis stiprėja.
Bazių priskyrimas
[redaguoti | redaguoti vikitekstą]Bazių priskyrimas (angl. base calling) – tai procesas, kurio metu apdoroto signalo kreivėms priskiriamos nukleotidinės bazės (fizinio signalo vertimas į DNR seką) ir įvertinamas kiekvienos jų priskyrimo tikslumas, kuris apibūdinamas Phred kokybės įverčiu (taip pat vadinamas quality ar Q įverčiu), kuris dažniausiai būna nuo 10 iki 50. Phred įvertis (Q) apskaičiuojamas pagal formulę Q=-10log10P, kur P yra klaidingo priskyrimo tikimybė (pavyzdžiui Phred įvertis = 10, parodo, kad netinkamo bazės priskyrimo tikimybė yra 1 iš 10, o tai reiškia, kad bazių priskyrimo tikslumas siekia 90%). Q30 ilga laiką buvo laikomas etaloniniu kokybės rodikliu naujos kartos sekoskaitoje, bet nuolat tobulėjant „šlapiajai“ laboratorinei daliai ir duomenų analizės algoritmams, šiuo metu jau pasiekiamas ir >Q40 dydis. Bazių priskyrimas yra kertinis sekoskaitos procese, nes nuo jo stipriai priklauso sekoskaitos duomenų tikslumas. Tobulinami bazių priskyrimo algoritmai sumažina didelį perdengimų skaičiaus poreikį, o tuo pačiu ir sekoskaitos kainą. Bazių priskyrimui, be standartinių sekoskaitos gamintojų siūlomų algoritmų, yra kuriama ir daug kitų, kurie turėtų pagerinti bazių priskyrimo tikslumą ir jiems reikėtų mažesnių skaičiavimo pajėgumų. Tai sudėtingas procesas, kuriame turi būti atsižvelgiama į daugelį kenkiančių efektų (2 pav.), tokių kaip:
- Nevienalyčiai spiečiai (angl. clusters) – vienoje Illumina sekoskaitos celės vietoje yra padaugintas dviejų ar daugiau skirtingų DNR molekulių mišinys, kuris lemia sulietą signalą. IonTorrent sekoskaitoje šis efektas kyla dėl nevienalyte DNR padengtų sferinių dalelių (angl. Ion Sphere particles).
- Fazinis triukšmas – dažnai pasitaiko, jog ne prie visų spiečiuje ar ant sferinės dalėlės kloniškai padaugintų DNR grandinių sekoskaitos ciklo metu įjungiamas naujas nukleotidas, ar dėl reagentų netobulumo (pvz., neefektyviai užblokuoti nukleotidai Illumina sekoskaitoje) įjungiamas daugiau nei vienas nukleotidas. Taip atsiranda vadinamieji pofaziniai (atsiliekantys) ir priešfaziniai (pirmaujantys) efektai, kurie kaupiasi sekoskaitos eigoje ir vis labiau iškraipo signalą.
- Signalo sumišimas (angl. cross-talk, būdingas fluorescentinėmis žymėmis paremtoje sekoskaitoje) – optinės detekcijos apribojimų sukuriamas neigiamas efektas, atsirandantis, nes 4 įjungiamų nukleotidų fluoroforų emisijos spektrai dalinai persikloja.
- Signalo nykimas (angl. signal decay) – antrinis efektas, atsirandantis dėl signalo sumišimo (angl cross-talk) taisymo paeiliui nuskaitant pasikartojančius dinukleotidus.
- Kt.
Daugelio šių efektų indėlis sekoskaitos tikslumui yra tendencingas, t. y. jis priklauso nuo sekvenuojamos DNR sudėties ir didėja sekoskaitos eigoje, todėl sekoskaitos tikslumas mažėja didėjant sekoskaitos ciklui (3 pav.).
Bazių priskyrimo algoritmų kokybei stebėti generuojami grafikai, kuriuose demonstruojama Q įverčių koreliacija su empiriniais Q įverčiais bei empirinių Q įverčių priklausomybės nuo sekoskaitos ciklo/nuskaityto fragmento pozicijos grafikai (4 pav.).
Nuskaitymų analizė
[redaguoti | redaguoti vikitekstą]Surikiavus milijonus NKS nuskaitymų (angl. read allignment), prasideda duomenų analizės žingsniai, tokie kaip genomo surinkimas (angl. genome assembly) ar surinktų skirtingų fragmentų kiekybinis įvertinimas, kuriuose ir atsiskleidžia perdengimo tendencingumo daroma žala. Perdengimo tolygumas yra ypač svarbus RNR sekoskaitoje (RNA-Seq), chromosomų imunoprecipitacijos sekoskaitoje (ChIP-Seq) ar kopijų skaičiaus nustatymui dedikuotuose sekoskaitos eksperimentuose, kur reikalingas tikslus kiekybinis įvertinimas. NKS generuojami duomenys smarkiai nukrypsta nuo teorinio tolygaus nuskaitymų pasiskirstymo. Ypač dideliu tendencingumu pasižymi GC turtingų sekų, kurios sudaro ir daugybę žmogaus genome esančių promotorių, sekoskaita (5 pav.). Prastai perdengtose genomų srityse tampa sudėtinga nustatyti VNP (angl. SNP), taip pat šios sritys yra kritiškos De novo genomų surinkimui, nes gaunama tik daug trumpų sąrankų (angl. contig). Literatūroje plačiai aprašomi GC sudėties, sudėtingų sričių, genų ilgio (RNR sekoskaita) bei nuo DNR fragmentacijos ar sekoskaitos sistemai specifinių adapterių ligavimo priklausantys NKS tendencingumai bei būdai jiems stebėti ir išvengti.
GC tendencingumas
[redaguoti | redaguoti vikitekstą]Ryškiausias perdengimo tendencingumas stebimas GC ar AT ekstremaliai turtingose genomų srityse, palindrominėse sekose ar invertuotuose pasikartojimuose. Prie šio tendencingumo atsiradimo gali prisidėti „šlapiosios“ stadijos: DNR fragmentacija, adapterių ligavimas, bibliotekų padauginimas PGR metodu, kloninis šabloninių molekulių (angl. template) padauginimas tilteliniu (Illumina) ar padauginimo emulsijose (IonTorrent) būdu bei sekoskaita sintezės metu; ar sekoskaitos duomenų apdirbimo kompiuterinės stadijos: signalo apdorojimo ir bazių priskyrimo.
Paprasčiausias būdas įvertinti genomo perdengimo tendencingumus yra grafikas, vaizduojantis kintančios GC sudėties sričių (dažniausiai bendru susitarimu pasirenkamas 100 bazių srities ilgis (kitaip – lango dydis)) santykinį perdengimą (6 pav.). Yra rekomenduojama lango dydį pasirinkti lygų vidutiniam sekvenuojamų fragmentų ilgiui ir naudoti slenkantį per pusę vidutinio fragmentų ilgio langą. Ši rekomendacija nėra visiems priimtina, nes sukelia sunkumų lyginant duomenis tarpusavyje ir įveda galimybę manipuliuoti duomenimis. Santykinis perdengimas, tai tam tikros srities perdengimas padalintas iš vidutinio viso genomo perdengimo. Netendencingų sekoskaitos rezultatų neįtakoja fragmentų GC sudėtis ir todėl GC tendencingumų grafike ties vienetu gaunama tiesi santykinio perdengimo linija. Kadangi gamtoje nepasitaiko organizmų, kurių genomų GC sudėtis būtų pasiskirsčiusi per visą intervalą, tai sekoskaitos GC tendencingumas dažnai įvertinamas nuskaitant 3 genomus: vieną labai AT turtingą (pvz. Plasmodium falciparum 19%GC ar Staphylococcus aureus 33% GC), neutralią (Escherichia coli 51% GC) ir GC turtingą (Rhodobacter sphaeroides 69%GC, Rhodopseudomonas palustris 65%GC). Visi GC tendencingumui įvertinti naudojami mikroorganizmai turi turėti kokybiškai paruoštus prilyginamuosius genomus (angl. reference genome).
Perdengimo tendencingumui įvertinti Ross et al. siūlo sekoskaitos duomenyse analizuoti 6 skirtingus empiriškai parinktus motyvus (7 pav.):
- GC≤10%. 200 bazių ilgio regionas, kurio vidurinių 100 bazių GC sudėtis ≤10%.
- GC≥75%. 200 bazių ilgio regionas, kurio vidurinių 100 bazių GC sudėtis ≥10%.
- GC≥85%. 200 bazių ilgio regionas, kurio vidurinių 100 bazių GC sudėtis ≥85%.
- (AT)15. 130 bazių ilgio regionas, kurio vidurinės 30 bazių yra pasikartojantys AT dinukleotidai.
- G|C≥80%, 130 bazių regionas, kurio vidurinės 30 bazių yra 80% G arba 80% C (ilgi G ar C homopolimerai).
- „Blogųjų“ žmogaus promotorių regionai. Tai 1000 promotorių sekų, pasižyminčių aukšta GC sudėtimi ir žemu santykiniu perdengimu, nustatytų analizuojant žmogaus genomo sekoskaitos duomenis.
4 ir 5 motyvai pasirinkti išanalizavus, jog daugiausia trūkių genomų sujungimuose yra būtent dėl šių sudėtingų sekų.
Genomo GC sudėtis atskleidžia ne tik perdengimų tendencingumą, bet ir klaidų tendencingumą (8 pav.). Pastebimi nedideli bazių neatitikimo (klaidingų bazių) padidėjimai GC ir AT turtingose srityse gali būti įtakojami „šlapiosios“ eksperimentinės dalies, nes yra parodyta, jog DNR polimerazių tikslumas ekstremaliose sekose gali skirtis iki dešimties kartų.
Perdengimo tendencingumą galima įvertinti ir skaitine reikšme. Tokiu atveju sekvenuojamas genomas padalinamas į langus, kurių dydis lygus vidutiniam fragmentų ilgiui. Kiekvienas tokių langų atidedamas išsibarstymo grafike (9 pav.), atsižvelgiant į jo normalizuotą perdengimą. Mažiausių kvadratų metodu gautos tiesės nuolinkio koeficientas (angl. slope) ir nusako GC tendencingumą.
NKS, dėl didelio našumo ir mažos kainos tapo pagrindiniu De novo genomų surinkimo įrankiu. Dėl NKS tendencingumų, o labiausiai GC tendencingumo, De novo genomų surinkimas neretai tampa iššūkiu, nes žemo perdengimo regionai surinkimo algoritmų gali būti interpretuojami kaip sekoskaitos klaidų rezultatas ir sekos išmetamos iš analizės, o dideliu santykiniu perdengimu pasižymintys regionai gali būti interpretuojami kaip pasikartojantys elementai. Dėl neigiamų tendencingumų efektų genomai surenkami labiau fragmentuotai ir mažiau tiksliai. Pastebima, kad net ypač dideli genomų perdengimai negali kompensuoti įvairių tendencingumų įtakos.
Chen Y et al. pademonstravo būda, kuriuo, panaudojant kompiuterines simuliacijas, galima įvertinti GC tendencingumo įtaką De novo genomų surinkimui, stebint genomo surinkimo baigtinumo statistinį matą – N50. Šis matas parodo, kokio ilgio yra trumpiausia sąranka (angl. contig), kai 50% visų genomo bazių yra to ar ilgesnio ilgio sąrankose. Surinkimai buvo simuliuojami naudojant 100 bazių ilgio nuskaitymus ir vidutinį padengimo gylį nuo 50 iki 2000 kartų. Naudojant visas aštuonias autorių pasirinktas surinkimo programas (angl. assemblers) stebima, kad stiprus teigiamas GC tendencingumas reikšmingai sumažina N50 dydį (10 pav.). GC tendencingumas gali būti kompensuojamas didesniu perdengimu, o didžiausias kompensavimas stebimas perdengimą padidinus nuo 50 iki 100X. Šie rezultatai demonstruoja, kad genomo surinkimui, kai nėra stebimas GC tendencingumas, pilnai užtenka 50X perdengimo, o didesnis perdengimas surinkimo baigtinumo nepadidina. Esant stipriam GC tendencingumui, optimalus dažniausiai yra 100X perdengimas, bet net su juo nėra pasiekiami tokie N50 dydžiai, kurie gaunami, kai genomas perdengiamas 50X nesant GC tendencingumo.
DNR fragmentavimo tendencingumas
[redaguoti | redaguoti vikitekstą]Didesni ar mažesni DNR fragmentavimo tendencingumai stebimi naudojant plačiai taikomus NKS fermentinius (DNazės, transpozazės, restrikcijos endonukleazių mišiniai) ir mechaninius (sonifikacija, nebulizacija, hidrodinaminis skaldymas ir kt.) DNR fragmentavimo metodus. Šie tendencingumai gali sumažinti tam tikrų genomo sričių padengimus, nes DNR jose, dėl nepalankios bazinės sudėties, bus suskaldyta į sekoskaitos sistemai per ilgus ar per trumpus fragmentus, kurie iš analizės bus pašalinti. Fragmentavimo tendencingumus paprasta stebėti sekų vizualizacijos įrankiais (pLogo, bLogo, kt.) generuojamuose grafikuose. Grafikų generavime naudojamos nuskaitymų pradžios ir galo pozicijos prilygintos prie šabloninio (angl. reference) genomo (11 pav.).
Sekoskaitos sistemai specifinių adapterių ligavimo tendencingumas
[redaguoti | redaguoti vikitekstą]Pats populiariausias NK sekoskaitos sistemai specifinių DNR adaptorinių sekų pridėjimo būdas išlieka ligavimas. Adapteriai dažniausiai liguojami AT lipniais ar bukais galais. Yra pastebėta, kad buko ligavimo tendencingumas yra daug mažesnis už AT ligavimo tendencingumą (12 pav.), bet, kadangi DNR ligavimo tendencingumas yra pakankamai mažas palyginti su kitais sekoskaitos tendencingumais, todėl yra svarbus tik tais atvejais, kai dirbama su mažais sekų perdengimais. Ligavimo tendencingumą (taip pat ir DNR fragmentavimo tendencingumą) stebėti patogu grafikuose, kuriuose išreikštas kiekvieno nukleotido pasikartojimo dažnis nuskaitymų pradžioje ir gale (dažniausiai pateikiamos ne ilgesnės nei 10 bazių sritys, kurios, manoma, gali kontaktuoti su fermentu ir įtakoti reakcijos eigą).
Labai reikšmingas ligavimo tendencingumas yra stebimas ruošiant sekoskaitai mažų RNR (sRNR) bibliotekas. Prie sRNR adapteriai liguojami panaudojant RNR ligazes, kurios rodo tendencingumą ne RNR sekai, o adapterių ir sRNR antrinei struktūrai (13 pav.). Ligavimas efektyviausias tada, kai po reakcijos gauta RNR sudaro stabilias antrines struktūras. Sorefan K. et al. NKS būdu nuskaitė bibliotekoms ruošti ekvimoliariniais kiekiais panaudotas degeneruotos sekos trumpas RNR ir gautus kiekybinius rezultatus palyginęs su bioinformatiniais metodais nustatyta nuskaitytų RNR antrinių struktūrų minimalia laisvąja energija (MLE), pastebėjo ryškią koreliaciją tarp sekų dažnio NKS ir MLE reikšmės.
Dėl RNR ligavimo tendencingumo NKS duomenis reikia atsargiai naudoti sRNR kiekybiniam įvertinimui. Tikimasi, jog pašalinus RNR ligavimo tendencingumą, NKS būdu bus galima atrasti daug naujų mažųjų RNR.
Šaltiniai
[redaguoti | redaguoti vikitekstą]- Chen Y et al. Effects of GC bias in next-generation-sequencing data on de novo genomes assembly. PLoSONE. 2013;8(4): e6856.
- Das S and Vikalo H. Base calling for high-throughput shortread sequencing: dynamic programming solutions. BMC Bioinformatics. 2013;14:129.
- Green B et al. Insertion site preference of Mu, Tn5, and Tn7 transposons. Mobile DNA. 2012:3:3.
- Ledergerber C and Dessimoz C. Base-calling for next-generation sequencing platforms. Brief. Bioinform. 2011;12:489-497.
- Renauld G et al. freeIbis: an efficient basecaller with calibrated quality scores for Illumina sequencers. Bioinformatics. 2013;29(9):1208-9.
- Ross et al. Characterizing and measuring bias in sequencing data. Genome Biology 2013;14:R51. Archyvuota kopija 2014-01-25 iš Wayback Machine projekto.
- Seguin-Orlando et al. Ligation bias in Illumina next-generation DNA libraries: implications for sequencing ancient genomes. PLoSONE. 2013;8(10): e78575.
- Sorefan K et al. Reducing ligation bias of small RNAs in libraries for next generation sequencing. Silence 2012;3(4).
- Taub MA et al. Bias detection and correction in RNA-Sequencing data. BMC Bioinformatics 2011;12(290).
- Taub MA et al. Overcoming bias and systematic errors in next generation sequencing data. Genome medicine 2010;2(87).
- Zhuang F et al. Structural bias in T4 RNA ligase-mediated 3’-adapter ligation. Nucleic acids research 2012;40(7): e54.
- ↑ „Ray Wu Faculty Profile“. Cornell University. Suarchyvuotas originalas 2009-03-04.