Academia.eduAcademia.edu

Otvoreni resursi i tehnologije za obradu srpskog jezika

2020, Zbornik radova sa konferencije Primena slobodnog softvera i otvorenog hardvera 2020 (PSSOH 2020)

https://doi.org/10.5281/zenodo.4113229

Otvorenost jezičkih resursa i alata je od velike važnosti za povećanje kvaliteta i brzine razvoja tehnologija za računarsku obradu prirodnih jezika. U ovom radu predstavljeni su otvoreni resursi za obradu srpskog jezika. Opisani su ručno anotirani korpusi, kao i širi spektar alata i računarskih modela, uključujući i veb servis koji omogućava njihovo jednostavno korišćenje.

Otvoreni resursi i tehnologije za obradu srpskog jezika Vuk Batanović1, Nikola Ljubešić2, Tanja Samardžić3, Maja Miličević Petrović4 1Inovacioni centar Elektrotehničkog fakulteta, Beograd, Srbija 2Institut Jožef Stefan, Ljubljana, Slovenija 3Univerzitet u Cirihu – URPP “Language and Space”, Cirih, Švajcarska 4Univerzitet u Beogradu – Filološki fakultet, Beograd, Srbija vuk.batanovic@ic.etf.bg.ac.rs, nikola.ljubesic@ijs.si, tanja.samardzic@uzh.ch, m.milicevic@fil.bg.ac.rs Rezime: Otvorenost jezičkih resursa i alata je od velike važnosti za povećanje kvaliteta i brzine razvoja tehnologija za računarsku obradu prirodnih jezika. U ovom radu predstavljeni su otvoreni resursi za obradu srpskog jezika. Opisani su ručno anotirani korpusi, kao i širi spektar alata i računarskih modela, uključujući i veb servis koji omogućava njihovo jednostavno korišćenje. Ostatak rada je strukturiran na sledeći način: najpre su prikazani anotirani korpusi tekstova, a nakon toga alati i modeli za računarsku obradu tekstova na srpskom jeziku. Na kraju su izloženi planovi vezani za pravce daljeg razvoja. Ključne reči: računarska lingvistika; korpusi tekstova; jezički alati; NLP; otvorena kultura. U ovom odeljku su opisani ručno i automatski anotirani korpusi tekstova na srpskom jeziku koji su javno dostupni. Najpre su predstavljeni ručno anotirani korpusi standardnog i nestandardnog jezika, zatim korpusi posebno anotirani za određenu problematiku, dok je na kraju opisan veb korpus srpskog jezika. Izrada mnogih anotiranih korpusa je koordinisana sa sličnim poduhvatima na drugim jezicima, pre svega na hrvatskom i slovenačkom. I. Uvod U poslednjih nekoliko godina došlo je do razvoja otvorenih, slobodno dostupnih resursa i tehnologija za računarsku obradu tekstova na srpskom jeziku, uključujući anotirane jezičke korpuse, alate za automatsku analizu i označavanje tekstova, kao i različite vrste modela za obradu prirodnih jezika (engl. natural language processing – NLP). Otvorenost i javna dostupnost omogućavaju veći stepen ponovljivosti rezultata NLP istraživanja, pospešuju saradnju istraživača i stimulišu zajedničko unapređivanje postojećih korpusa, alata i modela, umesto stalnog zasebnog pravljenja novih resursa istog tipa iz početka. Ova otvorenost je naročito važna u manjim jezicima poput srpskog, kod kojih se NLP istraživanjima bavi dosta ograničen krug naučnika i koji nisu od naročitog interesa za širu svetsku istraživačku zajednicu. Poseban doprinos promovisanju aktuelnosti i važnosti otvorenih jezičkih resursa za srpski i srodne jezike dao je projekat Regional Linguistic Data Initiative (ReLDI) [1], koji je doveo do nastanka većeg broja alata primenjivih na više južnoslovenskih jezika, kao i korpusa anotiranih korišćenjem standardizovane metodologije označavanja. U ovom radu su ukratko prikazani aktuelni otvoreni, slobodno dostupni jezički resursi koji se mogu koristiti za analizu i obradu tekstova na srpskom jeziku. To uključuje kako resurse koji su proistekli iz ReLDI projekta, tako i one koje su autori rada razvili naknadno ili nezavisno od pomenutog projekta. Pri tome, pod otvorenim resursima ili alatima se podrazumevaju oni koji su javno dostupni na određenom repozitorijumu ili sajtu i jasno objavljeni pod nekom od odgovarajućih slobodnih licenci kao što su Creative Commons, GPL, i sl. 1 http://nl.ijs.si/ME/V6/msd/html/msd-hbs.html II. Korpusi A. Ručno anotirani korpusi SETimes.SR korpus [2], [3], izgrađen na osnovu SETimes paralelnog korpusa novinskih članaka [4], predstavlja ručno anotirani korpus tekstova pisanih standardnim srpskim jezikom namenjen obučavanju i evaluaciji računarskih modela na većem broju problema iz obrade prirodnih jezika. On sadrži 163 dokumenta podeljena na 3891 rečenicu, odnosno 86 726 tokena. SETimes.SR korpus je anotiran u pogledu segmentacije (na tokene, rečenice i dokumente), morfosintaktičkih oznaka, lema, sintaksnih dependencija kao i imenovanih entiteta. Korišćene morfosintaktičke oznake su u skladu sa MULTEXT-East v6 standardom za srpsko-hrvatski makrojezik 1. Sintaksne dependencije su označene prema specifikaciji Universal Dependency v2 (UDv2) 2. Oznake imenovanih entiteta su date u IOB2 formatu, uz razlikovanje pet tipova entiteta — osobe (PER), prisvojni pridevi izvedeni od imena (DERIV-PER), lokacije (LOC), organizacije (ORG) i razno (MISC). SETimes.SR je anotiran po uzoru na i uz pomoć modela obučenih na SETimes.HR [5] korpusu na hrvatskom jeziku, koji sada predstavlja deo većeg hr500k korpusa [6], [7]. ReLDI-NormTagNER-sr korpus [8], [9] je ručno označen skup tvitova napisanih na srpskom jeziku. Njegova primarna namena jeste prilagođavanje računarskih modela fenomenima koji su česti u nestandardnom jeziku koji se koristi na internetu. Korpus 2 http://universaldependencies.org se sastoji od 3748 tvitova koji sadrže ukupno 91 781 token. Slojevi anotacije prisutni u korpusu su sledeći: tokenizacija i podela na rečenice, normalizacija na nivou reči, morfosintaktička anotacija (na osnovu standarda MULTEXT-East i Universal Dependencies), lematizacija i imenovani entiteti (sa istih 5 tipova entiteta kao i u SETimes.SR korpusu). Ovaj korpus je izgrađen uporedo sa sličnim resursom za hrvatski jezik – ReLDINormTagNER-hr [10] – a oba su oblikovana po uzoru na slovenački korpus Janes-Tag [11], [12]. III. Alati i računarski modeli B. Specijalizovani ručno anotirani korpusi A. Segmentacija i tokenizacija Na srpskom jeziku su javno dostupni ručno anotirani specijalizovani korpusi koji se odnose na semantičke probleme određivanja semantičke sličnosti, detekcije parafraza i analize sentimenta. Za problematiku određivanja semantičke sličnosti kratkih tekstova izrađen je korpus STS.news.sr [13]. On sadrži 1192 para rečenica iz novinskog domena anotirana u pogledu stepena semantičke sličnosti između rečenica u paru. Ocene sličnosti su granulirane, na skali od 0 do 5, i dobijene su usrednjavanjem individualnih ocena petoro anotatora. STS.news.sr je kreiran korišćenjem sadržaja ranijeg korpusa parafraza paraphrase.sr [14], [15], koji sadrži samo binarne ocene sličnosti, ručno zadate od strane jednog anotatora, koje govore da li se rečenice u okviru para mogu smatrati parafrazama ili ne. Za probleme analize sentimenta tekstova na srpskom predstavljena su dva anotirana korpusa tekstova iz domena filmova – jedan na nivou dužih dokumenata, i drugi na nivou kratkih komentara. SerbMR [16] je izbalansiran korpus filmskih recenzija koji je dostupan u varijantama sa dve klase polarnosti sentimenta (pozitivna i negativna) i sa tri klase polarnosti (pozitivna, neutralna i negativna). Dvoklasna varijanta SerbMR-2C sadrži ukupno 1682 dokumenta, a troklasna SerbMR-3C ukupno 2523, odnosno 841 dokument po klasi. Oznake sentimenta u ovom skupu podataka su dobijene automatski, konverzijom numeričkih ocena pridruženih svakoj recenziji od strane njenog autora. SentiComments.SR korpus kratkih tekstova na srpskom jeziku [17] je ručno anotiran oznakama sentimenta koje omogućavaju više nivoa interpretacije. Zbog toga se ovaj korpus može upotrebiti u obučavanju i evaluaciji klasifikatora na većem broju užih problema u analizi sentimenta, uključujući određivanje polarnosti, određivanje subjektivnosti, detekciju sarkazma, itd. SentiComments.SR sadrži 3490 kratkih komentara i zajednički je anotiran od strane dvoje anotatora. Uobičajen prvi korak u obradi tekstualnog sadržaja jeste njegova segmentacija i tokenizacija, tj. podela dokumenata na rečenice, i rečenica na elementarne jedinice – tokene – koji predstavljaju reči, brojeve, znakove interpunkcije, itd. Za tokenizaciju srpskog, hrvatskog, slovenačkog, makedonskog i bugarskog jezika može se koristiti ReLDI tokenizator, koji sadrži odvojene modele za standardne i nestandardne tekstove na svim navedenim jezicima. ReLDI tokenizator pruža izlaz u vertikalizovanom, CoNLL-U formatu, koji predstavlja ulazni format podataka za alate za vraćanje dijakritičkih oznaka, morfosintaktičko označavanje i lematizaciju, sintaktičko parsiranje i označavanje imenovanih entiteta. C. Veb korpus Veb korpus srWaC [18], [19] predstavlja najveći javno dostupni korpus tekstova opšteg tipa na srpskom jeziku. U aktuelnoj verziji 1.1, on sadrži 555 miliona tokena i preko 25 miliona rečenica raspoređenih u oko 1,3 miliona dokumenata. Ovaj korpus je izgrađen prikupljanjem celokupnog sadržaja sa .rs domena, nakon čega je sprovedeno uklanjanje duplikata na nivou pasusa, vraćanje dijakritičkih oznaka u tekstovima, kao i automatsko morfosintaktičko označavanje i lematizacija. U ovom odeljku su opisani javno dostupni alati i modeli koji se mogu koristiti za rešavanje konkretnih NLP zadataka u obradi tekstova na srpskom jeziku. Oni su izloženi po rastućem nivou obrade, počevši od osnovnih alata za podelu i korekciju tekstova, preko alata za morfosintaktičku i sintaktičku obradu, do alata i modela vezanih za semantičke probleme. Na kraju je opisan ReLDIanno veb servis [20] u okviru koga je integrisan veliki broj navedenih alata. B. Vraćanje dijakritičkih oznaka U obradi latiničnih tekstova na srpskom jeziku prikupljenih sa društvenih mreža, veb foruma, komentara posetilaca na različitim sajtovima, itd. često se susreće odsustvo dijakritičkih oznaka, tj. pisanje tekstova engleskom/ASCII latinicom, bez slova č, ć, š, đ, ž i dž. Nedostatak dijakritika može znatno otežati pravilnu automatsku obradu tekstova, jer dovodi do ortografske istovetnosti različitih, često morfosintaktički i/ili semantički veoma udaljenih reči (npr. glagol sesti i redni broj šesti se svode na isti oblik). Stoga je preporučljivo pre dalje obrade sprovesti vraćanje nedostajućih dijakritičkih oznaka, za šta se može iskoristiti statistički alat za redijakritizaciju [21], koji, pored srpskog, podržava i hrvatski i slovenački jezik. C. Morfosintaktičko označavanje Morfosintaktičko označavanje, tj. automatsko dodeljivanje morfosintaktičkog opisa svakom tokenu u rečenici, što uključuje informacije o vrstama reči, predstavlja važan korak u NLP obradi jer su ovi opisi vredan ulazni podatak za mnoge složenije zadatke. Trenutno najbolje javno dostupno rešenje za morfosintaktičko označavanje srpskog jezika je skup alata centra znanja za južnoslovenske jezike CLASSLA [22], koji predstavlja izmenjenu i proširenu verziju Stanza biblioteke [23]. Unutar CLASSLA paketa, za srpski jezik su dostupni model za standardni jezik [24] i model prilagođen nestandardnom jeziku [25]. Posebna snaga ovog i svih drugih modela za nestandardne tekstove u okviru CLASSLA paketa je što su izrazito otporni na izostavljanje dijakritičkih znakova u tekstu. Alat generiše morfosintaktičke opise po MULTEXT-East standardu, ali i po sve popularnijem Universal Dependencies standardu, po kojem se opis sastoji od univerzalne vrste reči i univerzalnih morfosintaktičkih odlika. D. Morfološka normalizacija Morfološka normalizacija tekstova omogućava svođenje različitih oblika reči na istu zajedničku osnovu i moguće ju je sprovesti pomoću stemera ili lematizatora. U okviru paketa SCStemmers [16], napisanog u programskom jeziku Java, reimplementirana su četiri algoritma stemovanja koja su primenjiva na srpski jezik: • Optimalni i pohlepni stemer Kešelja i Šipke [26] • Unapređenje njihovog pohlepnog stemera koje je predstavio Milošević [27] • Stemer za hrvatski jezik Ljubešića i Pandžića, koji predstavlja unapređenje pristupa iz [28] Iako do sada nije sprovedena uporedna intrinzička evaluacija ovih algoritama, ekstrinzičke evaluacije na semantičkim problemima određivanja semantičke sličnosti kratkih tekstova i analize sentimenta [13], [17], [29], [30] konzistentno pokazuju da je stemer Ljubešića i Pandžića obično najbolji izbor. Trenutno najtačnije otvoreno rešenje za lematizaciju srpskog jezika je lematizator koji je deo CLASSLA lanca alata [22]. On koristi flektivni leksikon srLex [31], [32] za sve oblike koji su pokriveni leksikonom. Za ostale oblike alat koristi seq2seq model koji na temelju oblika i njegovog morfosintaktičkog opisa oblikuje lemu. Kao i za morfosintaktičko označavanje, i za lematizaciju su dostupni modeli za standardne [33] i za nestandardne tekstove [34]. E. Sintaktičko parsiranje Sintaktičko parsiranje predstavlja automatsku izradu sintaksnog stabla rečenice kroz obeležavanje sintaktičkih veza između tokena. Iako se parsiranje ređe koristi kao pretprocesiranje za zadatke višeg nivoa, ono je veoma bitno za potrebe lingvističke analize teksta, a može se upotrebiti i za analizu i interpretaciju rada računarskih modela. Od 2017. godine, srpski jezik je kroz anotaciju korpusa SETimes.SR [35] prisutan u međunarodnom projektu standardizacije označavanja sintaktičkih dependencija Universal Dependencies [36], pri čemu se anotirani resursi u UD repozitorijumima regularno ažuriraju. Već pomenuti CLASSLA paket takođe pruža mogućnost i za sintaktičko parsiranje tekstova na srpskom. Za razliku od morfosintaktičkog označavanja i lematizacije, u parsiranju se koristi isti model za obradu i standardnih i nestandardnih tekstova [37]. F. Označavanje imenovanih entiteta Kao i u slučaju morfosintaktičkog i sintaktičkog označavanja i lematizacije, CLASSLA lanac alata [22] postiže trenutno najbolje rezultate i na problemu označavanja imenovanih entiteta. Pri tome, alat razlikuje istih pet tipova entiteta označenih u SETimes.SR i ReLDINormTagNER-sr korpusima, koji su i korišćeni pri obučavanju modela, i koristi isti IOB2 format oznaka. Isto kao i kod rešenja za morfosintaktičko označavanje i lematizaciju, alat omogućuje obradu standardnih [38] i nestandardnih tekstova [39]. G. Određivanje semantičke sličnosti kratkih tekstova Za dobijanje granuliranih ocena semantičke sličnosti kratkih tekstova dostupan je paket STSFineGrain [13] u okviru koga je implementirano više modela za rešavanje ovog problema, koji se mogu obučiti i evaluirati korišćenjem STS.news.sr ili nekog sličnog korpusa na drugom jeziku. To uključuje kako osnovne modele zasnovane na leksičkom preklapanju tekstova i/ili sličnosti vektora značenja reči u njima, tako i nešto naprednije modele koji se oslanjaju i na informacije o frekventnosti reči [15], vrsti reči [40] ili na oba tipa informacija [13]. H. ReLDIanno veb servis ReLDIanno veb servis [20] omogućava jednostavno korišćenje jezičkih alata za srpski, hrvatski i slovenački jezik, uključujući alate za tokenizaciju, morfosintaktičku analizu, lematizaciju, sintaktičko parsiranje i označavanje imenovanih entiteta. Servisima se može pristupiti putem veb aplikacije ili programski, kroz biblioteku za programski jezik Python. Unutar veb aplikacije omogućena je obrada različitih formata fajlova, kao što su TXT, DOCX, PDF, i ZIP arhive. Alati koji se trenutno nalaze u pozadini servisa predstavljaju, uz izuzetak tokenizatora, stariju generaciju otvorenih alata za obradu srpskog jezika koji su razvijeni unutar projekta ReLDI [1]. IV. Zaključak U ovom radu su ukratko izloženi aktuelni otvoreni, slobodno dostupni anotirani korpusi, kao i alati i modeli za računarsku obradu tekstova na srpskom jeziku. U planu je dalje proširivanje skupa otvorenih resursa novim vrstama anotiranih podataka, poput anotacija koreferentnih odnosa. Pored toga, u skoroj budućnosti se planira i zamena modela korišćenih u okviru veb servisa ReLDIanno novijim verzijama iz CLASSLA paketa [22]. Na kraju, u toku su i prvi eksperimenti sa velikim jezičkim modelima poput BERT-a [41], koji će verovatno predstavljati sledeći korak u razvoju računarske obrade srpskog jezika. Zahvalnica Autori su zahvalni velikom broju saradnika i anotatora bez čije pomoći izrada navedenih otvorenih resursa ne bi bila moguća. Rad na ovoj publikaciji delimično je podržan od strane Ministarstva prosvete, nauke i tehnološkog razvoja, i sproveden uz podršku Fonda za nauku Republike Srbije, projekat 6526093, VI-AVANTES. Dostupnost podataka: Otvoreni resursi su dostupni preko sajta ReLDI centra za jezičke podatke (https://reldi.spur.uzh.ch/hr-sr/resursi-i-alati) i CLARIN.SI repozitorijuma (https://www.clarin.si). Veb servis ReLDIanno (http://www.clarin.si/services/web) je dostupan preko sajta CLASSLA centra (https://www.clarin.si/info/k-centre), dok je novi CLASSLA paket alata dostupan preko GitHub-a (https://github.com/clarinsi/classla-stanfordnlp) i pypi usluge (https://pypi.org/project/classla). Literatura [1] T. Samardžić, N. Ljubešić, and M. Miličević, “Regional Linguistic Data Initiative (ReLDI),” in Proceedings of the Fifth Workshop on Balto-Slavic Natural Language Processing (BSNLP 2015), 2015, pp. 40–42 [2] V. Batanović, N. Ljubešić, T. Samardžić, and T. Erjavec, “Training corpus SETimes.SR 1.0.” Slovenian language resource repository CLARIN.SI, 2018, [Online]. Available: http://hdl.handle.net/11356/1200 [3] [4] V. Batanović, N. Ljubešić, and T. Samardžić, “SETimes.SR – A Reference Training Corpus of Serbian,” in Proceedings of the Conference on Language Technologies & Digital Humanities 2018 (JT‑DH 2018), 2018, pp. 11–17 F. M. Tyers and M. S. Alperen, “South-East European Times : A parallel corpus of Balkan languages,” in Proceedings of the Workshop on Exploitation of Multilingual Resources and Tools for Central and (South) Eastern European Languages, LREC 2010, 2010, pp. 49–53 [5] Ž. Agić and N. Ljubešić, “The SETIMES.HR Linguistically Annotated Corpus of Croatian,” in Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC 2014), 2014, pp. 1724–1727 [6] N. Ljubešić, Ž. Agić, F. Klubička, V. Batanović, and T. Erjavec, “hr500k – A Reference Training Corpus of Croatian,” in Proceedings of the Conference on Language Technologies & Digital Humanities 2018 (JT‑DH 2018), 2018, pp. 154–161 [7] N. Ljubešić, Ž. Agić, F. Klubička, V. Batanović, and T. Erjavec, “Training corpus hr500k 1.0.” Slovenian language resource repository CLARIN.SI, 2018, [Online]. Available: http://hdl.handle.net/11356/1183 N. Ljubešić and M. Miličević, “Tviterasi, tviteraši or twitteraši? Producing and analysing a normalised dataset of Croatian and Serbian tweets,” Slov. 2.0 Empirical, Appl. Interdiscip. Res., vol. 4, no. 2, pp. 156–188, 2016, doi: 10.4312/slo2.0.2016.2.156-188 [8] [9] N. Ljubešić, T. Erjavec, V. Batanović, M. Miličević, and T. Samardžić, “Serbian Twitter training corpus ReLDINormTagNER-sr 2.1.” Slovenian language resource repository CLARIN.SI, 2019, [Online]. Available: http://hdl.handle.net/11356/1240 [10] N. Ljubešić, T. Erjavec, V. Batanović, M. Miličević, and T. Samardžić, “Croatian Twitter training corpus ReLDINormTagNER-hr 2.1.” Slovenian language resource repository CLARIN.SI, 2019, [Online]. Available: http://hdl.handle.net/11356/1241 [11] D. Fišer, N. Ljubešić, and T. Erjavec, “The Janes project: language resources and tools for Slovene user generated content,” Lang. Resour. Eval., vol. 54, no. 1, pp. 223–246, 2020, doi: 10.1007/s10579-018-9425-z [12] T. Erjavec et al., “CMC training corpus Janes-Tag 2.1.” Slovenian language resource repository CLARIN.SI, 2019, [Online]. Available: http://hdl.handle.net/11356/1238 [13] V. Batanović, M. Cvetanović, and B. Nikolić, “Fine-grained Semantic Textual Similarity for Serbian,” in Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018), 2018, pp. 1370–1378 [14] V. Batanović, B. Furlan, and B. Nikolić, “Softverski sistem za određivanje semantičke sličnosti kratkih tekstova na srpskom jeziku,” Zbornik radova sa 19. telekomunikacionog foruma (TELFOR 2011), Nov. 2011, pp. 1249–1252, doi: 10.1109/TELFOR.2011.6143778 [15] B. Furlan, V. Batanović, and B. Nikolić, “Semantic similarity of short texts in languages with a deficient natural language processing support,” Decis. Support Syst., vol. 55, no. 3, pp. 710–719, Feb. 2013, doi: 10.1016/j.dss.2013.02.002 [16] V. Batanović, B. Nikolić, and M. Milosavljević, “Reliable Baselines for Sentiment Analysis in Resource-Limited Languages: The Serbian Movie Review Dataset,” in Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), 2016, pp. 2688–2696 [17] V. Batanović, “Metodologija rešavanja semantičkih problema u obradi kratkih tekstova napisanih na prirodnim jezicima sa ograničenim resursima,” Univerzitet u Beogradu, 2020 [18] N. Ljubešić and F. Klubička, “{bs,hr,sr}WaC –Web corpora of Bosnian, Croatian and Serbian,” in Proceedings of the Ninth Web as Corpus Workshop (WaC-9), 2014, pp. 29–35 [19] N. Ljubešić and F. Klubička, “Serbian web corpus srWaC 1.1.” Slovenian language resource repository CLARIN.SI, 2016, [Online]. Available: http://hdl.handle.net/11356/1063 [20] N. Ljubešić et al., “Easily Accessible Language Technologies for Slovene , Croatian and Serbian,” in Proceedings of the Conference on Language Technologies & Digital Humanities, 2016, pp. 120– 124 [21] N. Ljubešić, T. Erjavec, and D. Fišer, “Corpus-Based Diacritic Restoration for South Slavic Languages,” in Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), 2016, pp. 3612–3616 [22] N. Ljubešić and K. Dobrovoljc, “What does Neural Bring? Analysing Improvements in Morphosyntactic Annotation and Lemmatisation of Slovenian, Croatian and Serbian,” in Proceedings of the Seventh Workshop on Balto-Slavic Natural Language Processing (BSNLP 2019), 2019, pp. 29–34 [23] P. Qi, Y. Zhang, Y. Zhang, J. Bolton, and C. D. Manning, “Stanza: A Python Natural Language Processing Toolkit for Many Human Languages,” in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations (ACL 2020), 2020, pp. 101–108, doi: 10.18653/v1/2020.acldemos.14 [24] N. Ljubešić, “The CLASSLA-StanfordNLP model for morphosyntactic annotation of standard Serbian 1.1.” Slovenian language resource repository CLARIN.SI, 2020, [Online]. Available: http://hdl.handle.net/11356/1349 [25] N. Ljubešić and V. Štefanec, “The CLASSLA-StanfordNLP model for morphosyntactic annotation of non-standard Serbian 1.0.” Slovenian language resource repository CLARIN.SI, 2020, [Online]. Available: http://hdl.handle.net/11356/1332 [26] V. Kešelj and D. Šipka, “Pristup izgradnji stemera i lematizora za jezike s bogatom fleksijom i oskudnim resursima zasnovan na obuhvatanju sufiksa,” INFOTEKA - časopis za Bibl. i Inform., vol. 9, no. 1–2, pp. 21–31, 2008 [27] N. Milošević, “Stemmer for Serbian language.” arXiv 1209.4471, 2012 [28] N. Ljubešić, D. Boras, and O. Kubelka, “Retrieving Information in Croatian: Building a Simple and Efficient Rule-Based Stemmer,” in INFuture2007: Digital Information and Heritage, Zagreb, Croatia: Department for Information Sciences, Faculty of Humanities and Social Sciences, 2007, pp. 313–320 [29] V. Batanović and B. Nikolić, “Sentiment Classification of Documents in Serbian: The Effects of Morphological Normalization and Word Embeddings,” Telfor J., vol. 9, no. 2, pp. 104–109, 2017, doi: 10.5937/telfor1702104B [30] V. Batanović and B. Nikolić, “Sentiment Classification of Documents in Serbian: The Effects of Morphological Normalization,” in Proceedings of the 24th Telecommunications Forum (TELFOR 2016), 2016, pp. 889–892, doi: 10.1109/TELFOR.2016.7818923 [31] N. Ljubešić, F. Klubička, Ž. Agić, and I.-P. Jazbec, “New Inflectional Lexicons and Training Corpora for Improved Morphosyntactic Annotation of Croatian and Serbian,” in Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), 2016, pp. 4264–4270 [32] N. Ljubešić, “Inflectional lexicon srLex 1.3.” Slovenian language resource repository CLARIN.SI, 2019, [Online]. Available: http://hdl.handle.net/11356/1233 [33] N. Ljubešić, “The CLASSLA-StanfordNLP model for lemmatisation of standard Serbian 1.2.” Slovenian language resource repository CLARIN.SI, 2020, [Online]. Available: http://hdl.handle.net/11356/1355 [34] N. Ljubešić, “The CLASSLA-StanfordNLP model for lemmatisation of non-standard Serbian 1.1.” Slovenian language resource repository CLARIN.SI, 2020, [Online]. Available: http://hdl.handle.net/11356/1351 [35] T. Samardžić, M. Starović, Ž. Agić, and N. Ljubešić, “Universal Dependencies for Serbian in Comparison with Croatian and Other Slavic Languages,” in Proceedings of the Sixth Workshop on BaltoSlavic Natural Language Processing (BSNLP 2017), 2017, pp. 39– 44 [36] D. Zeman et al., “CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies,” in Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, 2018, pp. 1–21, doi: 10.18653/v1/K182001 [37] N. Ljubešić, “The CLASSLA-StanfordNLP model for UD dependency parsing of standard Serbian.” Slovenian language resource repository CLARIN.SI, 2019, [Online]. Available: http://hdl.handle.net/11356/1260 [38] N. Ljubešić, “The CLASSLA-StanfordNLP model for named entity recognition of standard Serbian 1.0.” Slovenian language resource repository CLARIN.SI, 2020, [Online]. Available: http://hdl.handle.net/11356/1323 [39] N. Ljubešić, “The CLASSLA-StanfordNLP model for named entity recognition of non-standard Serbian 1.0.” Slovenian language resource repository CLARIN.SI, 2020, [Online]. Available: http://hdl.handle.net/11356/1341 [40] V. Batanović and D. Bojić, “Using Part-of-Speech Tags as DeepSyntax Indicators in Determining Short-Text Semantic Similarity,” Comput. Sci. Inf. Syst., vol. 12, no. 1, pp. 1–31, 2015, doi: 10.2298/CSIS131127082B [41] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2019), 2019, pp. 4171–4186, doi: 10.18653/v1/N19-1423