Parallel Korpuslarni Yaratish Asoslari

Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.

2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz
M.A. Abjalova. PARALLEL KORPUSLARNI YARATISH ASOSLARI

PARALLEL KORPUSLARNI YARATISH ASOSLARI

Abjalova Manzura Abdurashetovna


Filologiya fanlari doktori (DSc),
Alisher Navoiy nomidagi Toshkent davlat
oʻzbek tili va adabiyoti universiteti dotsenti
E-mail: abjalova.manzura@gmail.com

Annotatsiya: Parallel korpuslar til korpuslarning maqsadiga va tillariga ko‘ra alohida turi
bo‘lib, uning bazasida ikki til yoxud bir tilning ikki xil xususiyatiga xos matnlar jamlangan bo‘ladi.
Shu bois uning nomi ko‘plikda qo‘llaniladi, ya’ni parallel korpus emas, parallel korpuslar. Mazkur
maqolada parallel korpuslarning kelib chiqishi va ulardan foydalanilish omillari, parallel
korpuslarning ahamiyati borasida so‘z yuritildi.
Kalit so‘zlar: parallel korpuslar, bimatn, ikki til, asliy matn, tarjima matni.

Annotation: Parallel corpora are a special type of language corpora, depending on their
purpose and languages, which are based on two languages or texts characteristic of two different
characteristics of one language. Therefore, its name is used in the plural, that is, parallel corpora,
not parallel corpus. In this article, the factors of the origin and use of parallel corpora, the meaning
of parallel corpora were considered.
Keywords: parallel corpora, bitext, two languages, original text, translation text.

Аннотация: Параллельные корпуса – это особый тип языковых корпусов, в


зависимости от их назначения и языков, которые основаны на двух языках или текстах,
характерных для двух различных характеристик одного языка. Поэтому его название
используется во множественном числе, то есть параллельные корпуса, а не параллельный
корпус. В этой статье были рассмотрены факторы происхождения и использования
параллельных корпусов, значение параллельных корпусов.
Ключевые слова: параллельные корпуса, битекст, два языка, оригинальный текст,
текст перевода.

Ikki tilli Kanadada tarjima masalasi hamisha muammoli bo‘lib kelgan. Shu bois kanadalik
tadqiqotchilar tarjima matnlaridagi tarjima qilinadigan fragmentlargina olingan matnlardan
foydalanishni taklif qilishgan [Копотев, 2014; 130]. Mana shu tarzda bir tildagi matnning turli
tildagi tarjimalari mavjud matnlar korpusi yuzaga kelgan.
Rozettsk toshi – PK uchun dastlabki misol. U er.avv. II asrda yaratilgan bo‘lib, ushbu tosh
o‘rta qismidagi demotik bir matn qadimgi Misr iyerogliflari (toshning tepa qismi) va qadimgi
yunon yozuvi (toshning pastki qismida)da o‘z aksini topgan.

37 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz

Rozettsk toshi (er.avv. II asr)

Parallel korpuslar yohud tarjimalar korpusi (ingl. parallel / translation corpus) – bu asl
tildagi matnlar va uning boshqa tildagi tarjimasi mavjud korpus. Qoidaga ko‘ra, bunday korpuslar
faqat ikkita tilda tayyorlanadi, shu bois undagi o‘zaro mutanosib matnlar bitekst ham deyiladi.
Bimatn (bitekst) – asliy til matni va uning boshqa til(lar)dagi tarjimasi mavjud matnlar.
Parallel korpuslar – partekst – bimatn – bitekst.
Bitekstni yaratish g‘oyasi Brayan Xarris (Brian Harris)ga tegishli, u 1988-yilda bitekstni
yaratish konseptsiyasi bo‘yicha tadqiqot yozgan va keyinchalik Monreal universiteti (Université
de Montréal)ning bir guruh olimlari tomonidan rivojlantirilgan va konsepsiya RALI (Recherche
appliquée en linguistique informatique или Applied Research in Computational Linguistics –
«Прикладные исследования в вычислительной лингвистике» – “Hisoblash tilshunosligida
amaliy tadqiqotlar) deb nom olgan. Guruh tabiiy matnni qayta ishlashni o‘rgangan dasturchilar va
tilshunoslardan iborat bo‘lgan. Bitext konsepsiyasining taniqli targ‘ibotchilari Per Isabelle (Pierre
Isabelle) va Klod Bédard (Claude Bédard)dir.
Parallel korpuslar, asosan, ma’lum bir kontekstdagi turli til tuzilmalari, iboralar va
so‘zlarning tarjimasini ko‘rish uchun ishlatiladi.
Parallel korpuslar matnlarining tarjima yo‘nalishi bo‘yicha turlari mavjud:
✓ bir yoʻnalishli (masalan, inglizcha matn oʻzbek tiliga tarjima qilingan)
✓ ikki tomonlama (masalan, inglizcha matn oʻzbek tiliga tarjima qilingan va aksincha,
ya’ni ingliz ↔oʻzbek)
✓ koʻp yoʻnalishli (inglizcha matn oʻzbek, nemis, fransuz va boshqalarga tarjima
qilingan)
Shu bois PK bir tilli (agar bir tilning bir nechta variantlari, shevalari qiyoslansa), ikki tilli
va ko‘p tilli bo‘ladi.

Parallellik mezoniga ko‘ra, korpuslar ikkita asosiy turga bo‘linadi:

38 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz

1) haqiqiy parallel korpuslar (translation corpora) – muayyan tilda yozilgan ko‘plab


asl matnlar va ushbu matnlarning bir yoki bir nechta boshqa tillarga tarjima qilingan matnlari
mavjud korpuslar.
2) qiyosiy korpuslar (comparable corpora) – matnlari biron bir belgi asosida
birlashtirilgan korpuslar. Bunday korpuslarda, masalan, o‘zbek va ingliz tillaridagi muayyan
mavzu doirasidagi matnlar (bir xil tematik maydon, bitta tilning dialektlari, mintaqaviy variantlari,
masalan, o‘zbek tili ona tili va o‘zbek tili chet tili va boshqalar) o‘z aksini topadi.
Ikkala turdagi korpuslar ikki tilli va ko‘p tilli terminologik lug‘atlarni tuzishda,
shuningdek, tillarni qiyosiy o‘rganishda (leksikologiya, grammatika, stilistika, dialektologiya,
tarjimashunoslik va boshq.) samarali tarjima usullarini, shu jumladan, mashina tarjimasi
tizimlarini ishlab chiqish uchun ishlatiladi.
Birinchi turdagi parallel korpuslarni tayyorlash va ularni qayta ishlash dasturlarini ishlab
chiqishda moslashtirish (alignment) – asl matn bilan tarjima matnlari fragmentlari o‘rtasidagi
muvofiqlikni o‘rnatish muammosi yuzaga keladi. Ushbu muammoni hal qilish uchun matnlarni
avtomatik ravishda to‘g‘rilashning turli usullari qo‘llaniladi: jumlalar bo‘yicha (jadval. 4.2),
klauzlar (grammatik tuzilmalar) bo‘yicha, so‘z birikmalari va so‘zlar [Захаров, Богданова, 2020;
61].
Ta’kidlash joizki, bugungi kunda mashina tarjimasida so‘zma-so‘z tarjima usulidan voz
kechilgan bo‘lib, ushbu usul hatto an’anaviy tarjima jarayonida ham o‘zini oqlamagan. Hatto asl
matndagi katta bir xatboshi bir necha gap bilan tarjima matnda o‘z mazmunini topgan. Shu bois
parallel korpuslarda ham tarjimalar jarayonida jumlama-jumla moslashish bo‘lmasligi mumkin.
Shu jihatni e’tiborga olib, Zubovalar darsligida asl va tarjima matnlarida gaplarni to‘g‘rilashning
6 xil ehtimoliy muvofiqliklari uchrashi ta’kidlanadi. Ular quyidagilar:
1) asl matndagi bitta gap aynan bitta gap bilan tarjima qilinadi;
2) ikkita gap bitta gap bilan tarjima qilinadi;
3) asl matndagi ikkita gap bitta gapga tenglashtirilib tarjima qilnai;
4) ikkita gap bitta gap bilan tarjima qilinadi, ammo gaplarning ichki chegarasi asliy
matndagi bilan tarjima matndagi gaplarga mos kelmaydi;
5) asl matndagi gap tarjima qilinmaydi, chunki mazmunan buning hojati bo‘lmaydi;
6) tarjima matnidagi gap asliy matnda bo‘lmasligi mumkin [Зубов, Зубова 2004].
Tarjima jarayoni nozik ish hisoblanadi. Asliy matndagi mazmun tarjima matnida o‘z
ifodasini topishi kerak. Muayyan qo‘shimcha boshqa tilda bir necha qo‘shimcha yoki predloglarga
mos kelishi mumkin. Masalan, -ning qaratqich kelishigi ingliz tilida ’s va of predlogi bilan, -ga, -
gacha, uchun kabi grammatik ifodalar to predlogi yordamida tarjima qilinishi mumkin. Bunday
klauzlar bilan birga so‘zlarda ham shunday muammo uchraydi. Masalan, ingliz tilidagi like so‘zi
yoqtirmoq va kabi, -dek, o‘xshab birliklarning tarjimasi bo‘lib keladi.
PKni yaratish uchun asliy til va uning tarjimasining mavjudligi yetarli emas. Asosiy masala
asliy tildagi fragmentning tarjima tilda o‘z ifodasini topishi hisoblanadi. Mana shu maqsadda
moslashtirish (ingl. alignment) jarayoni qo‘llaniladi. Natijada parallel matnlardagi bir xil
fragmentlar bir-biriga qiyosan taqdim etiladi [Abjalova, 2022].
Muvofiqlashtirishning quyidagi turlari mavjud:
– so‘zma-so‘z muvofiqlashtirish (word alignment) – eng ideal, ammo eng katta muammo
tillardagi leksemalar, frazemalar, so‘zshakllari har doim ham o‘z muqobiliga ega bo‘lavermaydi.
Dastlabki mashina tarjimalari so‘zma-so‘z tarjimani amalga oshirgan.
39 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz

– gaplarni muvofiqlashtirish (sentence alignment) – nisbatan samarali usul.


– abzas bo‘yicha muvofiqlashtirish (paragrapf alignment).
Muvofiqlashtirish masalasi bilan birga yana bir muammo ko‘ndalang bo‘ladi:
bimatnlarning o‘zaro mos bo‘lmay qolishi. Tarjimonlar senzuraga yo‘l qo‘ymaslik, matnlarni
qisqartirish, bir qancha gapni tarjimada bitta gap bilan ifodalash, tarjimaga ijodiy yondashish yoki
psixologik omillar sabab mazmunni chiqarib bera olmaslik kabi sabablar tarjima matnidagi
mazmunning original matn mazmuniga mos tushmasligi mumkin.
Shunisi aniqki, PK matnni qanday tarjima qilishni o‘rgatmaydi, balki tarjimadagi o‘zaro
mosliklarni ko‘rsatadi, ya’ni muayyan leksema, so‘z shakl yoki grammatik formaga boshqa tilda
unga muvofiqlashtirilgan birlik konkordansda taqdim etiladi.
Matnlarni muvofiqlashtirishning bir qancha dasturlari mavjud. Ular muayyan uzunlikdagi
gaplarni avtomatik ravishda o‘zaro qiyoslaydi, matnni paragraflarga bo‘ladi, tinish belgilarini
tahlil qiladi, lug‘atlar bilan muvofiqlashtiradi va boshq. Ko‘p hollarda ushbu dasturlar dialog
rejimida yoki avtomatik moslashtirish natijalarini tahrirlashdan keyin inson-mashina holatida
qo‘llaniladi. Bunday dasturlarga misol tariqasida quyidagilarni aytish mumkin: Humaling, Abbyy
Aligner, Trados, Winalign, Wordfast tools, Giza++ va boshq.
Kelajakda PKdagi eng asosiy masala parallel lingvistik izoh (teg, razmetka)larning
muvofiqlashishi hisoblanadi. Bunda turli tillardagi grammatik va leksik muvofiqliklar avtomat
tarzda topiladi.
“Слова о полку Игореве” asarining rus tiliga yuzdan ortiq tarjimasi, ikki yuzdan ortiq
boshqa tillarga, jumladan, o‘zbek tiliga ham tarjimasi mavjud [http://nevmenandr.net/slovo/].
Ushbu asar boshqa tillarga gap muvofiqligi bo‘yicha tarjima qilingan. Shu bois gapdagi ayrim
so‘zlar boshqa so‘zlar bilan o‘z ifodasiga ega bo‘lgan. Masalan, «растекашется мыслiю по
древу» yoyiq birikmasidagi мысль so‘zi соловей, мысль, векша, белка kabi tarjimaga ega
bo‘lgan [Копотев, 2014; 134].

Korpusdagi tegishli tarjima birliklari bog‘langan, ya’ni matnni uning tarjimasi bilan
moslashtirish – bu matnning muayyan qismi tarjima matnining qaysi qismiga mos kelishini
ko‘rsatishdir.
Masalan:

40 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz

Parallel korpuslar, asosan, quyidagi strukturaga bo‘linadi (rus va xitoy tillarining tematik
korpusi strukturasi asosida tushuntirilmoqda):

Rus va xitoy tillarining tematik matnlari korpusi

Parallel korpuslar (PK) Qiyosiy korpus (QK)

rus tilidagi xitoy tilidagi xitoy tilidagi


original matnlar tarjima matnlar original matnlar

PK matnlari yordamida katta hajmdagi ma’lumotlarga ega bo‘lish mumkin. Ular


quyidagilar bilan belgilanadi:
– ikki tilli va ko‘p tilli tarjima lug‘atlari yaratish;
– mashina tarjimasi tizimlari lug‘atlarini yaratish va to‘ldirish mumkin;
– kontekstni kompyuter yordamida tahlil qilish orqali ko‘p ma’noli so‘zning kontekstual
bir ma’nosini qoldirish, bunda kontekst uzunligi bo‘yicha gapdan kengroq bo‘lishi mumkin;
– matnning terminologik va frazeologik birliklarini tarjima qilish;
– semantik maydonlar va terminologik tizimlarni formallantirish;
– tarjima universallarini o‘rganish;
– kompyuter xotirasida turli darajalarda bir-biriga mos keladigan asliy til korpuslari
matnlari va ularning tarjimalarini to‘plash orqali tarjima xotirasiga ega yangi mashina tarjima
tizimlari doirasida to‘liq avtomatik tarjimani amalga oshirish.

41 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz

Tarjima jarayonida bunday tizim tarjima qilingan gap yoki uning parchasini asl parallel
matnlar qatorida topishga harakat qiladi. Agar u asl matnlardan topilgan bo‘lsa, unda tizim bunday
gapning tarjimasi yoki uning parchasini tarjima qilingan matnlar qatoridan tanlaydi.

Parallel korpuslarga namunalar:


• Glosbe: https://glosbe.com/
• Linguee: https://www.linguee.ru/
• MyMemory: https://mymemory.translated.net
• Opus: https://www.opus.lingfil.uu.se
• Reverso: https://www.context.reverso.net
• TAUS Data Cloud: https://datamarketplace.taus.net/search?s=54&t=740
• «Слова о полку Игореве» http://nevmenandr.net/slovo
• The JRC-Acquis Multilingual Parallel Corpus of the total body of European Union (EU)
law: Acquis Communautaire with 231 language pairs.[1]
• European Parliament Proceedings Parallel Corpus 1996–2011
• The Opus project aims at collecting freely available parallel corpora
• Japanese-English Bilingual Corpus of Wikipedia's Kyoto Articles
• COMPARA – Portuguese/English parallel corpora
• TERMSEARCH – English/Russian/French parallel corpora (Major international
treaties, conventions, agreements, etc.
• TradooIT – English/French/Spanish – Free Online tools
• Nunavut Hansard – English/Inuktitut parallel corpus
• ParaSol – A parallel corpus of Slavic and other languages
• Glosbe: Multilanguage parallel corpora with online search interface
• InterCorp: A multilingual parallel corpus 40 languages aligned with Czech, online
search interface
• myCAT – Olanto, concordancer (open source AGPL) with online search on JCR and
UNO corpus
• TAUS, with online search interface.
• linguatools multilingual parallel corpora, online search interface.
• EUR-Lex Corpus – corpus built up of the EUR-Lex database consists of European
Union law and other public documents of the European Union
• Language Grid – Multilingual service platform that includes parallel text services

Muvofiqlashtirish dasturlari:
• GIZA++ alignment tool (1999)
• Uplug – tools for processing parallel corpora (2003)
• An implementation of the Gale and Church sentence alignment algorithm (2005)
• The Hunalign sentence aligner (2005)
• Champollion (2006)
• mALIGNa (2008–2020)
• Gargantua sentence aligner (2010)
• Bleualign – machine translation based sentence alignment (2010)
• YASA (2013)
42 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz

• Hierarchicalalignment tool (HAT) (2018)


• Vecalign sentence alignment algorithm (2019)
• Web Alignment Tool at University of Grenoble

Foydalanilgan adabiyotlar:
1. Abjalova M. Korpus lingvistikasi. [Matn]: uslubiy qo‘llanma / M.A. Abjalova. –Toshkent:
Nodirabegim, 2022. – 110 b.
2. Захаров В., Богданова С. Корпусная лингвистика: учебник. 3-е изд., перераб. – СПб.:
Изд-во С.-Петерб. ун-та, 2020. – 234 с.
3. Зубов А. В., Зубова И. И. Информационные технологии в лингвистике: учеб. пос. М.:
Издательский центр «Академия», 2004.
4. Копотев М. Введение в корпусную лингвистику. – Прага, 2014. – 230 с.
5. http://nevmenandr.net/slovo/

43 |

You might also like