Parallel Korpuslarni Yaratish Asoslari
Parallel Korpuslarni Yaratish Asoslari
Parallel Korpuslarni Yaratish Asoslari
2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz
M.A. Abjalova. PARALLEL KORPUSLARNI YARATISH ASOSLARI
Annotatsiya: Parallel korpuslar til korpuslarning maqsadiga va tillariga ko‘ra alohida turi
bo‘lib, uning bazasida ikki til yoxud bir tilning ikki xil xususiyatiga xos matnlar jamlangan bo‘ladi.
Shu bois uning nomi ko‘plikda qo‘llaniladi, ya’ni parallel korpus emas, parallel korpuslar. Mazkur
maqolada parallel korpuslarning kelib chiqishi va ulardan foydalanilish omillari, parallel
korpuslarning ahamiyati borasida so‘z yuritildi.
Kalit so‘zlar: parallel korpuslar, bimatn, ikki til, asliy matn, tarjima matni.
Annotation: Parallel corpora are a special type of language corpora, depending on their
purpose and languages, which are based on two languages or texts characteristic of two different
characteristics of one language. Therefore, its name is used in the plural, that is, parallel corpora,
not parallel corpus. In this article, the factors of the origin and use of parallel corpora, the meaning
of parallel corpora were considered.
Keywords: parallel corpora, bitext, two languages, original text, translation text.
Ikki tilli Kanadada tarjima masalasi hamisha muammoli bo‘lib kelgan. Shu bois kanadalik
tadqiqotchilar tarjima matnlaridagi tarjima qilinadigan fragmentlargina olingan matnlardan
foydalanishni taklif qilishgan [Копотев, 2014; 130]. Mana shu tarzda bir tildagi matnning turli
tildagi tarjimalari mavjud matnlar korpusi yuzaga kelgan.
Rozettsk toshi – PK uchun dastlabki misol. U er.avv. II asrda yaratilgan bo‘lib, ushbu tosh
o‘rta qismidagi demotik bir matn qadimgi Misr iyerogliflari (toshning tepa qismi) va qadimgi
yunon yozuvi (toshning pastki qismida)da o‘z aksini topgan.
37 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz
Parallel korpuslar yohud tarjimalar korpusi (ingl. parallel / translation corpus) – bu asl
tildagi matnlar va uning boshqa tildagi tarjimasi mavjud korpus. Qoidaga ko‘ra, bunday korpuslar
faqat ikkita tilda tayyorlanadi, shu bois undagi o‘zaro mutanosib matnlar bitekst ham deyiladi.
Bimatn (bitekst) – asliy til matni va uning boshqa til(lar)dagi tarjimasi mavjud matnlar.
Parallel korpuslar – partekst – bimatn – bitekst.
Bitekstni yaratish g‘oyasi Brayan Xarris (Brian Harris)ga tegishli, u 1988-yilda bitekstni
yaratish konseptsiyasi bo‘yicha tadqiqot yozgan va keyinchalik Monreal universiteti (Université
de Montréal)ning bir guruh olimlari tomonidan rivojlantirilgan va konsepsiya RALI (Recherche
appliquée en linguistique informatique или Applied Research in Computational Linguistics –
«Прикладные исследования в вычислительной лингвистике» – “Hisoblash tilshunosligida
amaliy tadqiqotlar) deb nom olgan. Guruh tabiiy matnni qayta ishlashni o‘rgangan dasturchilar va
tilshunoslardan iborat bo‘lgan. Bitext konsepsiyasining taniqli targ‘ibotchilari Per Isabelle (Pierre
Isabelle) va Klod Bédard (Claude Bédard)dir.
Parallel korpuslar, asosan, ma’lum bir kontekstdagi turli til tuzilmalari, iboralar va
so‘zlarning tarjimasini ko‘rish uchun ishlatiladi.
Parallel korpuslar matnlarining tarjima yo‘nalishi bo‘yicha turlari mavjud:
✓ bir yoʻnalishli (masalan, inglizcha matn oʻzbek tiliga tarjima qilingan)
✓ ikki tomonlama (masalan, inglizcha matn oʻzbek tiliga tarjima qilingan va aksincha,
ya’ni ingliz ↔oʻzbek)
✓ koʻp yoʻnalishli (inglizcha matn oʻzbek, nemis, fransuz va boshqalarga tarjima
qilingan)
Shu bois PK bir tilli (agar bir tilning bir nechta variantlari, shevalari qiyoslansa), ikki tilli
va ko‘p tilli bo‘ladi.
38 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz
Korpusdagi tegishli tarjima birliklari bog‘langan, ya’ni matnni uning tarjimasi bilan
moslashtirish – bu matnning muayyan qismi tarjima matnining qaysi qismiga mos kelishini
ko‘rsatishdir.
Masalan:
40 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz
Parallel korpuslar, asosan, quyidagi strukturaga bo‘linadi (rus va xitoy tillarining tematik
korpusi strukturasi asosida tushuntirilmoqda):
41 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz
Tarjima jarayonida bunday tizim tarjima qilingan gap yoki uning parchasini asl parallel
matnlar qatorida topishga harakat qiladi. Agar u asl matnlardan topilgan bo‘lsa, unda tizim bunday
gapning tarjimasi yoki uning parchasini tarjima qilingan matnlar qatoridan tanlaydi.
Muvofiqlashtirish dasturlari:
• GIZA++ alignment tool (1999)
• Uplug – tools for processing parallel corpora (2003)
• An implementation of the Gale and Church sentence alignment algorithm (2005)
• The Hunalign sentence aligner (2005)
• Champollion (2006)
• mALIGNa (2008–2020)
• Gargantua sentence aligner (2010)
• Bleualign – machine translation based sentence alignment (2010)
• YASA (2013)
42 |
«KOMPYUTER LINGVISTIKASINING ZAMONAVIY TEXNOLOGIYALARI - CTCL.2023»
mavzusida vazirlik miqyosidagi ilmiy-amaliy anjuman
www.myscience.uz
Foydalanilgan adabiyotlar:
1. Abjalova M. Korpus lingvistikasi. [Matn]: uslubiy qo‘llanma / M.A. Abjalova. –Toshkent:
Nodirabegim, 2022. – 110 b.
2. Захаров В., Богданова С. Корпусная лингвистика: учебник. 3-е изд., перераб. – СПб.:
Изд-во С.-Петерб. ун-та, 2020. – 234 с.
3. Зубов А. В., Зубова И. И. Информационные технологии в лингвистике: учеб. пос. М.:
Издательский центр «Академия», 2004.
4. Копотев М. Введение в корпусную лингвистику. – Прага, 2014. – 230 с.
5. http://nevmenandr.net/slovo/
43 |