বাক্যাত্মক পদপরিচয়

কোনো প্রাকৃতিক ভাষা বা কোনো কম্পিউটার ভাষার কোনো অক্ষরমালা (string) বা কোনো বাক্যগঠন সংক্রান্ত বিশ্লেষণ করা কে বাক্যাত্মক পদপরিচয়(syntactic parsing বা কেবল parsing বা syntactic analysis) বলা হয়।

'Parsing' পদটি ল্যাটিন ভাষার 'pars' শব্দ থেকে এসেছে।^[১]

এ পদটির ভাষাবিজ্ঞান এবং কম্পিউটার বিজ্ঞানের বিভিন্ন শাখায় ভিন্ন ভিন্ন অর্থ বোঝায়ে।

ঐতিহ্যগত ভাবে বাক্যাত্মক পদপরিচয় প্রায় শব্দ বা বাক্যর প্রকৃত অর্থ বোঝার্‌ জন্য করা হয় এবং এটি করার জন্য প্রায় বাক্যচিত্রণের (sentence diagram) ব্যবহার হয়। এটিতে সাধরণত ব্যাকরণাত্মক পদ যেমন 'কর্তা' এবং 'কর্ম' কে গুরুত্ব দেওযা হয়।

গণনামূলক ভাষাবিজ্ঞানে এই পদটিকে কম্পিউটার দ্বারা কোনো বাক্য বা প্রতীকসমূহকে বিশ্লেষণ করা এবং পদবিশ্লিষ্ট লতা ('parse tree') গঠনের মাধ্যমে বাক্য সংযুক্তি করার জন্য ব্যবহার করা হয়। কখনও কখনও এই অ্যালগরিদম গুলি একাধিক 'parse tree'ও গঠন করতে পারে, যদি বাক্যটি অস্পষ্ট হয়।^[২]

মনোভাষাবিজ্ঞানে এই পদটি ভাষার বোধগম্যতার ব্যাখ্যাতে ব্যবহার হয়। এখানে পদটির অর্থ 'সাধারণতঃ মানুষ যে ভাবে বাক্যটিকে বিশ্লেষণ করে'।^[১]

কম্পিউটার বিজ্ঞানে পদটি কম্পিউটার ভাষাকে বিশ্লেষণ করে, কোডকে তার বিভিন্ন অংশতে প্রকাশ করার অর্থে ব্যবহার করা হয়। এইটি সংকলক এবং অনুবাদক লেখনে সাহায্য করে। এই পদটি একটি বিভক্ত বা বিচ্ছেদ করার জন্য ও ব্যবহার করা হয়।

প্রকৄত ভাষা

ঐতিহ্যগত ধারা

এইটি তে পাঠ্য কে তার বিভিন্ন অংশে ভেঙ্গে ওই অংশ গুলির গঠন, কার্য্য, এবং বাক্যাত্মক সম্পর্ক সব কে বোঝানো হয়। এইটি নির্দ্ধারিত হয় ভাষাটির সংযোগ এবং বিভক্তি থেকে। এইটি কয়েকটি ভাষার জন্য বেশ জটিল হয়।^[৩]

গণনামূলক ধারা

যান্ত্রিক অনুবাদ ('Machine translation') এবং প্রাকৃতিক ভাষা প্রক্রিযাকরণে ('Natural Language Processing') লিখিত পাঠ্য কম্পিউটার দ্বারা বাক্যাত্মক পদপরিচয় হয়।^[৪] এই পাঠ্য গুলি প্রোগ্রাম দ্বারা প্রক্রিযাকরণ কঠিন, কারণ মানুষের ভাষায় অস্পষ্টতা থাকে। এই জন্য এই ভাষার কঠোর নিয়ম মেনে বিশ্লেষণ করা সহজ নয়।^[৫]

মানুষের ভাষাকে বাক্যাত্মক পদপরিচয় করার জন্য তার ব্যাকরণকে নির্দ্ধারিত করতে হয়। এই নির্বাচনটি গণনামূলক এবং ভাষাবিজ্ঞানের হিসেবে নিরদ্ধারণ করা হয়।

সাধারণতঃ এই বাক্যাত্মক পদপরিচয়ের প্রোগ্রামগুলি (Parser) পরিসংখ্যানগত হয়। তার মানে এই গুলি মানুষের দ্বারা পদপরিচয় করা পাঠ্য কে অনুশীলন উপাত্ত (training data) হিসেবে ব্যবহার করে।^[৬]^[৭]

কম্পিউটার ভাষা

পার্সার

পার্সার(parser) একটি সফটওয়্যর যেটি কোড নিবেশ গ্রহণ করে এবং একটি পার্স ট্রী (parse tree) বা অন্য কোনো শ্রেণীবদ্ধ কাঠামো তৈরি করে। এটি নিবেশটির বাক্যগঠনে সঠিকতা নির্দ্ধারণ করে।

পার্সার মনুষ্য দ্বারা প্রোগ্রাম করা যেতে পারে কিংবা একটি পার্সার সৃষ্টী করার সফটওয়্যর (parser generator) দ্বারা প্রস্তুত করা যেতে পারে।

প্রক্রিয়ার সারমর্ম

কম্পিউটার ভাষা বাক্যাত্মক পদপরিচয় দূটি স্তরের ব্যাকরণ হিসেবে হয়।

প্রথম স্তরে কোডটিকে শব্দ ভান্ডার সম্পর্কিত অর্থপূর্ণ ভাগে বিভক্ত করা হয়। এই ভাগগুলি কে টোকেন (token) এবং এই প্রণালী কে টোকেন জেনেরেসন (token generation) বলা হয়। রেগ্যুলর এক্সপ্রেশনের (regular expression) ব্যাকরণ দ্বারা টোকেনগুলির বিভক্তি নির্দ্ধারণ হয়।

দ্বিতীয় স্তরে বাক্যাত্মক বিশ্লেষণ হয়। এ টি তে টোকেন দ্বারা সৃষ্ট পদগুলির সঠীকতা একটি প্রসঙ্গমুক্ত ব্যাকরণের (context-free grammar) ব্যবহার করে দেখা হয়।

এই দূটি স্তরের পরে নিবেশটির অর্থ সন্ক্রান্ত বিশ্লেষণ করা হয়।

পার্সারের প্রকার

পার্সারের উদ্দেশ্য নিবেশটিকে প্রসঙ্গমুক্ত ব্যাকরণের প্রারম্ভিক প্রতীক (start symbol) থেকে প্রাপ্ত করা। এইটির দূটি উপায আছে।

টপ-ডাউন প্রণালী (Top-down parsing): এই প্রণালীতে নিবেশের পার্স ট্রী খোঁজা হয় বিধিগত ব্যাকরণের আপাদমস্তক প্রসারণ (top-down expansion) ভাবে। ^[৮]
বটম্‌-অপ্‌ প্রণালী (Bottom-up parsing): এই প্রণালীতে পার্সার নিবেশ থেকে আরম্ভ করে, এবং এইটিকে প্রারম্ভিক প্রতীকেতে পুনর্লিখিত করতে চেষ্টা করে। এই প্রণালীতেও প্রসঙ্গমুক্ত ব্যাকরণের বিধি গুলি ব্যবহার হয়।

পার্সারের একটি মূল্যবান পরিচয় হয় তার সবচেয়ে বাম বা ডান ডেরিভেশন (leftmost or rightmost derivation) হিসেবে প্রসঙ্গমুক্ত ব্যাকরণের বিধিগুলি মান্য করা।

ভিজুআল কম্পিউটার ভাষার জন্য আলাদা ভাবে গ্রাফিকাল পদপরিচয়ের অ্যালগরিদমও তৈরি করা হয়েছে।^[৯]^[১০] এই পার্সার গুলি গ্রাফিকাল ব্যাকরণের ব্যবহার হয়।^[১১]

তথ্যসূত্র

↑ ^ক ^খ "parse - Wiktionary"। en.wiktionary.org। সংগ্রহের তারিখ ২০২০-০৮-২৪।
↑ Tomita, Masaru. (১৯৯১)। Generalized LR Parsing। Boston, MA: Springer US। আইএসবিএন 978-1-4615-4034-2। ওসিএলসি 840285389।
↑ Ph. D., Rhetoric and English; M. A., Modern English and American Literature; B. A., English। "What Is Parsing? Definition and Examples in English Grammar"। ThoughtCo (ইংরেজি ভাষায়)। সংগ্রহের তারিখ ২০২০-০৮-২৪।
↑ Manning, Christopher D. (১৯৯৯)। Foundations of statistical natural language processing। Schütze, Hinrich.। Cambridge, Mass.: MIT Press। আইএসবিএন 0-262-13360-1। ওসিএলসি 40848647।
↑ Jurafsky, Daniel (১৯৯৬)। "A Probabilistic Model of Lexical and Syntactic Access and Disambiguation"। Cognitive Science (ইংরেজি ভাষায়)। 20 (2): 137–194। আইএসএসএন 1551-6709। ডিওআই:10.1207/s15516709cog2002_1।
↑ Klein, Dan; Manning, Christopher D. (2003-07)। "Accurate Unlexicalized Parsing"। Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics। Sapporo, Japan: Association for Computational Linguistics: 423–430। ডিওআই:10.3115/1075096.1075150। এখানে তারিখের মান পরীক্ষা করুন: |তারিখ= (সাহায্য)
↑ Chen, Danqi; Manning, Christopher (2014-10)। "A Fast and Accurate Dependency Parser using Neural Networks"। Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)। Doha, Qatar: Association for Computational Linguistics: 740–750। ডিওআই:10.3115/v1/D14-1082। এখানে তারিখের মান পরীক্ষা করুন: |তারিখ= (সাহায্য)
↑ "Book sources"। Wikipedia (ইংরেজি ভাষায়)।
↑ "Google Scholar"। scholar.google.com। সংগ্রহের তারিখ ২০২০-০৮-২৪।
↑ "A graph grammar approach to graphical parsing" (পিডিএফ)।
↑ "A Context-sensitive Graph Grammar Formalism for the Specification of Visual Languages" (পিডিএফ)। ২৩ মার্চ ২০১৮ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা।

[:0-1] ক ^খ "parse - Wiktionary"। en.wiktionary.org। সংগ্রহের তারিখ ২০২০-০৮-২৪।

[2] Tomita, Masaru. (১৯৯১)। Generalized LR Parsing। Boston, MA: Springer US। আইএসবিএন 978-1-4615-4034-2। ওসিএলসি 840285389।

[3] Ph. D., Rhetoric and English; M. A., Modern English and American Literature; B. A., English। "What Is Parsing? Definition and Examples in English Grammar"। ThoughtCo (ইংরেজি ভাষায়)। সংগ্রহের তারিখ ২০২০-০৮-২৪।

[4] Manning, Christopher D. (১৯৯৯)। Foundations of statistical natural language processing। Schütze, Hinrich.। Cambridge, Mass.: MIT Press। আইএসবিএন 0-262-13360-1। ওসিএলসি 40848647।

[5] Jurafsky, Daniel (১৯৯৬)। "A Probabilistic Model of Lexical and Syntactic Access and Disambiguation"। Cognitive Science (ইংরেজি ভাষায়)। 20 (2): 137–194। আইএসএসএন 1551-6709। ডিওআই:10.1207/s15516709cog2002_1।

[6] Klein, Dan; Manning, Christopher D. (2003-07)। "Accurate Unlexicalized Parsing"। Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics। Sapporo, Japan: Association for Computational Linguistics: 423–430। ডিওআই:10.3115/1075096.1075150। এখানে তারিখের মান পরীক্ষা করুন: |তারিখ= (সাহায্য)

[7] Chen, Danqi; Manning, Christopher (2014-10)। "A Fast and Accurate Dependency Parser using Neural Networks"। Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)। Doha, Qatar: Association for Computational Linguistics: 740–750। ডিওআই:10.3115/v1/D14-1082। এখানে তারিখের মান পরীক্ষা করুন: |তারিখ= (সাহায্য)

[8] "Book sources"। Wikipedia (ইংরেজি ভাষায়)।

[9] "Google Scholar"। scholar.google.com। সংগ্রহের তারিখ ২০২০-০৮-২৪।

[10] "A graph grammar approach to graphical parsing" (পিডিএফ)।

[11] "A Context-sensitive Graph Grammar Formalism for the Specification of Visual Languages" (পিডিএফ)। ২৩ মার্চ ২০১৮ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা।

[১]

[২]

[৩]

[৪]

[৫]

[৬]

[৭]

[৮]

[৯]

[১০]

[১১]