RACIONALISTICKÉ METODY ZPRACOVÁNÍ JAZYKA

Základní
Rozšiřující

Zpracování přirozeného jazyka lze zhruba rozdělit do dvou skupin metod: (a) empirické metody zpracování jazyka, založené přímo na jazykových datech a tzv. ↗strojovém učení (sem patří hlavně metody statistické/stochastické/pravděpodobnostní); (b) metody racionalistické/symbolické, založené na pravidlech, principech a strukturách a vytvářené zvl. lingvistickou introspekcí. Metody typu (b) popisují jazyk z hlediska jeho struktury a tento popis má obvykle podobu pravidel a/nebo obecných či specifických principů odrážejících strukturu přirozených jazyků. Využívají přitom ↗formálních gramatik a automatů (v rámci teorie formálních gramatik a automatů), algebry, teorie množin a dalších nestatistických a nekvantitativních matematických disciplín. Příkladem racionalistického přístupu je např. ↗parsing pomocí pravidel (na rozdíl od parsingu stochastického), n. ↗morfologická disambiguace, ↗disambiguace lexikálních významů či ↗strojový překladad.; dále konstrukce formální gramatiky pro syntaktickou analýzu/syntézu jazyka, morfologická analýza dvouúrovňového či jiného typu, tvorba tzv. word-sketches, konstrukce konečných či zásobníkových automatů pro zpracování morfologie či syntaxe jazyka apod. Pravidla se přitom mohou buď vyvozovat (automaticky n. neautomaticky) z dat, n. se mohou vytvářet na základě lingvistovy introspekce. Často se výhody racionalistických metod spojují s výhodami metod empirických v metody hybridní: např. pro morfologické značkování ↗jazykových korpusů v rámci ↗Českého národního korpusu se užívá morfologické analýzy založené na pravidlech a spolupráce morfologické disambiguace založené na pravidlech s ↗disambiguací stochastickou; i např. konstrukci pravděpodobnostních regulárních či bezkontextových gramatik lze považovat za metodu hybridní. Poté, co začala být k dispozici velká jazyková data (zvl. na internetu a v jazykových korpusech), metody racionalistické poněkud ustoupily do pozadí ve prospěch metod ↗strojového učení (statistických), nicméně často se právě hybridní metody ukazují jako nejlepší řešení: pravidla a introspekce nemohou postihnout celé lexikální i strukturní bohatství přirozených jazyků, nýbrž pouze jejich základ, takže na pomoc jim přicházejí statistické metody, které jsou sice ze své povahy nepřesné, zato s velmi dobrou aproximací postihnou obrovské množství a rozmanitost jazykových dat.

Literatura
  • Brill, E. A Simple Rule-Based Part-of-Speech Tagger. In Proceedings of the Third Conference on Applied Natural Language Processing, 1992, 152–155.
  • Garside, R. & G. Leech ad. (eds.) Corpus Annotation. Linguistic Information from Computer Text Corpora, 1997.
  • Hajič, J. & P. Krbec ad. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL 2001), 2001, 260–267.
  • Chanod, J. P. & P. Tapanainen. Tagging French – Comparing a Statistical and a Constraint-based Method. In Proceedings of EACL-95, 1995, 149–156.
  • Karlsson, F. & A. Voitilainen ad. (eds.) Constraint Grammar. A Language-Independent System for Parsing Unrestricted Text, 1995.
  • Květoň, P. Rule-Based Morphological Disambiguation (Towards a Combination of Linguistic and Stochastic Methods). PhD. diss., MFF UK, Praha, 2006.
  • Květoň, P. & K. Oliva. Achieving an Almost Correct PoS-Tagged Corpus. Text, Speech and Dialogue. In Proceedings of the Fifth International Conference, LNAI 2448, 2002, 19–26.
  • Leech, G. Corpus Annotation Schemes. Literary and Linguistic Computing 8, 1993, 275–281.
  • Oliva, K. Úvahy nad teoretickými základy lingvisticky adekvátní disambiguace jazykových korpusů. In Blatná, R. & V. Petkevič (eds.), Jazyky a jazykověda, 2005, 229–245.
  • Oliva, K. & M. Hnátková ad. The Linguistic Basis of a Rule-Based Tagger of Czech. In Sojka, P. & I. Kopeček ad. (eds.), Proceedings of the Conference Text, Speech and Dialogue 2000, Lecture Notes in Artificial Intelligence 1902, 2000, 3–8.
  • Petkevič, V. Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, 2006, 26–44.
  • Samuelsson, Ch. & A. Voutilainen. Comparing a Linguistic and a Stochastic Tagger. In Proceedings of 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics, ACL, 1997, 246–253.
  • Tapanainen, P. & A. Voutilainen. Tagging Accurately Don’t Guess if You Know. Technical Report, Xerox Corp., 1994.
  • Voutilainen, A. Morphological Disambiguation. In Karlsson, F. ad. (eds.), Constraint Grammar, 1995, 165–285.
  • Viz také Formální gramatika, Komputační lingvistika, Bezprostředněsložkový strom.
Citace
Vladimír Petkevič (2017): RACIONALISTICKÉ METODY ZPRACOVÁNÍ JAZYKA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/RACIONALISTICKÉ METODY ZPRACOVÁNÍ JAZYKA (poslední přístup: 19. 4. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka