ZNAČKOVÁNÍ  (slovnědruhové tagování)

Základní

↗korpusové lingvistice část morfologické ↗anotace nebo tato anotace sama. Každému jednotlivému slovnímu tvaru v (obvykle korpusovém) textu jsou nejprve procesem ↗morfologické analýzy přiřazeny všechny jeho možné slovnědruhové interpretace nezávisle na kontextu a poté se při morfologické ↗disambiguaci vybere z těchto interpretací na základě kontextu náležitý slovní druh jakožto hlavní morfologický údaj. Údaj o slovním druhu je obvykle počátečním znakem přiřazené morfologické značky, která bývá v praxi často složená (✍Karlsson & Voutilainen ad., 1995; ✍Hajič & Hladká, 1997; ✍Hajič & Hladká, 1998; ✍Samuelsson & Voutilainen, 1997; ✍Brants, 2000; ✍Oliva & Hnátková ad., 2000; ✍Leech, 2004; ✍Hajič, 2004; ✍Votrubec, 2005; ✍Jelínek & Petkevič, 2011). Např. slovnímu tvaru kárám se podle kontextu přiřadí buď slovní druh substantivum (počáteční část značky: N, lemma = kára), n. sloveso (počáteční část značky: V, lemma = kárat).

Rozšiřující
Literatura
  • Brants, T. TnT – A Statistical Part-of-Speech Tagger. In Bates, M. & O. Stock (eds.), Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, 2000, 224–231.
  • Hajič, J. Disambiguation of Rich Inflection (Computational Morphology of Czech), 2004.
  • Hajič, J. & B. Hladká. Morfologické značkování korpusu českých textů stochastickou metodou. SaS 4, 1997, 288–304.
  • Hajič, J. & B. Hladká. Tagging Inflective Languages: Prediction of Morphological Categories for a Rich, Structured Tagset. In COLING-ACL '98. Proceedings from COLING-ACL'98, 1998, 483–490.
  • Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič, V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2011, 154–170.
  • Karlsson, F. & A. Voutilainen ad. (eds.) Constraint Grammar. A Language-Independent System for Parsing Unrestricted Text, 1995.
  • Leech, G. Adding Linguistic Annotation. In Wynne, M. (ed.), Developing Linguistic Corpora: A Guide to Good Practice, 2004.
  • Oliva, K. & M. Hnátková ad. The Linguistic Basis of a Rule-Based Tagger of Czech. In Sojka, P. & I. Kopeček ad. (eds.), Proceedings of the Text, Speech and Dialogue Conference TSD 2000, 2000, 3–8.
  • Petkevič, V. Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, 2006, 26–44.
  • Samuelsson, Ch. & A. Voutilainen. Comparing a Linguistic and a Stochastic Tagger. In Proceedings of 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics, ACL, 1997, 246–253.
  • The Prague Dependency Treebank 2.0, 2006 (http://ufal.mff.cuni.cz/pdt2.0/).
  • Votrubec, J. Návrh vhodné sady rysů pro morfologické značkování češtiny. Mgr. práce, MFF UK, Praha, 2005.
Citace
Vladimír Petkevič (2017): ZNAČKOVÁNÍ. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ZNAČKOVÁNÍ (poslední přístup: 20. 4. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka