ANOTACE

▲

►

Základní

V korpusové lingvistice proces, při němž se přidávají (a) interpretativní lingvistické údaje a/nebo (b) strukturní/segmentační údaje a/nebo (c) bibliografické údaje, příp. údaje další k textovým datům ↗korpusu, textovým dokumentům; viz např. ✍Leech (1993), ✍Hajič (2004), ✍Karlsson & Voutilainen ad. (eds.) (1995). Lingvistickými interpretačními údaji jsou např. morfologické údaje přiřazované jednotlivým slovním tvarům či syntaktické údaje přiřazované jednotlivým slovním tvarům či jejich skupinám, n. údaje sémantické, údaje o chybách v textu a další. Při morfologické a. se danému slovnímu tvaru typicky přiřadí jeho ↗lemma a hodnoty morfologických kategorií vč. slovního druhu (procesem ↗morfologické analýzy a následné ↗lemmatizace a morfologické ↗disambiguace). Strukturní/segmentační údaje stanoví např. identitu dokumentu, vymezují začátek a konec věty procesem větné ↗segmentace. Při a. se textové dokumenty obvykle opatřují též bibliografickými informacemi, případně dalšími údaji charakterizujícími dokument. V korpusech je pak možné vyhledávat podle uvedených typů údajů. Z implementačního hlediska se anotační údaje buď přidávají přímo k surovým textům, takže se s nimi prolínají, n. jsou od nich oddělené (stand‑off a.).

Někdy se a. rozumí jen ruční, neautomatické přidávání lingvistických údajů; automatické dodávání lingvistických údajů se v tomto případě nazývá tagování či ↗značkování.

▲

►

Rozšiřující

Literatura

Brants, T. TnT – A Statistical Part‑of‑Speech Tagger. In Nirenburg, S. (ed.), Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, 2000, 224–231.
Brill, E. A Simple Rule‑Based Part‑of‑Speech Tagger. In Bates, M. & O. Stock (eds.), Proceedings of the Third Conference on Applied Natural Language Processing, 1992, 152–155.
Hajič, J. Disambiguation of Rich Inflection (Computational Morphology of Czech), 2004.
Hajič, J. & B. Hladká. Morfologické značkování korpusu českých textů stochastickou metodou. SaS 4, 1997, 288–304.
Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2011, 154–170.
Karlsson, F. & A. Voutilainen ad. (eds.) Constraint Grammar. A Language-Independent System for Parsing Unrestricted Text, 1995.
Květoň, P. Rule-Based Morphological Disambiguation (Towards a Combination of Linguistic and Stochastic Methods). PhD. dis., MFF UK, 2006.
Květoň, P. & K. Oliva. Achieving an Almost Correct PoS‑Tagged Corpus. In Sojka, P. & I. Kopeček ad. (eds.), Proceedings of the Fifth International Conference, TSD 2002, LNAI 2448, 2002, 19–26.
Leech, G. Corpus Annotation Schemes. Literary and Linguistic Computing 8, 1993, 275–281.
Mikulová, M. ad. Anotace na tektogramatické rovině Pražského závislostního korpusu (Anotátorská příručka). ÚFAL/CKL technical report TR‑2006‑28, 2005.
Mikulová, M. ad. Anotace na tektogramatické rovině Pražského závislostního korpusu (Referenční příručka). ÚFAL/CKL technical report TR‑2006‑31, 2006.
Petkevič, V. Reliable Morphological Disambiguation of Czech.: Rule‑Based Approach is Necessary. In Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, 2006, 26–44.
Votrubec, J. Návrh vhodné sady rysů pro morfologické značkování češtiny. Mgr. dipl. práce, MFF UK, Praha, 2005.
Viz také Kódování.

Citace

Vladimír Petkevič (2017): ANOTACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ANOTACE (poslední přístup: 27. 7. 2026)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

ANOTACE

Další pojmy: