ANOTACE

Základní

V korpusové lingvistice proces, při němž se přidávají (a) interpretativní lingvistické údaje a/nebo (b) strukturní/segmentační údaje a/nebo (c) bibliografické údaje, příp. údaje další k textovým datům ↗korpusu, textovým dokumentům; viz např. ✍Leech (1993), ✍Hajič (2004), ✍Karlsson & Voutilainen ad. (eds.) (1995). Lingvistickými interpretačními údaji jsou např. morfologické údaje přiřazované jednotlivým slovním tvarům či syntaktické údaje přiřazované jednotlivým slovním tvarům či jejich skupinám, n. údaje sémantické, údaje o chybách v textu a další. Při morfologické a. se danému slovnímu tvaru typicky přiřadí jeho ↗lemma a hodnoty morfologických kategorií vč. slovního druhu (procesem ↗morfologické analýzy a následné ↗lemmatizace a morfologické ↗disambiguace). Strukturní/segmentační údaje stanoví např. identitu dokumentu, vymezují začátek a konec věty procesem větné ↗segmentace. Při a. se textové dokumenty obvykle opatřují též bibliografickými informacemi, případně dalšími údaji charakterizujícími dokument. V korpusech je pak možné vyhledávat podle uvedených typů údajů. Z implementačního hlediska se anotační údaje buď přidávají přímo k surovým textům, takže se s nimi prolínají, n. jsou od nich oddělené (stand‑off a.).

Někdy se a. rozumí jen ruční, neautomatické přidávání lingvistických údajů; automatické dodávání lingvistických údajů se v tomto případě nazývá tagování či ↗značkování.

Rozšiřující
Literatura
  • Brants, T. TnT – A Statistical Part‑of‑Speech Tagger. In Nirenburg, S. (ed.), Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, 2000, 224–231.
  • Brill, E. A Simple Rule‑Based Part‑of‑Speech Tagger. In Bates, M. & O. Stock (eds.), Proceedings of the Third Conference on Applied Natural Language Processing, 1992, 152–155.
  • Hajič, J. Disambiguation of Rich Inflection (Computational Morphology of Czech), 2004.
  • Hajič, J. & B. Hladká. Morfologické značkování korpusu českých textů stochastickou metodou. SaS 4, 1997, 288–304.
  • Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2011, 154–170.
  • Karlsson, F. & A. Voutilainen ad. (eds.) Constraint Grammar. A Language-Independent System for Parsing Unrestricted Text, 1995.
  • Květoň, P. Rule-Based Morphological Disambiguation (Towards a Combination of Linguistic and Stochastic Methods). PhD. dis., MFF UK, 2006.
  • Květoň, P. & K. Oliva. Achieving an Almost Correct PoS‑Tagged Corpus. In Sojka, P. & I. Kopeček ad. (eds.), Proceedings of the Fifth International Conference, TSD 2002, LNAI 2448, 2002, 19–26.
  • Leech, G. Corpus Annotation Schemes. Literary and Linguistic Computing 8, 1993, 275–281.
  • Mikulová, M. ad. Anotace na tektogramatické rovině Pražského závislostního korpusu (Anotátorská příručka). ÚFAL/CKL technical report TR‑2006‑28, 2005.
  • Mikulová, M. ad. Anotace na tektogramatické rovině Pražského závislostního korpusu (Referenční příručka). ÚFAL/CKL technical report TR‑2006‑31, 2006.
  • Petkevič, V. Reliable Morphological Disambiguation of Czech.: Rule‑Based Approach is Necessary. In Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, 2006, 26–44.
  • Votrubec, J. Návrh vhodné sady rysů pro morfologické značkování češtiny. Mgr. dipl. práce, MFF UK, Praha, 2005.
  • Viz také Kódování.
Citace
Vladimír Petkevič (2017): ANOTACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ANOTACE (poslední přístup: 20. 4. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka