TAGSET  (značková sada, sada značek)

Základní
Rozšiřující

↗korpusové lingvistice množina lingvistických interpretačních (např. morfologických, syntaktických a jiných) značek (↗tagů), n. strukturních značek (vymezujících např. větu či dokument), n. i jiných značek (např. chybových), které jsou součástí ↗anotačního schématu používaného jednotně pro určitý text n. pro ↗korpus či korpusy. Pro daný jaz. existuje obvykle jen jediný t., ne však nutně (např. pro č. je jich víc). Tyto obvyklé značky interpretují vlastnosti (zvl. morfologických) forem (tvarů) v korpusu na základě určité gramatické teorie, a představují tedy aplikaci této teorie. Z formálního hlediska je pro morfologii obvyklý poziční t., kde ↗tag je tvořen posloupností pozic zaplněných znaky, z nichž každý představuje hodnotu nějaké morfologické kategorie (např. A ‒ označující adjektivum ‒ je hodnotou kategorie slovní druh, F ‒ označující femininum ‒ je hodnotou kategorie jmenný rod). Např. tagy v pražském (Hajičově) tagsetu (srov. ✍Hajič, 2000) používaném ke značkování korpusů řady SYN (↗Českého národního korpusu) jsou po řadě tvořeny těmito 16 pozicemi: slovní druh, detailní určení slovního druhu, jmenný rod, číslo, pád, přivlastňovací rod, přivlastňovací číslo, osoba, čas, stupeň, negace, slovesný rod, nepoužito, nepoužito, varianta / stylový příznak, vid. Např.:

slovní tvar jeskyněmi je značkován jako:

NNFP7-----A-----

kde:

N

– slovní druh: substantivum

N

– detailní určení slovního druhu: obyčejné substantivum

F

– jmenný rod: femininum

P

– číslo: plurál

7

– pád: instrumentál

-

– irelevantní hodnota pro kategorie přivlastňovací rod, přivlastňovací číslo, osoba, negace, slovesný rod (aktivum/pasivum), varianta / stylový příznak, vid

A

– negace: afirmativ (daný tvar není negací svého kladného protějšku)

slovní tvar nepřipravují je značkován jako:

VB-P---3P-NA---I

kde:

V

– slovní druh: sloveso

B

– detailní určení slovního druhu: tvar přítomného nebo budoucího času

-

–  irelevantní hodnota pro kategorii jmenný rod

P

– číslo: plurál

-

– irelevantní hodnota pro kategorie pád, přivlastňovací rod, přivlastňovací číslo

3

– osoba: třetí

P

– čas: prézens

-

– irelevantní hodnota pro kategorii stupeň

N

– negace: negace (daný tvar je negací svého kladného protějšku)

A

– slovesný rod: aktivum

-

– irelevantní hodnota pro kategorii stupeň, varianta / stylový příznak

I

– vid: imperfektivní

Tagy v brněnském tagsetu (srov. ✍Jakubíček & Kovář, 2011) jsou tvořeny asociativně: řetězcem složeným z posloupností dvojic (kh), kde k – kategorie, h – její hodnota. Např. slovní druh sloveso se vyjádří jako k5 (kategorie slovní druh: k, hodnota: 5 (označuje sloveso)), akuzativ se vyjádří jako c4 (kategorie pád (case): c, hodnota: 4 (4. pád)).

Literatura
  • Garside, R. & G. Leech ad. Corpus Annotation. Linguistic Information from Computer Text Corpora, 1997.
  • Hajič, J. Popis morfologických značek – poziční systém, 2000 (http://ucnk.ff.cuni.cz/doc/popis_znacek.pdf).
  • Hajič, J. Disambiguation of Rich Inflection (Computational Morphology of Czech), 2004.
  • Hajič, J. & P. Krbec ad. Combination of Rules and Statistics: A Case Study in Czech Tagging. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL 2001), 2001, 260–267.
  • Hlaváčová, J. Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. PhD. dis., FF UK, Praha, 2009.
  • Jakubíček, M. & V. Kovář ad. Czech Morphological Tagset Revisited. In Horák, A. & P. Rychlý (eds.), Proceedings of Recent Advances in Slavonic Natural Language Processing 2011, 2011, 29–42.
  • Sedláček, R. Morphematic Analyser for Czech. PhD. diss., FI MU, Brno, 2004.
  • Šmerk, P. K počítačové morfologické analýze češtiny. PhD. dis., FI MU, Brno, 2010.
Citace
Vladimír Petkevič (2017): TAGSET. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/TAGSET (poslední přístup: 25. 4. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka