TAGSET | Nový encyklopedický slovník češtiny

TAGSET (značková sada, sada značek)

▲

►

Základní

▲

►

Rozšiřující

V ↗korpusové lingvistice množina lingvistických interpretačních (např. morfologických, syntaktických a jiných) značek (↗tagů), n. strukturních značek (vymezujících např. větu či dokument), n. i jiných značek (např. chybových), které jsou součástí ↗anotačního schématu používaného jednotně pro určitý text n. pro ↗korpus či korpusy. Pro daný jaz. existuje obvykle jen jediný t., ne však nutně (např. pro č. je jich víc). Tyto obvyklé značky interpretují vlastnosti (zvl. morfologických) forem (tvarů) v korpusu na základě určité gramatické teorie, a představují tedy aplikaci této teorie. Z formálního hlediska je pro morfologii obvyklý poziční t., kde ↗tag je tvořen posloupností pozic zaplněných znaky, z nichž každý představuje hodnotu nějaké morfologické kategorie (např. A ‒ označující adjektivum ‒ je hodnotou kategorie slovní druh, F ‒ označující femininum ‒ je hodnotou kategorie jmenný rod). Např. tagy v pražském (Hajičově) tagsetu (srov. ✍Hajič, 2000) používaném ke značkování korpusů řady SYN (↗Českého národního korpusu) jsou po řadě tvořeny těmito 16 pozicemi: slovní druh, detailní určení slovního druhu, jmenný rod, číslo, pád, přivlastňovací rod, přivlastňovací číslo, osoba, čas, stupeň, negace, slovesný rod, nepoužito, nepoužito, varianta / stylový příznak, vid. Např.:

slovní tvar jeskyněmi je značkován jako:

NNFP7-----A-----

kde:

N	– slovní druh: substantivum
N	– detailní určení slovního druhu: obyčejné substantivum
F	– jmenný rod: femininum
P	– číslo: plurál
7	– pád: instrumentál
-	– irelevantní hodnota pro kategorie přivlastňovací rod, přivlastňovací číslo, osoba, negace, slovesný rod (aktivum/pasivum), varianta / stylový příznak, vid
A	– negace: afirmativ (daný tvar není negací svého kladného protějšku)

slovní tvar nepřipravují je značkován jako:

VB-P---3P-NA---I

kde:

V	– slovní druh: sloveso
B	– detailní určení slovního druhu: tvar přítomného nebo budoucího času
-	– irelevantní hodnota pro kategorii jmenný rod
P	– číslo: plurál
-	– irelevantní hodnota pro kategorie pád, přivlastňovací rod, přivlastňovací číslo
3	– osoba: třetí
P	– čas: prézens
-	– irelevantní hodnota pro kategorii stupeň
N	– negace: negace (daný tvar je negací svého kladného protějšku)
A	– slovesný rod: aktivum
-	– irelevantní hodnota pro kategorii stupeň, varianta / stylový příznak
I	– vid: imperfektivní

Tagy v brněnském tagsetu (srov. ✍Jakubíček & Kovář, 2011) jsou tvořeny asociativně: řetězcem složeným z posloupností dvojic (kh), kde k – kategorie, h – její hodnota. Např. slovní druh sloveso se vyjádří jako k5 (kategorie slovní druh: k, hodnota: 5 (označuje sloveso)), akuzativ se vyjádří jako c4 (kategorie pád (case): c, hodnota: 4 (4. pád)).

Literatura

Garside, R. & G. Leech ad. Corpus Annotation. Linguistic Information from Computer Text Corpora, 1997.
Hajič, J. Popis morfologických značek – poziční systém, 2000 (http://ucnk.ff.cuni.cz/doc/popis_znacek.pdf).
Hajič, J. Disambiguation of Rich Inflection (Computational Morphology of Czech), 2004.
Hajič, J. & P. Krbec ad. Combination of Rules and Statistics: A Case Study in Czech Tagging. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL 2001), 2001, 260–267.
Hlaváčová, J. Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. PhD. dis., FF UK, Praha, 2009.
Jakubíček, M. & V. Kovář ad. Czech Morphological Tagset Revisited. In Horák, A. & P. Rychlý (eds.), Proceedings of Recent Advances in Slavonic Natural Language Processing 2011, 2011, 29–42.
Sedláček, R. Morphematic Analyser for Czech. PhD. diss., FI MU, Brno, 2004.
Šmerk, P. K počítačové morfologické analýze češtiny. PhD. dis., FI MU, Brno, 2010.

Citace

Vladimír Petkevič (2017): TAGSET. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/TAGSET (poslední přístup: 25. 4. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

TAGSET (značková sada, sada značek)

Další pojmy: