TAGSET (značková sada, sada značek)
V ↗korpusové lingvistice množina lingvistických interpretačních (např. morfologických, syntaktických a jiných) značek (↗tagů), n. strukturních značek (vymezujících např. větu či dokument), n. i jiných značek (např. chybových), které jsou součástí ↗anotačního schématu používaného jednotně pro určitý text n. pro ↗korpus či korpusy. Pro daný jaz. existuje obvykle jen jediný t., ne však nutně (např. pro č. je jich víc). Tyto obvyklé značky interpretují vlastnosti (zvl. morfologických) forem (tvarů) v korpusu na základě určité gramatické teorie, a představují tedy aplikaci této teorie. Z formálního hlediska je pro morfologii obvyklý poziční t., kde ↗tag je tvořen posloupností pozic zaplněných znaky, z nichž každý představuje hodnotu nějaké morfologické kategorie (např. A ‒ označující adjektivum ‒ je hodnotou kategorie slovní druh, F ‒ označující femininum ‒ je hodnotou kategorie jmenný rod). Např. tagy v pražském (Hajičově) tagsetu (srov. ✍Hajič, 2000) používaném ke značkování korpusů řady SYN (↗Českého národního korpusu) jsou po řadě tvořeny těmito 16 pozicemi: slovní druh, detailní určení slovního druhu, jmenný rod, číslo, pád, přivlastňovací rod, přivlastňovací číslo, osoba, čas, stupeň, negace, slovesný rod, nepoužito, nepoužito, varianta / stylový příznak, vid. Např.:
slovní tvar jeskyněmi je značkován jako:
NNFP7-----A----- |
kde:
N | – slovní druh: substantivum |
N | – detailní určení slovního druhu: obyčejné substantivum |
F | – jmenný rod: femininum |
P | – číslo: plurál |
7 | – pád: instrumentál |
- | – irelevantní hodnota pro kategorie přivlastňovací rod, přivlastňovací číslo, osoba, negace, slovesný rod (aktivum/pasivum), varianta / stylový příznak, vid |
A | – negace: afirmativ (daný tvar není negací svého kladného protějšku) |
slovní tvar nepřipravují je značkován jako:
VB-P---3P-NA---I |
kde:
V | – slovní druh: sloveso |
B | – detailní určení slovního druhu: tvar přítomného nebo budoucího času |
- | – irelevantní hodnota pro kategorii jmenný rod |
P | – číslo: plurál |
- | – irelevantní hodnota pro kategorie pád, přivlastňovací rod, přivlastňovací číslo |
3 | – osoba: třetí |
P | – čas: prézens |
- | – irelevantní hodnota pro kategorii stupeň |
N | – negace: negace (daný tvar je negací svého kladného protějšku) |
A | – slovesný rod: aktivum |
- | – irelevantní hodnota pro kategorii stupeň, varianta / stylový příznak |
I | – vid: imperfektivní |
Tagy v brněnském tagsetu (srov. ✍Jakubíček & Kovář, 2011) jsou tvořeny asociativně: řetězcem složeným z posloupností dvojic (kh), kde k – kategorie, h – její hodnota. Např. slovní druh sloveso se vyjádří jako k5 (kategorie slovní druh: k, hodnota: 5 (označuje sloveso)), akuzativ se vyjádří jako c4 (kategorie pád (case): c, hodnota: 4 (4. pád)).
- Garside, R. & G. Leech ad. Corpus Annotation. Linguistic Information from Computer Text Corpora, 1997.
- Hajič, J. Popis morfologických značek – poziční systém, 2000 (http://ucnk.ff.cuni.cz/doc/popis_znacek.pdf).
- Hajič, J. Disambiguation of Rich Inflection (Computational Morphology of Czech), 2004.
- Hajič, J. & P. Krbec ad. Combination of Rules and Statistics: A Case Study in Czech Tagging. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL 2001), 2001, 260–267.
- Hlaváčová, J. Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. PhD. dis., FF UK, Praha, 2009.
- Jakubíček, M. & V. Kovář ad. Czech Morphological Tagset Revisited. In Horák, A. & P. Rychlý (eds.), Proceedings of Recent Advances in Slavonic Natural Language Processing 2011, 2011, 29–42.
- Sedláček, R. Morphematic Analyser for Czech. PhD. diss., FI MU, Brno, 2004.
- Šmerk, P. K počítačové morfologické analýze češtiny. PhD. dis., FI MU, Brno, 2010.
URL: https://www.czechency.org/slovnik/TAGSET (poslední přístup: 10. 10. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka