TYPE-TOKEN

Základní

1. Z hlediska korpusové lingvistiky: type (typ) jednotka abstrakce, ↗token vždy konkrétní realizace jednotky (konkrétní výskyt formy) v určitém kontextu; typ je jednotka dekontextualizovaná, která je schopna nabývat takových vlastností, jako je ↗frekvence. Zatímco velikost ↗korpusu je udávána v počtu tokenů (označuje se většinou jako N), počet typů značí množství různých jednotek v korpusu (označuje se většinou V = vocabulary). Typ může být v podstatě libovolná jednotka, nejčastěji se ovšem v této souvislosti uvažuje o slovním tvaru n. ↗lemmatu.

TTR (token-type ratio) je poměr počtu různých slov (typů) k celkovému počtu všech slov v korpusu (někdy vyjádřený v procentech). Pokud je poměr vysoký, můžeme mluvit o textu s velkou lexikální bohatostí (užívá mnoho různých jednotek), malý poměr značí velkou míru opakování.

Type-token jako ukazatel je silně vázaný na celkovou velikost korpusu, je proto jen obtížně využitelný jako obecný referenční ukazatel. Čím delší text máme k dispozici, tím větší je poměr mezi tokeny a typy (ačkoli vztah není lineární; viz ↗Heapsův zákon). Viz také ↗token.

2. Distinkce type-token se užívá v odlišném smyslu v teorii vědy a sémiotice k označení rozdílu mezi obecným pojmem a jeho konkrétním výskytem či podobou.

Rozšiřující
Literatura
  • Baayen, H. R. Word Frequency Distributions, 2001.
  • Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
  • Biber, D. & S. Conrad ad. Corpus Linguistics. Investigating Language Structure and Use, 1998.
Citace
Václav Cvrček (2017): TYPE-TOKEN. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/TYPE-TOKEN (poslední přístup: 25. 4. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka