HEAPSŮV ZÁKON

Základní
Rozšiřující

Matematický model, který aproximuje vztah mezi počtem ↗tokenů↗korpusu a počtem ↗typů. S tím, jak zvětšujeme zkoumaný korpus, tedy počet tokenů, se neustále zvětšuje i počet jeho typů (lexikon). Označíme‑li počet tokenů v korpusu N a počet typů při dané velikosti korpusu V(N), platí zhruba tento vztah: V(N) = aNb. Koeficienty a a b variují v závislosti na jaz. a typu textu. Pro č. můžeme zhruba odvodit tyto hodnoty: pro typy tvořené pomocí lemmat platí, že a = 11,8287b = 0,5955. Pro typy tvořené slovními tvary má rovnice koeficienty a = 118,0895b = 0,5113 (údaje jsou průměrem několika měření na různých typech textů v korpusech řady SYN). Korpus o velikosti 1 milion slov, tokenů (psané č.), by tak měl obsahovat zhruba 44,2 tisíce různých lemmat a 138 tisíc různých slovních tvarů.

Literatura
  • Baayen, H. R. Word Frequency Distributions, 2001.
  • Herdan, G. Type-Token Mathematics, 1960.
Citace
Václav Cvrček (2017): HEAPSŮV ZÁKON. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/HEAPSŮV ZÁKON (poslední přístup: 20. 6. 2019)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka