HAPAX

Základní

V korpusové lingvistice označení pro takové jednotky, které se v ↗korpusu (n. textu) nacházejí právě jednou (jedná se tedy o ↗typ, jemuž odpovídá pouze jeden ↗token, tj. jedna realizace, přičemž typem se v této souvislosti nejčastěji rozumí slovní tvar n. ↗lemma). Jejich využití v lingvistickém výzkumu je dosud nejasné a sporné, protože jediný výskyt neumožňuje zobecňovat, vytvářet jakékoli závěry o vlastnostech a způsobech užití dané jednotky.

Rozšiřující

Poměr počtu h. k celkovému počtu typů v korpusu se v závislosti na velikosti korpusu mění. V hypotetickém korpusu o velikosti např. 10 slov bude velmi pravděpodobně každá jednotka zastoupena právě jedním h. (poměr h. ku všem typům bude 100 %). Přidáváním celých textů do korpusu (v řádech jednotek milionů slov) poměr klesá až k hodnotě téměř 35 % h. (ze všech typů), poté opět v důsledku specifičnosti slovní zásoby v různých textech narůstá až k hladině 55 % (u 120milionového korpusu). To, zda se poměr s přidáváním dalšího textu ještě mění, n. zůstává na této hladině, není dosud známo. U velkých korpusů můžeme tedy počítat s tím, že zhruba polovina všech typů se bude vyskytovat právě jednou (srov. ↗Zipfovy zákony). Jejich podíl na celkovém počtu tokenů je ovšem zanedbatelný (ve stomilionovém korpusu SYN2010 představují lemmata s frekvencí 1 zhruba 0,4 % všech výskytů). Většinu h. tvoří lingvisticky nezajímavé jevy (překlepy, konverzní chyby, číselné údaje a kódy, cizojazyčné úseky, neobvyklá propria apod.); mezi h. se však objevují také slova, která dosud nebyla popsána (neologismy či autorské novotvary apod.).

Obdobný vztah, jaký najdeme mezi tokeny a typy a jenž aproximuje ↗Heapsův zákon, je možné pozorovat i u vztahu mezi přibývajícím počtem h. v závislosti na zvětšujícím se korpusu. Parametry jsou zde jiné, princip je ovšem stejný: V(1,N) = aNb, kde V(1,N) je počet h. při velikosti korpusu N, a a b jsou jazykově a žánrově specifické konstanty. Pro h. tvořené č. lemmaty platí, že a = 1,6935112 a b = 0,6678874. Pro h. tvořené slovními tvary v č. platí, že a = 57,28 a b = 0,5086.

H. (resp. jejich počet) jako snadno uchopitelný indikátor frekvenčního rozložení jednotek v korpusu slouží pro výpočet různých druhů charakteristik. Tempo přírůstku nových typů se zvětšením korpusu o jeden token počítá podle vzorce V(1,N)/N. Stejný vzorec, známý jako Good‑Turingův odhad, se používá pro vyjádření sumární pravděpodobnosti těch typů, které v korpusu z důvodu jeho omezenosti dosud nenacházíme.

Viz také ↗hapax legomenon.

Literatura
  • Baayen, H. R. Word Frequency Distributions, 2001.
Citace
Václav Cvrček (2017): HAPAX. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/HAPAX (poslední přístup: 2. 12. 2020)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka