STATISTIKA TEXTU

Základní

Prostředek ke kvantifikaci jednotek a pro následné porovnávání jednotlivých ukazatelů mezi texty. Zároveň slouží jako východisko pro interpretaci. U všech metod měření proporce jednotek v textu je klíčová informace o tom, jestli použitý statistický ukazatel koreluje s celkovou velikostí textu. Pokud ano, což je případ třeba ↗token‑type poměru, je taková metoda bez dalších úprav jen obtížně použitelná pro porovnávání textů nestejné délky.

Lexikální hustota patří mezi často zjišťované parametry textu a ukazuje obecně na povahu jeho obsahu a délky. Je to index vyjadřující podíl autosémantických slov ke všem slovům v textu (n. korpusu). Přístupy k tomuto ukazateli se liší, v některých případech je východiskem počet výskytů jednotlivých druhů slov, jindy je to počet typů (různých slov), v jiných se lexikální hustota ztotožňuje s type‑token poměrem. Lexikální hustota může sloužit k základnímu poměřování textů, její slabinou je především lpění na jednotlivých grafických slovech jako na nositelích významu (tj. nezohledňování víceslovných jednotek) a na vymezení plnovýznamovosti jako takové (např. spojení dvou číslovek půl druhé označující v běžném úzu čas 13:30 je „víc plnovýznamové“ než leckterá sémanticky vyprázdněná substantiva n. slovesa).

Rozšiřující

Lexikální bohatost (bohatství) je ukazatel míry zapojení různých jednotek (diversity) v textu n. korpusu. Pro určování lexikální bohatosti existuje celá škála postupů (Guiradův koeficient, Herdanův koeficient, Dugastův koeficient apod.), z nichž pouze některé splňují podmínku nezávislosti na celkové délce textu n. korpusu: např. Yulův koeficient K, Orlovův koeficient Z.

Literatura
  • Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
  • Čermák, F. & V. Cvrček ad. Statistické aspekty jazyka Karla Čapka, zvláště jeho lexikonu. In Čermák, F. (ed.), Slovník Karla Čapka, 2007, 671–690.
  • Oakes, M. P. Statistics for Corpus Linguistics, 1998.
  • Těšitelová, M. Kvantitativní lingvistika, 1987.
Citace
Václav Cvrček (2017): STATISTIKA TEXTU. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/STATISTIKA TEXTU (poslední přístup: 15. 4. 2021)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka