FREKVENCE

Základní

V ↗korpusové lingvistice označení počtu výskytů jevu v ↗korpusu, četnost formy n. jevu. Uvádí se buď v absolutních hodnotách, např. ↗lemma pes se ve 100milionovém korpusu SYN2010 vyskytuje 17 701krát, n. jako údaj relativní, např. lemma pes se v SYN2010 vyskytuje (po zohlednění rozdílného počtu slov a pozic v korpusu) 145krát na milion slov (používané zkratky jsou ppm = parts per million, n. ipm = instances per million). Zatímco absolutní f. (tj. prostý počet výskytů slov v korpusu) vyžaduje pro jejich zhodnocení korektiv (v podobě celkové velikosti korpusu n. f. jiného jevu pro srovnání), relativní f. (tj. absolutní f. poměřovaná celkovou délkou korpusu) slouží jako ukazatel četnosti jevu sama o sobě a umožňuje základní srovnání i mezi korpusy n. texty nestejné velikosti. Relativní f. (REL) vztažená k celkové velikosti korpusu (N) se počítá z f. absolutní (ABS) podle vzorce REL = (ABS/N) × 1 000 000; relativní f. je v takovém případě zároveň odhadem pravděpodobnosti výskytu jevu v jaz. (krát 1 milion).

Jelikož je f. intuitivně a introspektivně nedostupná, jsou korpusy hlavním zdrojem informací o ní. Zároveň je f. v rámci korpusové lingvistiky považována za základní ukazatel, který má rozhodující vliv na popis jaz. a posouzení povahy, resp. i důležitosti studované formy či jevu.

Jiný způsob zachycení četnosti představuje rank (pořadí). V soupisu jevů seřazeném podle f. přiřadíme rank 1 jevu s frekvencí nejvyšší, rank 2 jevu s druhou nejvyšší frekvencí atp. rank n, kde n je celkový počet položek v seznamu, jevu s frekvencí nejnižší. Stejně jako f. může i rank být relativní (někdy se značí rr), jeho výpočet se řídí vzorcem rr = r/n, kde n je počet ↗typů v korpusu.

F. jako základní veličina libovolné jednotky (typu) a inherentní langueová charakteristika se používá nejen k poměřování mezi alternujícími jevy (např. f. morfologických variant bychombysme), ale slouží také ke konstruování slovníků (vymezení nejčetnějších slov jako jádra slovní zásoby), extrakci ↗kolokací, zhodnocení gramatických kategorií, identifikaci ↗klíčových slov v textech apod.

Ve většině případů je třeba absolutní n. relativní f. doplnit ještě informací o disperzi (tj. rozložení) daného jevu napříč textem/korpusem. I relativně velmi frekventované jevy se mohou totiž vyskytovat pouze v omezeném okruhu textů, u několika autorů n. v určité části dokumentu. V takových případech může být samotná f. jako ukazatel běžnosti prostředku údajem nespolehlivým. Za účelem kvantifikace nerovnoměrnosti rozložení slov v korpusech se užívají různé míry disperze, z nichž nejjednodušší jsou založeny na počítání počtu dokumentů, v nichž se jednotka vyskytuje, n. autorů, kteří jí použili. Sofistikovanější způsoby zjišťování disperze prostředků využívají průměrných dílčích f. v rámci jednotlivých úseků textu/korpusu, příp. počítání variačního koeficientu, tedy poměru směrodatné odchylky f. v jednotlivých částech k průměru těchto dílčích f. (např. Juillandův koeficient D; srov. též ↗ARF).

Rozšiřující
Literatura
  • Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
  • Čermák, F. & M. Křen ad. Frekvenční slovník češtiny, 2004.
  • Kocek, J. & M. Kopřivová ad. (eds.) Český národní korpus: Úvod a příručka uživatele, 2000.
  • MSoČ 1, 2010.
  • Oakes, M. P. Statistics for Corpus Linguistics, 1998.
  • Popescu, I.‑I. & G. Altmann ad. Word Frequency Studies, 2009.
Citace
Václav Cvrček (2017): FREKVENCE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/FREKVENCE (poslední přístup: 12. 10. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka