KORPUSOVÁ METODOLOGIE

▲

►

Základní

Korpus se dá zkoumat mnoha formálními způsoby a metodami, které do jisté míry ovlivňuje, resp. podmiňuje užitý software, tj. korpusový manažer n., pro menší korpusy, programy jako ↗AntConc, ↗WordSmith či ↗MonoConcPro. Každý primární přístup k datům má však statistickou, tj. formální povahu, od které se odvíjí vše další, především vlastní analýza kvalitativní, zvláště sémantická.

Třebaže se (I) lingvistická informace do korpusu může, resp. musí vkládat (obvykle jen automaticky, např. slovnědruhové značkování), neznamená to, že v něm lze najít jen tuto vloženou informaci. Vzhledem ke kombinatorické, široce syntagmatické povaze forem korpusu se z korpusu právě (II) díky kombinacím dá vysoudit mnohem víc než jen informace vložená, byť kvantifikovaná. Jedním z hlavních cílů rozpracovávání korpusové metodologie je tudíž využít, za použití především statistických metod, povahy těchto kombinací, a tedy syntagmatického aspektu jaz.

Možnosti výzkumu korpusu se v zásadě pohybují na škále (A) jeden prvek, resp. forma, až (B) celý korpus. V případě (A) zkoumáme tradičně povahu a chování slova, formy v kontextu (v podobě výsledku ↗konkordance), v případě (B) můžeme zkoumání soustředit na (A‑B1) frekvenci všech forem, tvarů v korpusu, popř. na vyhledání (A‑B2) slov, klíčových pro text či celý korpus, jež nám napovídají slova pro daný text tematicky důležitá. Ať už se tedy zkoumá korpus neanotovaný (tj. v podobě prostého textu) či lingvisticky anotovaný, korpusový manažer vždy nabízí frekvenci toho, co hledáme. Frekvence nám přitom napoví, zda jde pro korpus (u velkého korpusu zástupně pro celý jaz.) o (A‑B1a) jev a jeho výskyt typický, daný vysokou frekvencí, n. o (A‑B1b) jev a jeho výskyt netypický, a tedy buď obecně řídký či tematicky n. autorsky zvláštní, popř. cokoliv na škále mezi oběma krajnostmi.

Typičnost korpusových výstupů je tedy přímo vázaná na jejich vysokou frekvenci a může se stát jak východiskem pro frekvenční seznamy (např. pro pedagogické aplikace, lexikografii) či přímo frekvenční slovníky, tak pro prohloubené studium dichotomie ↗centrum a periferie (i když je přitom třeba lišit centrum a periférii textovou, tj. v úzu, od systémové) aj. Je třeba přitom však vždy brát ohled na nepravidelnosti, které bývají frekventované a centrální, a anomálie (zvl. u ↗frazémů).

Protože korpusová informace se vždy opírá o kombinace hledané formy, ať už prosté n. vícečlenné, v určitém řetězci, veškerá analýza vychází ze zkoumání kumulovaných výskytů hledané formy vždy v kontextech v podobě konkordance. Uspořádaná konkordance, založená obvykle na abecedním uspořádání okolních slov (vpředu nebo vzadu, tj. před či za hledanou formou), dokáže dále nabídnout více či méně typické ↗kolokacen. jen (zdánlivě) náhodné shluky slov, tvarů. Některé, při bližším zkoumání a své vyšší frekvenci, můžou ukazovat na existenci dosud neregistrovaných a nepopsaných řetězců složených z více slov, tvarů, a tedy případně i nových jevů apod.

Vlastní analýza se zakládá na pozorování výskytu dané formy ve vztahu k úzu, tj. specificky k okolním slovům, resp. kontextu. Jsou‑li bezprostředně sousedící data v daném kontextu smysluplná, tj. tvoří‑li v daném kontextu s hledaným slovem běžnou (popř. aspoň přijatelnou) kombinaci, jde o ↗kolokace. Analýzou lexikálního okolí, zvláště bezprostředního, se dá, už na základě vyšší abstrakce (např. u pádových koncovek substantiva), soudit také na ↗valenci hledané formy, která se ovšem musí dostatečně opakovat, aby se dala zobecnit; v širším smyslu ale i na její syntaktickou funkci. Obecně se tedy analýza může soustředit na hledání povahy jednotlivé formy (např. lexému) či její kombinace (běžné či např. frazému), anebo na relativně málo zkoumané hledání struktur forem a jejich posloupností. Každá taková analýza je tedy abstrakcí z mnoha výskytů téhož, téže formy v proměnlivém sousedství, kde opakovaný souvýskyt, resp. přímo už vzorec (pattern) souvýskytu forem, upozorňuje na přítomnost analogie. Analogie je takto základem každého zobecnění, gramatického, sémantického či funkčního, je‑li dostatečně doložená, tj. je‑li počet relevantních výskytů s opakováním nějakého (sousedního) rysu dostatečně velký. Základ takového přístupu je tedy obecně induktivní.

Na rozdíl od tradičních jaz. příruček, gramatik apod. výsledky analýzy velkého korpusu ukazují na nevhodnost a neudržitelnost starého přístupu držícího se zásady pravidlo a výjimka. Namísto toho se korpusová data ve své mnohosti jeví jako splývavá, kde takové černobílé hranice a lišení neplatí a je třeba se držet, zvl. za pomoci statistických metod, zásady, resp. principu škály, a tedy v zásadě odstupňované platnosti či členství ve třídě typu „více či méně“, resp. „spíš to než ono“. Při takovémto přístupu se na jedné straně pravidlo, donedávna chápané jako jasně vymezené, rozvolňuje, zvláště co do svých hranic, a princip výjimky naproti tomu víceméně mizí a bývá nahrazený malými třídami. V rámci takto změněného přístupu se mj. ukazuje, že sémantika lexému, jak ji dosud prezentovaly slovníky v podobě ↗lemmatu (lexému), není (i kdyby byla jinak adekvátní datům, což není) totéž jako úhrn chování a významů každého tvaru. Mnoho lexikálních tvarů nebývá podchyceno sémantikou lexémů v příručkách, srov. např. Dovolíte? (= konvenční žádost o usnadnění průchodu v obsazené řadě sedadel v divadle apod.), které se nekryje s žádným z významů lexému dovolit ve slovníku. Zde se však už přechází do studia pragmatiky, její metodologie není příliš rozvinutá.

Vzhledem k příliš velkým rozsahům korpusových dat i výstupních konkordancí se často naráží i na příliš velký rozsah výsledků, který jedinec není už zpravidla schopný mentálně zvládnout (např. při několika tisících konkordančních řádků). V takovém případě je možné zkoumat jednoduchou metodou daný jev jen na několika opakovaných náhodných vzorcích tak dlouho, až se už dále neobjevují nové relevantní výsledky. Metoda vzorku se dá ovšem kvalifikovaně, pomocí matematických metod a vzorečků, propočítat tak, abychom při volbě rozsahu těchto zkoumaných vzorků dosáhli přijatelného stupně chybovosti výsledků, a tedy jejich statistické průkaznosti.

▲

►

Rozšiřující

Literatura

Viz Vytěžování korpusu.

Citace

František Čermák (2017): KORPUSOVÁ METODOLOGIE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/KORPUSOVÁ METODOLOGIE (poslední přístup: 27. 7. 2026)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

KORPUSOVÁ METODOLOGIE

Další pojmy: