TYPY KORPUSŮ

Základní

Korpusy vznikají podle praktické potřeby uživatelů a jejich typologie se také od těchto potřeb odvíjí. Jejich obecné schéma lze podle jaz. a situace tudíž různě dál modifikovat. K hlavním typům patří ↗korpus:

1.

z hlediska počtu jazyků

a‑jednojazyčný a b‑vícejazyčný

2.

z hlediska tématu ap.

a‑obecný a b‑specializovaný

3.

z hlediska modu

a‑psaný a b‑mluvený

4.

z hlediska časového záběru

a‑synchronní a b‑diachronní

5.

z hlediska „archeologického“

a‑synchronní a b‑archívní

6.

z hlediska vymezeného účelu

různé

Jakkoliv se dnes zájem uživatelů soustřeďuje pochopitelně na synchronní korpusy psané, popř. i mluvené, jako je ↗ČNK (1a, 2a, 3a‒b, 4a‒b), existují a vznikají menšinově i důležité korpusy další (pro č. je řada z nich dostupná na: http://korpus.cz/).

Ke specializovaným korpusům (2b) lze pro č. oblast počítat např. KSK (Korpus soukromé korespondence) či korpus jediného autora (korpus Karla Čapka, Bohumila Hrabala, Orwellova románu 1984, srov. však i korpus období komunistické totality, některé z nich dosud nezveřejněné), patří sem však i lexikograficky orientovaný korpus tvořící podklad Frekvenčního slovníku češtiny (FSC2000), n. korpus LINK (korpus lingvistických textů); vzniká i speciální korpus neslyšících, korpus esemesek, e-mailů aj.

Dnes nejběžnější a nejpoužívanější typ korpusů je ↗psaný korpus. ↗Mluvený korpus (3b) je ze své podstaty synchronní (pro č. jsou momentálně k dispozici už 4 menší, PMK, BMK, Oral2006, Oral2008), volně sem však patří i korpus nahrávek žáků ve škole Schola2010, existují však i korpusy vznikající z fonetických či prozodických důvodů aj.

Korpusy však můžou zahrnovat i více modů, tj. zvl. zároveň grafický přepis, fonetickou původní i průvodní nahrávku a (stále velmi řídce) ještě někdy i nafilmovaný záznam; pak jde o korpus multimodální (ev. multimediální).

Diachronní korpus (4b) je vlastně soubor více korpusů z různých, resp. všech dob vývoje jaz., pokud už jsou elektronicky dostupné; stav zachycení minulosti se od jazyka k jazyku značně liší.

Specifickou roli mají korpusy, které plní roli archivační (5b), ať už u jaz. vymírajících, resp. ohrožených, jako livonština u Baltu či všech 11 sámských (laponských) dialektů apod., anebo u jaz. už dávno mrtvých, srov. např. korpus ugaritštiny, starobabylonštiny (http://klinopis.cz/) aj.

Z dalších hledisek (6) se dříve uvažovalo o monitorovacím korpusu, který se chápal více způsoby. Nejčastěji se pojímal jako v ideálních proporcích sestavený a otagovaný korpus, k němuž se přidávaly jak nové texty, tak nové značky k existujícím starým, což mělo umožňovat srovnání korpusového záznamu stavu jaz. (etalonu) se změnami napříč časem; v praxi se nikdy takový dynamicky pojatý korpus na dlouho neuplatnil a jeho dnešní užití je menší. Od něj se liší referenční korpus, který se zvláště pro svou reprezentativnost a respektovanou povahu užívá jako standard k poměřování jiných korpusů, avšak bez důrazu na časový aspekt. Je pochopitelné, že zvláštní důležitost mají u některých jazyků korpusy nářeční, v č. zatím v zásadě však neexistující.

Paralelní korpusy jsou hlavním představitelem vícejazyčných překladových textů (v zásadě synchronních), umožňující srovnání jaz. Zvláštním případem jsou vícejazyčné paralelní korpusy sdílející řadu textů a vázané na jeden jazyk, jako je č. ↗InterCorp. Z nedostatku paralelních korpusů se někdy užívají i srovnatelné korpusy (comparable corpora), založené na (např. novinových) textech se stejným tématem, kde je naděje na nalezení i obdobných ekvivalentů daných takovým tématem. Vlastní, obvykle menší korpus si může ovšem kdokoliv vytvořit pro svůj specifický cíl sám.

Rozšiřující
Literatura
Citace
František Čermák (2017): TYPY KORPUSŮ. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/TYPY KORPUSŮ (poslední přístup: 22. 9. 2020)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka