KORPUSOVÁ DATA

Základní

K.d., prostá či (většinou) různě anotacemi obohacená a technicky zpracovaná, jsou moderním elektronickým ekvivalentem starých a omezených souborů manuálních excerpt z různých (většinou psaných) zdrojů; z takto dříve omezených zdrojů dat se generalizací získávaly a získávají prakticky veškeré informace o jaz., které povaha těchto zdrojů umožňuje. Jsou to zjednodušeně řečeno rozsáhlé soubory elektronických textů uspořádané do podoby ↗korpusu. Data ve velkém a zvláště reprezentativním korpusu odrážejí nejrůznější a typologizované druhy textů, a tedy i nejen většinový a typický úzus, ale i úzus menšinový (daný nižší frekvencí jejich výskytu), který zrcadlí jejich různé a různě časté zastoupení v korpusu. Reprezentativní podoba dat (viz ↗reprezentativnost korpusu), zajišťující maximální objektivnost jaz. informace, se obvykle považuje v obecném (tj. nespecifickém) výzkumu za optimální. V kontrastu k tomuto kvantitativnímu přístupu usilujícímu o objektivnost informací a zdrojových dat stojí specifický výzkum kvalitativní, ale taky některé individuální přístupy jako Chomského a jeho stoupenců, který objektivitu jimi nabízenou v zásadě odmítá a upřednostňuje své vlastní izolované vymyšlené příklady úzu.

Každý korpus je dnes v zásadě založený na souborech elektronických dat psaných (připravených pro tisk n. internetovou komunikaci různého druhu) či mluvených. Psané texty se získávají dnes většinou, jakkoliv ne vždy, od vydavatelů tištěných textů na základě dohody s nimi a kvůli jejich rozsahu se také zpracovávají automaticky; v řadě případů je při získávání dat pro korpus třeba chránit autorská práva tvůrců (copyright). V zásadě stejně náročný, ne-li náročnější, je proces získávání mluvených dat pro ↗mluvené korpusy; ten se děje nahráváním především spontánních akustických promluv, kdy se nahrávky následně přepisují do grafické podoby tak, aby mohly případně existovat paralelně s akustickou podobou. Jiné, vícemodální korpusy (zahrnující i obraz) pro náročnost jejich získání i zpracování dosud ve významnějším rozsahu neexistují, resp. nejsou dostupné.

Od korpusových dat se liší archivy, původně manuální, dnes však už většinou také elektronické, které bývají veřejné (jako Oxford Text Archive), n. vázané na lexikografická, popř. jiná centra (jako Archív ÚJČ ČSAV), která svá data shromažďovala už dříve, a to ruční excerpcí (na kartotéční lístky), jejichž význam už dnešní korpusy v podstatě odsunuly do pozadí. Archivy, konzervující na rozdíl od korpusů jakákoliv cenná data, ať už diachronní n. mluvená, jsou však spíše výjimkou; v případě dat mluvených jsou archivy velmi omezené, až výjimečné, protože automatický spolehlivý převod akustických dat do psané podoby není dosud k dispozici. Manuální archivy slouží výzkumu i dnes a někdy i rostou dál (jako archiv Oxfordského slovníku sestavovaný přes 150 let na základě jeho Reading programme, původně s pomocí dobrovolníků výběrově excerpujících dodané knihy). Rukopisně fixovaná starší data se převádějí do elektronické podoby (↗diachronní korpus), na které navazují další náročné, většinou ruční procesy zpracování.

Rozšiřující

Mezinárodní zdroje korpusových dat

Korpusová data bývají národní a vázaná na jednotlivé ↗korpusy, a jsou pak taky obvykle pro jiné uživatele nedostupná. Kromě toho však existují i menší otevřené mezinárodní zdroje korpusových dat, jako je Tractor (http://acronymfinder.com/), vzniklý jako výsledek spolupráce na evropském projektu TELRI.

Hlavním, většinou komerčním zdrojem jsou však dnes dvě velké instituce, které data z nejrůznějších jaz. a nejrůznějšího druhu shromažďují a dál prodávají. ELRA (European Language Resources Association) (http://elra.info/) se zabývá mj. i organizací světových kongresů držitelů jazykových zdrojů. Její odnoží zabývající se komerčními aspekty poskytování dat je ELDA (Evaluations and Language Resources Distribution Agency) (http://elda.org/), což je organizace v zásadě evropská. Proti ní stojí obdobná a starší americká organizace LDC (Linguistic Data Consortium) (http://www.ldc.upenn.edu/), sdružení univerzit a dalších institucí založené na podporu výzkumu jaz., nabízející data i software.

Podobné je v zásadě nekomerční sdružení OLAC (Open Language Archives Community) (http://language-archives.org/). Velmi užitečný je celkový přehled Linguistic Data Resources on the Internet (http://www-01.sil.org/linguistics/), popř. obecný soupis zdrojů Eserver.org: Accessible Writing (http://eserver.org/).

Za užitečné zdroje dat se však dají považovat i další organizace, jako je OTA (Oxford Text Archive) (http://ota.ox.ac.uk/), archivující data z mnoha jaz. (včetně č.) či Project Guttenberg (http://gutenberg.org/), které se však převážně zabývají digitalizací, archivací a shromažďováním elektronických podob knih. Na významu rychle nabývá také GoogleBooks https://books.google.com/, skenující především současnou knižní produkci; data odtud nejsou zcela volně dostupná.

Jeden z nejlepších přehledů a seznamů jak různých korpusů, tak i softwaru se dá najít na stránce od D. Leea Bookmarks for Corpus-Based Linguists (http://tiny.cc/corpora).

Literatura
Citace
František Čermák (2017): KORPUSOVÁ DATA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/KORPUSOVÁ DATA (poslední přístup: 15. 4. 2021)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka