VYTĚŽOVÁNÍ KORPUSU

Základní

Vytěžování korpusu je dáno především typem informace v jazykových korpusech obsažené a možnostmi nástrojů pro jejich analyzování. Jaz. ↗korpusy představují zejména rozsáhlou databázi, soubory realizací jaz. Z tohoto titulu je informace v nich obsažená především informací o úzu (nikoli o potenci jaz.). Korpusový výzkum se proto zaměřuje především na jevy centrální, odhaluje převažující tendence a preference jaz. jednotek v úzu. Jen velmi obtížně je možné korpus využívat k zjišťování negativní informace (co v jaz. použít nelze, které typy vyjádření se vzájemně odpuzují apod.). Na základě těchto pozorování parole usuzujeme na povahu úzu i podobu jaz. systému (langue).

Korpus poskytuje bezprostředně pouze informaci syntagmatického charakteru (u každého hledaného jevu zobrazuje jeho úhrnný kontext, který je možné dále třídit, kvantifikovat a analyzovat). Na rozdíl od excerpčních databází, které jsou výběrové a s omezeným kontextem, se v korpusu zrcadlí především to, co je běžné a preferované. Zprostředkovaně pak korpus nabízí i informace paradigmatického charakteru (kolokační paradigma, morfologické paradigma prostřednictvím paralelních dotazů, slovotvorné paradigma, stylové využití prostředku apod.). Vzhledem k tomu, že velký obecný korpus je jako zdroj dat nevýběrový, poskytuje informaci o úzu v té podobě, v jaké byl realizován, což nemusí být (a často není) ve shodě s tím, jaký úzus vyžaduje jaz. regulace.

Rozšiřující
Literatura
Citace
František Čermák, Václav Cvrček (2017): VYTĚŽOVÁNÍ KORPUSU. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/VYTĚŽOVÁNÍ KORPUSU (poslední přístup: 21. 7. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka