KORPUSOVÁ LINGVISTIKA

Základní

Odvětví lingvistiky zabývající se výstavbou a analýzou elektronických jazykových ↗korpusů v počítači, a to všude tam, kam korpusová data dosahují. Doprovází ji nutně jako každý, zvláště relativně mladý obor, několik návazných věcí. Především to je rozvoj metodologie obojího, tj. výstavby korpusů i jejich vytěžování (↗korpusová metodologie), propracování souvisejících oblastí, zvl. aplikovaných (lexikografie, jazyková propedeutika aj.) a šířeji i oblastí nejazykových, a to ve vazbě na úzce související disciplíny, jako je ↗komputační lingvistika a informatika. K.l. je odpovědí na stanoviska N. Chomského a generativistů kolem něj odmítajících studovat skutečný jaz. pro jeho nedostatky, pokřivenosti, popř. i mezery jaz. materiálu pocházejícího z terénu, tj. reálná jaz. data zachycovaná dnešními velkými korpusy. Nepřekročitelnou zásadou k.l. je, proti Chomského zaměření na výběrové a pro něj zajímavé příklady, její systematická orientace na nevýběrové, vyčerpávající studium textů všech korpusových dat objektivními metodami za podpory zvl. kvantitativních, statistických metod, a to v reálném kontextu. K.l., navazující na dřívější manuálně shromažďovaná data (zvláště za účelem tvorby frekvenčních slovníků), která je svými přístupy vlastně novou verzí strukturalistických metod, znamená tedy odvrácení se od spekulativního a mentalismem podbarveného přístupu Chomského k empirickému výzkumu, kde je třeba studovat všechna data, nejen ta nějak „zajímavá“, vyhovující momentální teorii či nápadu.

K.l. je takto především metodologickou disciplínou (↗korpusová metodologie), přináší ale zásadně data k další analýze a studiu každému, kdo je chce používat, a to pro odborníky i šíře pro neodborné, neškolené zájemce. Právě pro snadnou dostupnost korpusových informací se tento obor a jeho nabídka dat stává stále populárnější jak v dnešní lingvistice teoretické, tak aplikované, jednojazyčné i vícejazyčné. K.l. navazuje zčásti na poznání a aplikace ↗komputační lingvistiky; na automatickou analýzu a zpracování dat se však na rozdíl od ní orientuje jen zčásti, zvláště ve fázi shromažďování, zpracování a zpřístupňování hromadných dat a při ↗značkování dat za využití některých typů softwaru. Následnou analýzu korpusem nabídnutých dat dál provádí lingvista pomocí dalších programů (↗programy korpusové a lingvistické), opírá se také v případě potřeby o svou osobní zkušenost a introspekci.

K.l. se od skromných začátků vázaných původně jen na malé korpusy v 60.–80. letech (Brown Corpus a další korpusy první generace) plně rozvíjí až v současnosti, kdy musí řešit stále narůstající problémy s mohutnými datovými rozsahy se stamilióny tokenů, které se už nedají zpracovávat manuálně a kde lingvistova intuice selhává. Vznikají nové programy k analýze dat, zásadními se brzy stávají automatická anotace a tagování textů. V k.l. však dodnes nepanuje shoda co do výhodnosti anotace korpusových textů, která vždy odráží tu kterou teorii (zvláště syntaktickou), a tedy i její nedostatky (ideální požadavek mít mnoho takových anotací podle různých teorií je zatím prakticky nesplnitelný). I takto omezená anotace však usnadňuje a zpřesňuje následnou identifikaci hledané formy a analýzu výsledku; naproti tomu stojí argument pro absenci takové anotace zdůrazňující přednost autentického prostého textu, kde si interpretaci vytváří uživatel, a ne předem daná jedna teorie jako v předchozím případě.

Přesvědčivost a objektivnost informace získávané z korpusových dat pro lingvistickou práci vedla i k potřebě terminologicky blíže rozlišovat mezi tím, jestli závěry lingvistického výstupu vycházejí výlučně z dat (velkého) korpusu, n. jestli se o korpus jen zásadně, ne však výlučně opírají. Pak se mluví o dvou přístupech: corpus‑driven výzkum a corpus‑based výzkum.

Historicky první korpusy se spojují s angl., napřed s jednomiliónovým Brown Corpus v USA (1964, Francis a Kučera); záhy nato se však těžiště rozvoje přenáší do Velké Británie, srov. BNC a Bank of English (↗hlavní světové korpusy), později se šíří i do řady dalších zemí a od r. 1994 založením ↗ČNK a mateřského ústavu na FF UK (Ústav Českého národního korpusu, ÚČNK) i do ČR. V důsledku rozvoje možností a poznání práce s korpusem i nárůstu problematiky jeho studia se k.l. uplatňuje nejen v pedagogických a dalších aplikacích, ale i v konstituování specializovaného doktorského studijního oboru k.l., zvl. při ÚČNK, obecně pak ve většině všech datově podložených lingvistických studiích moderní doby.

Rozšiřující
Literatura
Citace
František Čermák (2017): KORPUSOVÁ LINGVISTIKA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/KORPUSOVÁ LINGVISTIKA (poslední přístup: 19. 9. 2019)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka