KOLOKACE

Základní

1. Smysluplná diskrétní kombinace, syntagma jazykových prvků lexikální povahy; je realizací a výsledkem splnění předpokladu jejich vzájemné ↗kolokability, ↗kompatibility; např. ostrý nůž, podat návrh, psát krasopisně; dříve též spojení slov. Kolokace není náhodná kombinace postrádající význam a nebudovaná na kompozičnosti, např. že aby, muž, který aj. V některých pojetích se k. zužuje na kombinace typické.

K. se dělí na (I) ustálené, systémové (jsou součástí systému a z paměti jsou jen vybavované) a (II) neustálené, textové (jsou tvořené ad hoc, jsou to autorské kombinace vznikající podle momentální potřeby). Všechny k. ustálené jsou eo ipso i ustálenými pojmenováními a lexémy, zatímco k. neustálené můžou být jen pojmenováním neustáleným, autorským.

K. ustálené jsou dvou typů: (Ia) pravidelné, termínové k. (víceslovné termíny: kyselina sírová) a (Ib) nepravidelné, idiomatické k. (idiomy a frazémy: nechat na holičkách). K. neustálené, textové se dají dělit obdobně na (IIa) pravidelné, tj. běžné k. (tj. gramaticko‑sémantické kombinace podléhající běžným pravidlům: ostrý nůž) a (IIb) nepravidelné, tj. individuální metaforické k., resp. autorské metafory (mávat argumentem). Některé typy k. je pro jejich nesnadnou zařaditelnost co do jejich ne/ustálenosti (umýt si ruce, obléct si kabát) nutné řadit do přechodného typu textově systémového; všechny jsou pravidelné a lze je nazývat (III) běžné k. uzuální.

K. ustálených je, přestože je slovníky nedokážou registrovat v jejich celku (zvl. u početných termínů), v jaz. absolutní většina a významně mnohonásobně převyšují počet jednoslovných lexémů.

Od k. je třeba lišit ještě tři typy diskrétních textových kombinací, které k. nejsou a jsou v zásadě neustálené. Jde o (A) analytické kombinace tvarů (analytické formy šla by, byl zapsán, bude psát, ptal ses), což jsou zpravidla jen textové, gramaticky pravidelné formy jednoslovného lexému. Proti nim stojí v textu ještě (B) náhodné kombinace sousední (že v, (k vyslovení) nedůvěry stačil (jeden hlas)), které předmětem zájmu lingvistiky obvykle nebývají, a (C) jiné kombinace (zvl. nesmyslný blábol nemocného, opilého aj.), vázané na konkrétní promluvu a zpravidla nesrozumitelné.

2. Ve ↗frazeologii a idiomatice synonymum pro ↗kolokační frazém, tj. anomální kombinaci komponentů na úrovni lexikální (nevětné povahy).

3. V rámci ↗korpusové lingvistiky nejčastěji smysluplné, ustálené, syntagmatické spojení dvou (n. více) slovních tvarů (někdy celých lexémů) v blízkém kontextu; dříve slovní spojení. Vznik k. je podmíněn vzájemnou sémantickou kompatibilitou členů (srov. psát dopis × *psát dřevo) a její význam často přesahuje sumu významů každého z členů kolokace (kolokátů) chápaného izolovaně (cestovní ruch). Potřeba vymezení k. nabývá na důležitosti zejména v souvislosti s rozšířením ↗korpusů, konkrétně v reakci na pozorování indikující, že volba jednoho prostředku předznamenává volbu prostředků v jeho blízkosti. Tento princip předurčeného výběru (idiom principle) kontrastuje s principem volného výběru (open‑choice principle), který předpokládá volnou kombinovatelnost jednotek; ta však v absolutním smyslu nikdy neexistuje. Výrazem uplatnění principu předurčeného výběru jsou jednak k., popř. ↗koligace, a jednak ↗frazémy. K. představují svébytnou lexikální jednotku, je tedy možné u nich vymezovat všechny charakteristiky tradičně určované u jednoslovných lexémů (slovnědruhové zařazení, morfologické a syntaktické vlastnosti apod.).

Ustálenost k. je měřitelná celkovou ↗frekvencí spojení v korpusu (čím vyšší frekvence, tím ustálenější k.) a ovlivňuje ji také míra kompatibility jejích členů s ostatními jednotkami v korpusu (čím nižší, tím ustálenější). Specifickým typem jsou pak kombinace se slovy monokolokabilními (↗monokolokabilita), která jsou schopná vstupovat do k. s velmi omezeným počtem lexémů/slovních tvarů (tratoliště se vyskytuje téměř výlučně ve spojení s tvarem krve). Syntagmatičnost spojení se projevuje nejen existencí syntaktického vztahu mezi slovy, ale především v sémantice spojení: k. představuje v prvé řadě slovní spojení kompatibilní sémanticky, syntagmatičnost se však v některých případech projevuje také v tom, že některé významové aspekty slov, které do k. vstupují, se realizují až v souvýskytu se slovy jinými (stroužek označuje specifický tvar, realizuje se však téměř výlučně ve spojení se slovem česnek). Důraz na syntagmatičnost spojení se u k. projevuje také v tom, že k základovému slovu/frázi (node) se obyčejně hledají kolokáty v rámci úzce vymezeného kontextového okna (span) v textovém řetězu. Opakovaný souvýskyt dvou slov v bezprostředním kontextu (n. také nízkou průměrnou vzdálenost) je přitom možné chápat jako významný indikátor syntagmatičnosti jejich vztahu.

K. jsou jako pojem stále dosud terminologicky neustálené, existuje proto několik paralelních pohledů, které pod tento pojem zahrnují různě širokou škálu podobných jevů. K. se tak v různých přístupech vymezují v opozici k (1) volným syntagmatickým spojením (hlavní změna), (2) víceslovným termínům (hlavní osa), (3) víceslovným propriím (Hlavní nádraží Praha), (4) frazémům a idiomům (ležet ladem) a (5) individuálním autorským metaforám (virové hrátky).

Rozšiřující

K identifikaci k. se v praxi používají statistické ↗asociační míry, které ve většině případů dávají do vztahu k frekvenci jednotek do k. vstupujících frekvenci celého spojení a velikost korpusu. Mezi nejběžnější patří ↗MI‑score, ↗t‑score, ↗log‑likelihood, ↗logDice, Z‑score ad. Každá asociační míra je citlivá na jiný druh k., žádnou proto není možné označit za univerzálně platnou, identifikující automaticky všechny ostatní. Seznam kolokátů jednoho slova bývá někdy označován za kolokační paradigma. Takové paradigma k lemmatu hlavní s nejvyššími hodnotami míry logDice prezentuje následující tabulka:

Lemma

Frekvence

T‑score

MI‑score

logDice

město

4554

66,969

7,037

10,091

role

2068

45,284

7,895

9,931

hrdina

769

27,636

8,191

8,874

důvod

1105

32,84

6,372

8,795

cíl

942

30,351

6,492

8,703

vchod

575

23,894

8,133

8,495

nádraží

546

23,258

7,748

8,386

postava

553

23,27

6,579

8,193

příčina

494

22,05

6,983

8,149

silnice

527

22,632

6,143

8,026

úkol

487

21,791

6,316

7,99

téma

481

21,654

6,303

7,974

líčení

282

16,757

8,882

7,575

zdroj

377

19,035

5,668

7,545

třída

346

18,275

5,832

7,499

hvězda

297

16,898

5,682

7,297

problém

481

20,969

4,51

7,276

ulice

390

19,025

4,771

7,25

organizátor

234

15,202

7,335

7,242

hrdinka

218

14,741

9,267

7,223

Literatura
  • Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
  • Crystal, D. The Cambridge Encyclopedia of the English Language, 1995.
  • Čermák, F. Combination, Collocation and Multi‑Word Units. In Heid, U. & S. Evert ad. (eds.), Proceedings of The Ninth Euralex International Congress 2000, 2000, 489−495.
  • Čermák, F. Syntagmatika slovníku: typy lexikálních kombinací. In Č-US 3, 2001, 223−232.
  • Čermák, F. Kolokace v lingvistice. In Čermák, F. & M. Šulc (eds.), Studie z korpusové lingvistiky 2, Kolokace, 2006, 9−16.
  • Čermák, F. Lexikon a sémantika, 2010.
  • Firth, J. R. Selected Papers of J. R. Firth, 1952–1959, 1968.
  • Hoey, M. Lexical Priming, 2005.
  • Church, K. W. & P. Hanks. Word Association Norms, Mutual Information and Lexicography. Computational Linguistics 16, 1990, 22–29.
  • McEnery, T. & A. Hardie. Corpus Linguistics, 2012.
  • Pecina, P. Lexical Association Measures and Collocation Extraction. Language Resources and Evaluation 44, 2010, 137–158.
  • Sinclair, J. Corpus, Concordance, Collocation, 1995.
Citace
František Čermák (1,2), Václav Cvrček (3) (2017): KOLOKACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/KOLOKACE (poslední přístup: 20. 8. 2019)

Další pojmy:

frazeologie a idiomatika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka