KOLOKACE

Autor: František Čermák (1,2), Václav Cvrček (3)

▲

►

Základní

1. Smysluplná diskrétní kombinace, syntagma jazykových prvků lexikální povahy; je realizací a výsledkem splnění předpokladu jejich vzájemné ↗kolokability, ↗kompatibility; např. ostrý nůž, podat návrh, psát krasopisně; dříve též spojení slov. Kolokace není náhodná kombinace postrádající význam a nebudovaná na kompozičnosti, např. že aby, muž, který aj. V některých pojetích se k. zužuje na kombinace typické.

K. se dělí na (I) ustálené, systémové (jsou součástí systému a z paměti jsou jen vybavované) a (II) neustálené, textové (jsou tvořené ad hoc, jsou to autorské kombinace vznikající podle momentální potřeby). Všechny k. ustálené jsou eo ipso i ustálenými pojmenováními a lexémy, zatímco k. neustálené můžou být jen pojmenováním neustáleným, autorským.

K. ustálené jsou dvou typů: (Ia) pravidelné, termínové k. (víceslovné termíny: kyselina sírová) a (Ib) nepravidelné, idiomatické k. (idiomy a frazémy: nechat na holičkách). K. neustálené, textové se dají dělit obdobně na (IIa) pravidelné, tj. běžné k. (tj. gramaticko‑sémantické kombinace podléhající běžným pravidlům: ostrý nůž) a (IIb) nepravidelné, tj. individuální metaforické k., resp. autorské metafory (mávat argumentem). Některé typy k. je pro jejich nesnadnou zařaditelnost co do jejich ne/ustálenosti (umýt si ruce, obléct si kabát) nutné řadit do přechodného typu textově systémového; všechny jsou pravidelné a lze je nazývat (III) běžné k. uzuální.

K. ustálených je, přestože je slovníky nedokážou registrovat v jejich celku (zvl. u početných termínů), v jaz. absolutní většina a významně mnohonásobně převyšují počet jednoslovných lexémů.

Od k. je třeba lišit ještě tři typy diskrétních textových kombinací, které k. nejsou a jsou v zásadě neustálené. Jde o (A) analytické kombinace tvarů (analytické formy šla by, byl zapsán, bude psát, ptal ses), což jsou zpravidla jen textové, gramaticky pravidelné formy jednoslovného lexému. Proti nim stojí v textu ještě (B) náhodné kombinace sousední (že v, (k vyslovení) nedůvěry stačil (jeden hlas)), které předmětem zájmu lingvistiky obvykle nebývají, a (C) jiné kombinace (zvl. nesmyslný blábol nemocného, opilého aj.), vázané na konkrétní promluvu a zpravidla nesrozumitelné.

2. Ve ↗frazeologii a idiomatice synonymum pro ↗kolokační frazém, tj. anomální kombinaci komponentů na úrovni lexikální (nevětné povahy).

3. V rámci ↗korpusové lingvistiky nejčastěji smysluplné, ustálené, syntagmatické spojení dvou (n. více) slovních tvarů (někdy celých lexémů) v blízkém kontextu; dříve slovní spojení. Vznik k. je podmíněn vzájemnou sémantickou kompatibilitou členů (srov. psát dopis × *psát dřevo) a její význam často přesahuje sumu významů každého z členů kolokace (kolokátů) chápaného izolovaně (cestovní ruch). Potřeba vymezení k. nabývá na důležitosti zejména v souvislosti s rozšířením ↗korpusů, konkrétně v reakci na pozorování indikující, že volba jednoho prostředku předznamenává volbu prostředků v jeho blízkosti. Tento princip předurčeného výběru (idiom principle) kontrastuje s principem volného výběru (open‑choice principle), který předpokládá volnou kombinovatelnost jednotek; ta však v absolutním smyslu nikdy neexistuje. Výrazem uplatnění principu předurčeného výběru jsou jednak k., popř. ↗koligace, a jednak ↗frazémy. K. představují svébytnou lexikální jednotku, je tedy možné u nich vymezovat všechny charakteristiky tradičně určované u jednoslovných lexémů (slovnědruhové zařazení, morfologické a syntaktické vlastnosti apod.).

Ustálenost k. je měřitelná celkovou ↗frekvencí spojení v korpusu (čím vyšší frekvence, tím ustálenější k.) a ovlivňuje ji také míra kompatibility jejích členů s ostatními jednotkami v korpusu (čím nižší, tím ustálenější). Specifickým typem jsou pak kombinace se slovy monokolokabilními (↗monokolokabilita), která jsou schopná vstupovat do k. s velmi omezeným počtem lexémů/slovních tvarů (tratoliště se vyskytuje téměř výlučně ve spojení s tvarem krve). Syntagmatičnost spojení se projevuje nejen existencí syntaktického vztahu mezi slovy, ale především v sémantice spojení: k. představuje v prvé řadě slovní spojení kompatibilní sémanticky, syntagmatičnost se však v některých případech projevuje také v tom, že některé významové aspekty slov, které do k. vstupují, se realizují až v souvýskytu se slovy jinými (stroužek označuje specifický tvar, realizuje se však téměř výlučně ve spojení se slovem česnek). Důraz na syntagmatičnost spojení se u k. projevuje také v tom, že k základovému slovu/frázi (node) se obyčejně hledají kolokáty v rámci úzce vymezeného kontextového okna (span) v textovém řetězu. Opakovaný souvýskyt dvou slov v bezprostředním kontextu (n. také nízkou průměrnou vzdálenost) je přitom možné chápat jako významný indikátor syntagmatičnosti jejich vztahu.

K. jsou jako pojem stále dosud terminologicky neustálené, existuje proto několik paralelních pohledů, které pod tento pojem zahrnují různě širokou škálu podobných jevů. K. se tak v různých přístupech vymezují v opozici k (1) volným syntagmatickým spojením (hlavní změna), (2) víceslovným termínům (hlavní osa), (3) víceslovným propriím (Hlavní nádraží Praha), (4) frazémům a idiomům (ležet ladem) a (5) individuálním autorským metaforám (virové hrátky).

▲

►

Rozšiřující

K identifikaci k. se v praxi používají statistické ↗asociační míry, které ve většině případů dávají do vztahu k frekvenci jednotek do k. vstupujících frekvenci celého spojení a velikost korpusu. Mezi nejběžnější patří ↗MI‑score, ↗t‑score, ↗log‑likelihood, ↗logDice, Z‑score ad. Každá asociační míra je citlivá na jiný druh k., žádnou proto není možné označit za univerzálně platnou, identifikující automaticky všechny ostatní. Seznam kolokátů jednoho slova bývá někdy označován za kolokační paradigma. Takové paradigma k lemmatu hlavní s nejvyššími hodnotami míry logDice prezentuje následující tabulka:

Lemma
Frekvence
T‑score
MI‑score
logDice
město
4554
66,969
7,037
10,091
role
2068
45,284
7,895
9,931
hrdina
769
27,636
8,191
8,874
důvod
1105
32,84
6,372
8,795
cíl
942
30,351
6,492
8,703
vchod
575
23,894
8,133
8,495
nádraží
546
23,258
7,748
8,386
postava
553
23,27
6,579
8,193
příčina
494
22,05
6,983
8,149
silnice
527
22,632
6,143
8,026
úkol
487
21,791
6,316
7,99
téma
481
21,654
6,303
7,974
líčení
282
16,757
8,882
7,575
zdroj
377
19,035
5,668
7,545
třída
346
18,275
5,832
7,499
hvězda
297
16,898
5,682
7,297
problém
481
20,969
4,51
7,276
ulice
390
19,025
4,771
7,25
organizátor
234
15,202
7,335
7,242
hrdinka
218
14,741
9,267
7,223

Literatura

Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
Crystal, D. The Cambridge Encyclopedia of the English Language, 1995.
Čermák, F. Combination, Collocation and Multi‑Word Units. In Heid, U. & S. Evert ad. (eds.), Proceedings of The Ninth Euralex International Congress 2000, 2000, 489−495.
Čermák, F. Syntagmatika slovníku: typy lexikálních kombinací. In Č-US 3, 2001, 223−232.
Čermák, F. Kolokace v lingvistice. In Čermák, F. & M. Šulc (eds.), Studie z korpusové lingvistiky 2, Kolokace, 2006, 9−16.
Čermák, F. Lexikon a sémantika, 2010.
Firth, J. R. Selected Papers of J. R. Firth, 1952–1959, 1968.
Hoey, M. Lexical Priming, 2005.
Church, K. W. & P. Hanks. Word Association Norms, Mutual Information and Lexicography. Computational Linguistics 16, 1990, 22–29.
McEnery, T. & A. Hardie. Corpus Linguistics, 2012.
Pecina, P. Lexical Association Measures and Collocation Extraction. Language Resources and Evaluation 44, 2010, 137–158.
Sinclair, J. Corpus, Concordance, Collocation, 1995.

Citace

František Čermák (1,2), Václav Cvrček (3) (2017): KOLOKACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/KOLOKACE (poslední přístup: 25. 6. 2026)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

Lemma	Frekvence	T‑score	MI‑score	logDice
město	4554	66,969	7,037	10,091
role	2068	45,284	7,895	9,931
hrdina	769	27,636	8,191	8,874
důvod	1105	32,84	6,372	8,795
cíl	942	30,351	6,492	8,703
vchod	575	23,894	8,133	8,495
nádraží	546	23,258	7,748	8,386
postava	553	23,27	6,579	8,193
příčina	494	22,05	6,983	8,149
silnice	527	22,632	6,143	8,026
úkol	487	21,791	6,316	7,99
téma	481	21,654	6,303	7,974
líčení	282	16,757	8,882	7,575
zdroj	377	19,035	5,668	7,545
třída	346	18,275	5,832	7,499
hvězda	297	16,898	5,682	7,297
problém	481	20,969	4,51	7,276
ulice	390	19,025	4,771	7,25
organizátor	234	15,202	7,335	7,242
hrdinka	218	14,741	9,267	7,223

KOLOKACE

Další pojmy: