ASOCIAČNÍ MÍRA (kolokační míra, association measure)
Matematické postupy (vzorce) používané pro detekci ↗kolokací v ↗korpusu. Velká většina a.m. je omezena pouze na dvoučlenné kolokace. A.m. mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované a.m., včetně čistě empirických bez vztahu ke statistické významnosti. A.m. typicky pracují s frekvencí celé kolokace, jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Ta pro danou dvojici slov (obecně n‑tici, resp. ↗n‑gram) v korpusu vyjadřuje míru asociace mezi nimi, která může být u některých a.m. i záporná, což ukazuje negativní asociaci, tj. vzájemné „odpuzování“. Číselné hodnoty jedné a.m. obecně nejsou srovnatelné s hodnotami jiné a.m., pro srovnávání se však číselné hodnoty běžně převádějí na pořadí (rank) v seznamu kolokací uspořádaného podle číselných hodnot dané a.m. Pro daný korpus tak lze získat seznam nejtypičtějších kolokací uspořádaný podle konkrétní a.m. Kolokační moduly v korpusovém softwaru (↗korpusový a lingvistický software) zpravidla umožňují uživatelům tvořit a zobrazovat seznamy nejvýznamnějších kolokací (slovních tvarů n. ↗lemmat) k vyhledanému slovu (výrazu) podle výsledné hodnoty zvolené a.m.
V současné době jsou známé desítky a.m., mezi nejpoužívanější patří logDice, log‑likelihood, MI‑score, MI3, T‑score aj. (✍Evert, 2005). Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé a.m. mohou navzájem výrazně lišit druhem kolokací, které označují za významné (pro č. viz ✍Křen, 2006). Podstatný rozdíl je např. mezi MI‑score a T‑score: zatímco MI‑score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T‑score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné (viz příklad níže). Protože nelze určit, která a.m. je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální a.m., používají se v praxi také jejich kombinace (✍Pecina, 2009). Výběr vhodné a.m. by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. Mi‑score je citlivá na minimální frekvenci celé kolokace).
Příklad demonstrující rozdíl mezi MI‑score a T‑score: první tabulka ukazuje 25 nejvýznamnějších kolokátů (lemmat) v pravém okolí (max. 3 pozice od základového slova) lemmatu nechat v korpusu SYN2010 setříděných podle hodnoty MI‑score:
| Lemma | Frekvence | T‑score | MI‑score | Rel. frekvence (v %) | |
| 1. | okapat | 171 | 13.071 | 11.092 | 91.444 | 
| 2. | zkynout | 10 | 3.161 | 11.083 | 90.909 | 
| 3. | odkapat | 33 | 5.741 | 10.680 | 68.750 | 
| 4. | uležet | 89 | 9.427 | 10.487 | 60.135 | 
| 5. | odstát | 28 | 5.288 | 10.443 | 58.333 | 
| 6. | zkaramelizovat | 11 | 3.314 | 10.432 | 57.895 | 
| 7. | holička | 131 | 11.437 | 10.396 | 56.466 | 
| 8. | štych | 43 | 6.553 | 10.380 | 55.844 | 
| 9. | zesklovatět | 35 | 5.912 | 10.350 | 54.688 | 
| 10. | odležet | 83 | 9.103 | 10.338 | 54.248 | 
| 11. | vykynout | 42 | 6.475 | 10.238 | 50.602 | 
| 12. | vychladit | 71 | 8.419 | 10.190 | 48.966 | 
| 13. | louhovat | 51 | 7.135 | 10.165 | 48.113 | 
| 14. | vychladnout | 286 | 16.896 | 10.135 | 47.117 | 
| 15. | zahoustnout | 3 | 1.730 | 9.998 | 42.857 | 
| 16. | zchladnout | 50 | 7.064 | 9.910 | 40.323 | 
| 17. | naklíčit | 4 | 1.998 | 9.899 | 40.000 | 
| 18. | nabobtnat | 49 | 6.993 | 9.881 | 39.516 | 
| 19. | vytetovat | 23 | 4.790 | 9.790 | 37.097 | 
| 20. | zaprotokolovat | 12 | 3.460 | 9.718 | 35.294 | 
| 21. | macerovat | 7 | 2.643 | 9.706 | 35.000 | 
| 22. | okovat | 7 | 2.643 | 9.706 | 35.000 | 
| 23. | ujít | 834 | 28.843 | 9.657 | 33.834 | 
| 24. | proschnout | 14 | 3.737 | 9.636 | 33.333 | 
| 25. | odmočit | 3 | 1.730 | 9.636 | 33.333 | 
Ve většině případů jde o infinitivy z kuchařek a podobných příruček, dále jsou vidět části ↗frazémů nechat na holičkách, nechat ve štychu a nechat si (něco) ujít. Sloupec s relativní frekvencí udává poměr počtu výskytů daného kolokátu v okolí základového slova k počtu jeho výskytů v celém korpusu (např. v takto definovaném pravém okolí lemmatu nechat najdeme 4 výskyty lemmatu naklíčit, což je celkem 40 % všech výskytů lemmatu naklíčit v korpusu SYN2010). Z definice MI‑score zároveň vyplývá, že pořadí (rank) kolokátů podle MI‑score přesně odpovídá jejich pořadí podle relativní frekvence. Protože se relativní frekvence pohybují v řádech desítek procent, jde o kolokace silné, i když většinou nepříliš frekventované.
Naproti tomu diametrálně odlišná je tabulka kolokátů vytvořená za stejných podmínek, avšak setříděná podle hodnoty T‑score:
| Lemma | Frekvence | T‑score | MI‑score | Rel. frekvence (v %) | |
| 1. | se | 7454 | 71,610 | 2,552 | 0,246 | 
| 2. | na | 4866 | 58,731 | 2,662 | 0,265 | 
| 3. | on | 3028 | 47,964 | 2,962 | 0,326 | 
| 4. | ten | 3248 | 44,277 | 2,164 | 0,188 | 
| 5. | v | 3146 | 38,553 | 1,677 | 0,134 | 
| 6. | já | 1674 | 35,969 | 3,049 | 0,347 | 
| 7. | a | 3237 | 33,946 | 1,310 | 0,104 | 
| 8. | svůj | 1258 | 30,682 | 2,889 | 0,311 | 
| 9. | oni | 1162 | 29,984 | 3,054 | 0,348 | 
| 10. | ujít | 834 | 28,843 | 9,657 | 33,834 | 
| 11. | slyšet | 738 | 26,633 | 5,671 | 2,136 | 
| 12. | být | 3120 | 25,769 | 0,893 | 0,078 | 
| 13. | pokoj | 667 | 25,442 | 6,070 | 2,815 | 
| 14. | do | 1078 | 24,131 | 1,916 | 0,158 | 
| 15. | aby | 775 | 23,993 | 2,856 | 0,303 | 
| 16. | pro | 813 | 23,102 | 2,398 | 0,221 | 
| 17. | od | 601 | 20,081 | 2,467 | 0,232 | 
| 18. | udělat | 450 | 20,072 | 4,217 | 0,779 | 
| 19. | jen | 576 | 20,065 | 2,608 | 0,256 | 
| 20. | za | 665 | 19,286 | 1,988 | 0,166 | 
| 21. | čekat | 386 | 18,550 | 4,163 | 0,751 | 
| 22. | bez | 416 | 18,536 | 3,455 | 0,469 | 
| 23. | tam | 431 | 18,453 | 3,169 | 0,377 | 
| 24. | ležet | 353 | 18,277 | 5,200 | 1,541 | 
| 25. | samotný | 346 | 18,250 | 5,729 | 2,223 | 
Kromě řady gramatických slov nacházíme i v této tabulce infinitivy, tentokrát je jich však méně, jsou frekventovanější a bez žánrového omezení. Jediným shodným kolokátem s vysokou hodnotou T‑score i MI‑score je ujít, což ukazuje na kolokaci jak velice frekventovanou, tak silnou.
- Evert, S. The Statistics of Word Cooccurrences: Word Pairs and Collocations. PhD. diss., Univ. Stuttgart, 2005.
- Křen, M. Kolokační míry a čeština: srovnání na datech Českého národního korpusu. In Čermák, F. & M. Šulc (eds.), Kolokace, 2006, 223–248.
- Pecina, P. Lexical Association Measures: Collocation Extraction. PhD. dis., MFF UK, Praha, 2009.
URL: https://www.czechency.org/slovnik/ASOCIAČNÍ MÍRA (poslední přístup: 31. 10. 2025)
CzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka