ASOCIAČNÍ MÍRA | Nový encyklopedický slovník češtiny

ASOCIAČNÍ MÍRA (kolokační míra, association measure)

Autor: Michal Křen

▲

►

Základní

▲

►

Rozšiřující

Matematické postupy (vzorce) používané pro detekci ↗kolokací v ↗korpusu. Velká většina a.m. je omezena pouze na dvoučlenné kolokace. A.m. mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované a.m., včetně čistě empirických bez vztahu ke statistické významnosti. A.m. typicky pracují s frekvencí celé kolokace, jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Ta pro danou dvojici slov (obecně n‑tici, resp. ↗n‑gram) v korpusu vyjadřuje míru asociace mezi nimi, která může být u některých a.m. i záporná, což ukazuje negativní asociaci, tj. vzájemné „odpuzování“. Číselné hodnoty jedné a.m. obecně nejsou srovnatelné s hodnotami jiné a.m., pro srovnávání se však číselné hodnoty běžně převádějí na pořadí (rank) v seznamu kolokací uspořádaného podle číselných hodnot dané a.m. Pro daný korpus tak lze získat seznam nejtypičtějších kolokací uspořádaný podle konkrétní a.m. Kolokační moduly v korpusovém softwaru (↗korpusový a lingvistický software) zpravidla umožňují uživatelům tvořit a zobrazovat seznamy nejvýznamnějších kolokací (slovních tvarů n. ↗lemmat) k vyhledanému slovu (výrazu) podle výsledné hodnoty zvolené a.m.

V současné době jsou známé desítky a.m., mezi nejpoužívanější patří logDice, log‑likelihood, MI‑score, MI³, T‑score aj. (✍Evert, 2005). Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé a.m. mohou navzájem výrazně lišit druhem kolokací, které označují za významné (pro č. viz ✍Křen, 2006). Podstatný rozdíl je např. mezi MI‑score a T‑score: zatímco MI‑score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T‑score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné (viz příklad níže). Protože nelze určit, která a.m. je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální a.m., používají se v praxi také jejich kombinace (✍Pecina, 2009). Výběr vhodné a.m. by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. Mi‑score je citlivá na minimální frekvenci celé kolokace).

Příklad demonstrující rozdíl mezi MI‑score a T‑score: první tabulka ukazuje 25 nejvýznamnějších kolokátů (lemmat) v pravém okolí (max. 3 pozice od základového slova) lemmatu nechat v korpusu SYN2010 setříděných podle hodnoty MI‑score:

	Lemma	Frekvence	T‑score	MI‑score	Rel. frekvence (v %)

1.	okapat	171	13.071	11.092	91.444
2.	zkynout	10	3.161	11.083	90.909
3.	odkapat	33	5.741	10.680	68.750
4.	uležet	89	9.427	10.487	60.135
5.	odstát	28	5.288	10.443	58.333
6.	zkaramelizovat	11	3.314	10.432	57.895
7.	holička	131	11.437	10.396	56.466
8.	štych	43	6.553	10.380	55.844
9.	zesklovatět	35	5.912	10.350	54.688
10.	odležet	83	9.103	10.338	54.248
11.	vykynout	42	6.475	10.238	50.602
12.	vychladit	71	8.419	10.190	48.966
13.	louhovat	51	7.135	10.165	48.113
14.	vychladnout	286	16.896	10.135	47.117
15.	zahoustnout	3	1.730	9.998	42.857
16.	zchladnout	50	7.064	9.910	40.323
17.	naklíčit	4	1.998	9.899	40.000
18.	nabobtnat	49	6.993	9.881	39.516
19.	vytetovat	23	4.790	9.790	37.097
20.	zaprotokolovat	12	3.460	9.718	35.294
21.	macerovat	7	2.643	9.706	35.000
22.	okovat	7	2.643	9.706	35.000
23.	ujít	834	28.843	9.657	33.834
24.	proschnout	14	3.737	9.636	33.333
25.	odmočit	3	1.730	9.636	33.333

Ve většině případů jde o infinitivy z kuchařek a podobných příruček, dále jsou vidět části ↗frazémů nechat na holičkách, nechat ve štychu a nechat si (něco) ujít. Sloupec s relativní frekvencí udává poměr počtu výskytů daného kolokátu v okolí základového slova k počtu jeho výskytů v celém korpusu (např. v takto definovaném pravém okolí lemmatu nechat najdeme 4 výskyty lemmatu naklíčit, což je celkem 40 % všech výskytů lemmatu naklíčit v korpusu SYN2010). Z definice MI‑score zároveň vyplývá, že pořadí (rank) kolokátů podle MI‑score přesně odpovídá jejich pořadí podle relativní frekvence. Protože se relativní frekvence pohybují v řádech desítek procent, jde o kolokace silné, i když většinou nepříliš frekventované.

Naproti tomu diametrálně odlišná je tabulka kolokátů vytvořená za stejných podmínek, avšak setříděná podle hodnoty T‑score:

Lemma
Frekvence
T‑score
MI‑score
Rel. frekvence (v %)

1.
se
7454
71,610
2,552
0,246

2.
na
4866
58,731
2,662
0,265

3.
on
3028
47,964
2,962
0,326

4.
ten
3248
44,277
2,164
0,188

5.
v
3146
38,553
1,677
0,134

6.
já
1674
35,969
3,049
0,347

7.
a
3237
33,946
1,310
0,104

8.
svůj
1258
30,682
2,889
0,311

9.
oni
1162
29,984
3,054
0,348

10.
ujít
834
28,843
9,657
33,834

11.
slyšet
738
26,633
5,671
2,136

12.
být
3120
25,769
0,893
0,078

13.
pokoj
667
25,442
6,070
2,815

14.
do
1078
24,131
1,916
0,158

15.
aby
775
23,993
2,856
0,303

16.
pro
813
23,102
2,398
0,221

17.
od
601
20,081
2,467
0,232

18.
udělat
450
20,072
4,217
0,779

19.
jen
576
20,065
2,608
0,256

20.
za
665
19,286
1,988
0,166

21.
čekat
386
18,550
4,163
0,751

22.
bez
416
18,536
3,455
0,469

23.
tam
431
18,453
3,169
0,377

24.
ležet
353
18,277
5,200
1,541

25.
samotný
346
18,250
5,729
2,223

Kromě řady gramatických slov nacházíme i v této tabulce infinitivy, tentokrát je jich však méně, jsou frekventovanější a bez žánrového omezení. Jediným shodným kolokátem s vysokou hodnotou T‑score i MI‑score je ujít, což ukazuje na kolokaci jak velice frekventovanou, tak silnou.

Literatura

Evert, S. The Statistics of Word Cooccurrences: Word Pairs and Collocations. PhD. diss., Univ. Stuttgart, 2005.
Křen, M. Kolokační míry a čeština: srovnání na datech Českého národního korpusu. In Čermák, F. & M. Šulc (eds.), Kolokace, 2006, 223–248.
Pecina, P. Lexical Association Measures: Collocation Extraction. PhD. dis., MFF UK, Praha, 2009.

Citace

Michal Křen (2017): ASOCIAČNÍ MÍRA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ASOCIAČNÍ MÍRA (poslední přístup: 19. 4. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

ASOCIAČNÍ MÍRA (kolokační míra, association measure)

Další pojmy: