ASOCIAČNÍ MÍRA  (kolokační míra, association measure)

Základní
Rozšiřující

Matematické postupy (vzorce) používané pro detekci ↗kolokací↗korpusu. Velká většina a.m. je omezena pouze na dvoučlenné kolokace. A.m. mají převážně matematický základ vycházející ze statistického testování hypotéz, vyskytují se ale i jinak motivované a.m., včetně čistě empirických bez vztahu ke statistické významnosti. A.m. typicky pracují s frekvencí celé kolokace, jejích jednotlivých členů (slov) a velikostí korpusu, dosazují je do kontingenčních tabulek a na jejich základě počítají podle určeného vzorce výslednou číselnou hodnotu. Ta pro danou dvojici slov (obecně n‑tici, resp. ↗n‑gram) v korpusu vyjadřuje míru asociace mezi nimi, která může být u některých a.m. i záporná, což ukazuje negativní asociaci, tj. vzájemné „odpuzování“. Číselné hodnoty jedné a.m. obecně nejsou srovnatelné s hodnotami jiné a.m., pro srovnávání se však číselné hodnoty běžně převádějí na pořadí (rank) v seznamu kolokací uspořádaného podle číselných hodnot dané a.m. Pro daný korpus tak lze získat seznam nejtypičtějších kolokací uspořádaný podle konkrétní a.m. Kolokační moduly v korpusovém softwaru (↗korpusový a lingvistický software) zpravidla umožňují uživatelům tvořit a zobrazovat seznamy nejvýznamnějších kolokací (slovních tvarů n. ↗lemmat) k vyhledanému slovu (výrazu) podle výsledné hodnoty zvolené a.m.

V současné době jsou známé desítky a.m., mezi nejpoužívanější patří logDice, log‑likelihood, MI‑score, MI3, T‑score aj. (✍Evert, 2005). Vzhledem k šíři a různorodosti kolokací z lingvistického i matematického hlediska je pochopitelné, že se jednotlivé a.m. mohou navzájem výrazně lišit druhem kolokací, které označují za významné (pro č. viz ✍Křen, 2006). Podstatný rozdíl je např. mezi MI‑score a T‑score: zatímco MI‑score nachází silné kolokace s velkou relativní frekvencí, a tedy spíše výjimečné až náhodné, T‑score naopak kolokace nenáhodné, pravidelné a ustálené, ale nepříliš výrazné (viz příklad níže). Protože nelze určit, která a.m. je obecně „nejlepší“, a nelze ani očekávat uspokojivé podchycení celé množiny kolokací pomocí jediné univerzální a.m., používají se v praxi také jejich kombinace (✍Pecina, 2009). Výběr vhodné a.m. by tedy měl záviset především na tom, jaký druh kolokací chceme hledat; důležité je přitom i nastavení kontextu a dalších parametrů (např. Mi‑score je citlivá na minimální frekvenci celé kolokace).

Příklad demonstrující rozdíl mezi MI‑score a T‑score: první tabulka ukazuje 25 nejvýznamnějších kolokátů (lemmat) v pravém okolí (max. 3 pozice od základového slova) lemmatu nechat v korpusu SYN2010 setříděných podle hodnoty MI‑score:

Lemma

Frekvence

T‑score

MI‑score

Rel. frekvence (v %)

1.

okapat

171

13.071

11.092

91.444

2.

zkynout

10

3.161

11.083

90.909

3.

odkapat

33

5.741

10.680

68.750

4.

uležet

89

9.427

10.487

60.135

5.

odstát

28

5.288

10.443

58.333

6.

zkaramelizovat

11

3.314

10.432

57.895

7.

holička

131

11.437

10.396

56.466

8.

štych

43

6.553

10.380

55.844

9.

zesklovatět

35

5.912

10.350

54.688

10.

odležet

83

9.103

10.338

54.248

11.

vykynout

42

6.475

10.238

50.602

12.

vychladit

71

8.419

10.190

48.966

13.

louhovat

51

7.135

10.165

48.113

14.

vychladnout

286

16.896

10.135

47.117

15.

zahoustnout

3

1.730

9.998

42.857

16.

zchladnout

50

7.064

9.910

40.323

17.

naklíčit

4

1.998

9.899

40.000

18.

nabobtnat

49

6.993

9.881

39.516

19.

vytetovat

23

4.790

9.790

37.097

20.

zaprotokolovat

12

3.460

9.718

35.294

21.

macerovat

7

2.643

9.706

35.000

22.

okovat

7

2.643

9.706

35.000

23.

ujít

834

28.843

9.657

33.834

24.

proschnout

14

3.737

9.636

33.333

25.

odmočit

3

1.730

9.636

33.333

Ve většině případů jde o infinitivy z kuchařek a podobných příruček, dále jsou vidět části ↗frazémů nechat na holičkách, nechat ve štychunechat si (něco) ujít. Sloupec s relativní frekvencí udává poměr počtu výskytů daného kolokátu v okolí základového slova k počtu jeho výskytů v celém korpusu (např. v takto definovaném pravém okolí lemmatu nechat najdeme 4 výskyty lemmatu naklíčit, což je celkem 40 % všech výskytů lemmatu naklíčit v korpusu SYN2010). Z definice MI‑score zároveň vyplývá, že pořadí (rank) kolokátů podle MI‑score přesně odpovídá jejich pořadí podle relativní frekvence. Protože se relativní frekvence pohybují v řádech desítek procent, jde o kolokace silné, i když většinou nepříliš frekventované.

Naproti tomu diametrálně odlišná je tabulka kolokátů vytvořená za stejných podmínek, avšak setříděná podle hodnoty T‑score:

Lemma

Frekvence

T‑score

MI‑score

Rel. frekvence (v %)

1.

se

7454

71,610

2,552

0,246

2.

na

4866

58,731

2,662

0,265

3.

on

3028

47,964

2,962

0,326

4.

ten

3248

44,277

2,164

0,188

5.

v

3146

38,553

1,677

0,134

6.

1674

35,969

3,049

0,347

7.

a

3237

33,946

1,310

0,104

8.

svůj

1258

30,682

2,889

0,311

9.

oni

1162

29,984

3,054

0,348

10.

ujít

834

28,843

9,657

33,834

11.

slyšet

738

26,633

5,671

2,136

12.

být

3120

25,769

0,893

0,078

13.

pokoj

667

25,442

6,070

2,815

14.

do

1078

24,131

1,916

0,158

15.

aby

775

23,993

2,856

0,303

16.

pro

813

23,102

2,398

0,221

17.

od

601

20,081

2,467

0,232

18.

udělat

450

20,072

4,217

0,779

19.

jen

576

20,065

2,608

0,256

20.

za

665

19,286

1,988

0,166

21.

čekat

386

18,550

4,163

0,751

22.

bez

416

18,536

3,455

0,469

23.

tam

431

18,453

3,169

0,377

24.

ležet

353

18,277

5,200

1,541

25.

samotný

346

18,250

5,729

2,223

Kromě řady gramatických slov nacházíme i v této tabulce infinitivy, tentokrát je jich však méně, jsou frekventovanější a bez žánrového omezení. Jediným shodným kolokátem s vysokou hodnotou T‑score i MI‑score je ujít, což ukazuje na kolokaci jak velice frekventovanou, tak silnou.

Literatura
  • Evert, S. The Statistics of Word Cooccurrences: Word Pairs and Collocations. PhD. diss., Univ. Stuttgart, 2005.
  • Křen, M. Kolokační míry a čeština: srovnání na datech Českého národního korpusu. In Čermák, F. & M. Šulc (eds.), Kolokace, 2006, 223–248.
  • Pecina, P. Lexical Association Measures: Collocation Extraction. PhD. dis., MFF UK, Praha, 2009.
Citace
Michal Křen (2017): ASOCIAČNÍ MÍRA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ASOCIAČNÍ MÍRA (poslední přístup: 23. 7. 2019)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka