ENTROPIE

Základní

↗kvantitativní lingvistice se používá při analýzách textu a označuje stupeň diverzifikovanosti sledovaných jednotek (syntagmat, slovních tvarů, lemmat, morfů, slabik, fonémů, hlásek atp.). Čím je e. vyšší, tím je vyrovnanější poměr daných jednotek v textu, nízká e. je naopak projevem vysoké koncentrace, kdy několik málo jednotek se vyskytuje s výrazně vyšší frekvencí.

Rozšiřující

Do lingvistiky byl pojem e. zaveden z teorie informace. Přestože existuje množství různých definic e. (srov. ✍Esteban & Morales, 1995), v lingvistice se zpravidla používá pojetí ✍Shanonna (1948), který ji definoval jako

,

kde pi je pravděpodobnost dané jednotky v textu, logx je logaritmus o základu x (zpravidla se používá binární logaritmus o základu x = 2 n. přirozený logaritmus o základu x = e, kde e ≈ 2,718 je Eulerovo číslo) a V je počet různých jednotek (typů). Pravděpodobnost pi se odhaduje prostřednictvím relativní frekvence, tj.

,

kde fi je frekvence jednotky v textu a N počet všech jednotek (tokenů). Původní vzorec lze tak zapsat jako

Minimální míra entropie Hmin = 0 by nastala v případě, že by text byl tvořen jedinou jednotkou, která by se neustále opakovala. Naopak maximální entropii by měl text, ve kterém by se všechny jednotky vyskytovaly se stejnou frekvencí:

Míra e. textu se pohybuje v intervalu <0, logxV>, její hodnotu tedy významně ovlivňuje počet různých jednotek (typů) v textu. V případě analýzy entropie založené na frekvenci jednotek s velkým inventářem, jako jsou slovní tvary, lemmata, slabiky či morfy, je počet různých jednotek v textu závislý na jeho délce, tudíž je na délce textu závislá i hodnota maximální entropie Hmax (k vlivu délky textu viz ↗slovní bohatství textu). To znamená, že je neadekvátní porovnávat texty o různé délce a je nutné buď

(a) text segmentovat na stejné délkové úseky (např. 100 jednotek), v každému úseku zjistit entropii a následně vypočítat průměrnou hodnotu entropie , tj.

,

kde Hi je entropie daného úseku a n je počet těchto úseků v textu, n.

(b) pracovat s relativní hodnotu entropie Hrel, která je definována jako poměr empirické entropie H vzhledem k jejímu maximu, tj.

V případě analýzy e. založené na frekvenci jednotek s relativně malým inventářem – v jazyce jde zřejmě jen o hlásky či fonémy (je však možné pracovat také s kategoriemi, jako je gramatický pád, slovní druh, sémantická role, větný člen atp.) – dojde v textu (pokud je dostatečně dlouhý) ke stavu, kdy se v něm realizuje celý inventář sledovaných jednotek. Od toho stavu již délka textu nehraje roli, a je proto možné porovnávat texty různé délky.

Rozdíly mezi hodnotami entropie H lze v dostatečně dlouhých textech statisticky testovat prostřednictvím asymptotického testu

,

kde H1H2 jsou entropie dvou různých textů a Var(H) je rozptyl, jenž ✍Popescu & Vidya ad. (2009:184) ho definují

E. slovních tvarů či lemmat v textu je možné interpretovat ve vztahu k ↗slovnímu bohatství textu, e. hlásek ve verši ve vztahu k eufonii, e. slabik k průměrné délce slova v jazyce, e. fonémů k míře jejich redundance ve slovech atd. E. se také používá v numerické estetice (✍Bartók & Janoušek, 1980; ✍Birkhoff, 1933; ✍Moles, 1968; ✍Rigau & Feixas ad., 2007). Obecně lze říct, že e. je jedním ze způsobů, jak charakterizovat distribuci zvolených jednotek v textu či jazyce.

Literatura
  • Bartók, I. & I. Janoušek. Počítače a umenie, 1980.
  • Benešová, M. Poe’s Raven and the Theory of Information. Czech and Slovak Linguistic Review, 2012, 28–61.
  • Birkhoff, G. D. Aesthetic Measure, 1933.
  • Buiatti, M. & P. Grigolini ad. A Non Extensive Approach to the Entropy of Symbolic Sequences. Physica A 268, 1999, 214–228.
  • Cover, T. M. & J. A. Thomas. Elements of Information Theory, 2006.
  • Esteban, M. D. & D. Morales. A Summary of Entropy Statistics. Kybernetika 31, 1995, 337–346.
  • Herdan, G. The Advanced Theories of Language as Choice and Chance, 1966.
  • Moles, A. Information Theory and Esthetic Perception, 1968.
  • Popescu, I.-I. & M. N. Vidya ad. Word Frequency Studies, 2009.
  • Rigau, J. & M. Feixas ad. Conceptualizing Birkhoff’s Aesthetic Measure Using Shannon Entropy and Kolmogorov Complexity. In Cunningham, D. W. & G. W. Meyer ad. (eds.), Proceedings of Computational Aesthetics, 2007, 105–112.
  • Shannon, C. The Mathematical Theory of Communication. Bell System Technical Journal 27, 1948, 379–423.
Citace
Gabriel Altmann, Radek Čech, Ján Mačutek (2017): ENTROPIE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ENTROPIE (poslední stažení: 18. 10. 2017)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2017

Provozuje Centrum zpracování přirozeného jazyka