DISAMBIGUACE LEXIKÁLNÍCH VÝZNAMŮ (desambiguace lexikálních významů)
U slov s více významy označení toho významu, který je užitý v konkrétním kontextu; také lexikální disambiguace // word sense disambiguation (dále WSD). Příklad: Hnízdí v korunách1 stromů; Zde přijal královskou korunu2; Koupila to za dvacet korun3; Nedal by za to korunu3. Viz také ↗disambiguace.
Jednou z příčin víceznačnosti přirozeného jaz. je skutečnost, že některá slova mají více než jeden význam. Porozumění tomu, o který z možných významů se v daném kontextu jedná, probíhá u člověka bez vynaložení vědomého úsilí. V současné počítačové lingvistice je ale automatická ↗WSD otevřeným problémem. Základním předpokladem a současně největším překážkou ↗WSD je existence inventáře významů pro každé jednotlivé slovo. Jak uvádí ✍Navigli (2009), teoretický model takového inventáře je obvykle hierarchicky členěn do dvou úrovní, odpovídajících ↗homonymii a ↗polysémii. Na úrovni homonymie je cílem odlišit od sebe pouze skupiny významů, které se stejným výrazem označují pouze shodou okolností (mají jiný původ), např. substantivum hnátI / sloveso hnátII, sloveso prouditI (voda v potoce) / sloveso prouditII (maso v udírně). Na úrovni polysémie jsou pak významy rozlišeny jemněji, např. (1) hnát krávy na pastvu, (2) hnát někoho k odpovědnosti, (3) obilí žene do klasů, (4) hnát se za ziskem atd. Tato tradiční lingvistická dichotomie může mít biologický základ: neurolingvistické studie využívající magnetoencefalografii podle ✍Pylkkänen(ové) & Llináse ad. (2006) dokládají, že sémanticky blízké významy jsou rozlišovány v jiné části mozku než významy sémanticky vzdálené.
Disambiguaci na úrovni homonymie lze považovat za součást ↗morfologické disambiguace. V současnosti jde o uspokojivě vyřešený problém, úspěšnost automatických metod většinou překračuje 90 %. Významnějším problémem je disambiguace na úrovni polysémie, a to ze dvou důvodů: (i) Hranice mezi významy slov jsou neostré a proměnlivé v čase. V lexikografii dosud neexistují žádná obecně přijatá kritéria pro rozdělení n. sloučení dvou významů a inventáře významů se liší slovník od slovníku. Podle ✍Kilgarriffa (1997) je chybně definovaný už sám základní koncept ve slovníku vyjmenovaných významů. ✍Pustejovsky (1995) a ✍Hanks (2013) nabízejí méně radikální názor, že statickou část slovníku je nezbytné rozšířit o komponentu, která další významy generuje dynamicky, např. na základě jejich potenciálu pro metaforické užití. (ii) Tzv. knowledge acquisition bottleneck (problém se získáváním anotovaných dat): polysémie je na rozdíl od homonymie velice častá a vytvoření anotovaného korpusu s dostatečně širokým pokrytím se podle ✍Edmondse (2000) jeví jako úkol na několik desetiletí práce.
Historie ↗WSD sahá do 40. let 20. stol., kdy ji ✍Weaver (1949) označil za klíčovou součást úlohy ↗strojového překladu. Po několik následujících desetiletí se z důvodu nedostatku vhodných dat i výpočetních kapacit omezovaly experimenty s ↗WSD na systémy založené na ručně psaných pravidlech. V 80. letech se objevily první rozsáhlejší počítačem zpracovatelné slovníky, což umožnilo vývoj ↗WSD více automatizovat. Od 90. let jednoznačně dominují – podobně jako ve většině ostatních oblastí počítačové lingvistiky – statistické metody (srov. ↗empirické metody zpracování jazyka), zejména metody ↗strojového učení využívající ručně anotovaná trénovací data (supervised machine learning, strojové učení s učitelem). Každému slovu v nich odpovídá samostatný klasifikátor, přičemž tyto klasifikátory mohou využívat nejrůznější typy kontextových rysů: lokální rysy jako např. morfologické, syntaktické a sémantické vlastnosti sousedních slov, globální rysy jako např. hlavní téma textu, popřípadě heuristiky one sense per collocation n. one sense per discourse, které navrhl ✍Yarowsky (1993).
Úspěšnost metod ↗WSD lze vyhodnocovat měřením podílu automaticky přiřazených významů, které se shodují s ruční anotací. Přestože jde o míru objektivní, vzájemně porovnatelné jsou pouze výsledky dosažené na stejných datech, neboť na úspěšnost ↗WSD mají zásadní vliv granularita použitého inventáře významů i doména textu. Za funkční lze považovat pouze metody, které překročí práh (baseline) daný triviálním klasifikátorem, např. takovým, který bez ohledu na kontext přiřazuje všem slovům vždy jejich nejčastější význam (ve slovnících bývá uveden jako první).
Po roce 2000 se objevila i řada experimentů, které se bez ručně anotovaných dat obejdou zcela (unsupervised machine learning, např. ↗shluková analýza), anebo jich potřebují jen malé množství (semisupervised machine learning). Měření úspěšnosti těchto metod je problematické, neboť automaticky indukované sady významů nelze přímočaře namapovat na ručně anotovaná data. Převažuje názor, že úspěšnost těchto metod je zatím nižší než u metod využívajících masivní ručně značkovaná trénovací data.
Hlavní roli v současném výzkumu ↗WSD hraje dostupnost dvou typů dat: (i) slovníků, které vymezují inventáře významů jednotlivých slov, a (ii) korpusů, ve kterých jsou jednotlivým výskytům slov přiřazeny konkrétní významy ze slovníku. Pokud jsou ve slovníku u jednotlivých významů uvedeny i příklady užití n. glosy, mohou částečně nahradit anotovaný korpus. Největší množství datových zdrojů pro ↗WSD je k dispozici pro angl. Mezi nejužívanější zdroje patří slovník ↗WordNet (✍Miller & Beckwith, 1990) a na něj navázaný korpus SemCor. Velice populární byly rovněž datové sady ze série soutěží Senseval (✍Kilgarriff & Palmer(ová), 2000).
V případě č. lze pro experimenty s ↗WSD použít data Pražského závislostního korpusu (PZK, ✍Hajič & Panevová ad., 2011); viz ↗Pražský závislostní korpus. PZK obsahuje rozlišení významu na úrovni morfologie u všech homonymních tvarů. Na úrovni polysémie jsou v PZK systematicky anotována pouze slovesa, přičemž jako inventář významů je využit valenční slovník PDT‑VALLEX. Pro část PZK existuje také ruční anotace významů dalších autosémantických slov s využitím inventáře významů z české části lexikální sítě EuroWordNet (✍Pala & Smrž ad., 2004).
↗WSD není sama o sobě aplikací určenou pro koncového uživatele. Její význam je tradičně zdůvodňován spíše možným přínosem pro jiné aplikace, např. pro strojový překlad n. ↗extrakce informací z textu. Tento přínos je zatím spíše hypotetický, dosavadní experimentální výsledky jsou smíšené. V oblasti ↗strojového překladu, kde ↗WSD bývala považována za principiální součást, dnes stojí mimo hlavní proud výzkumu. Viz také ↗disambiguace.
- Edmonds, P. Designing a Task for SENSEVAL-2. Tech. Note, 2000.
- Hajič, J. & J. Panevová ad. Prague Dependency Treebank 2.5, 2011.
- Hanks, P. Lexical Analysis: Norms and Exploitations, 2013.
- Kilgarriff, A. I don’t Believe in Word Senses. Computers and the Humanities 31, 1997, 91–113.
- Kilgarriff, A. & M. Palmer. Introduction to the Special Issue on Senseval. Computers and the Humanities 34, 2000, 1–13.
- Miller, G. A. & R. Beckwith ad. WordNet: An Online Lexical Database. International Journal of Lexicography 3, 1990, 235–244.
- Navigli, R. Word Sense Disambiguation: A Survey. ACM Computing Surveys 41, 2009.
- Pala, K. & P. Smrž ad. Building Czech WordNet. Romanian Journal of Information Science and Technology 7, 2004, 79–88.
- Pustejovsky, J. The Generative Lexicon, 1995.
- Pylkkänen, L. & R. Llinás ad. The Representation of Polysemy: MEG Evidence. Journal of Cognitive Neuroscience 18, 2006, 97–109.
- Weaver, V. Translation. In Locke, W. N. & A. D. Booth (eds.), Machine Translation of Languages: Fourteen Essays, 1949.
- Yarowsky, D. One Sense per Collocation. In Proceedings of the ARPA Workshop on Human Language Technology, 1993, 266–271.
URL: https://www.czechency.org/slovnik/DISAMBIGUACE LEXIKÁLNÍCH VÝZNAMŮ (poslední přístup: 12. 12. 2024)
CzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka