WORDNET

Základní

Doslova „Síť slov“. Lexikální databáze, ve které jsou slova a slovní spojení (tzv. literály) seskupena do synonymických řad neboli synsetů (z angl. synonymical set) a jednotlivé synsety jsou propojeny sémantickými vztahy. Každý sémantický vztah je spojnicí mezi dvěma synsety, díky čemuž tvoří W. síť (graf). Nejčastěji používanými sémantickými vztahy ve W. jsou ↗hyponymně-hyperonymní vztah, ↗meronymně‑holonymní vztah a ↗opozitnost. Původní ambicí projektu bylo vytvořit databázi modelující lidskou lexikální paměť, v průběhu času se však ukázalo, že může sloužit i v oblasti počítačového zpracování přirozeného jaz. jako ↗tezaurus a svého druhu ontologie.

W. angličtiny je vytvářen od r. 1985 na Princetonské univerzitě. V současnosti (r. 2013) obsahuje 117 tis. synsetů. Na jeho základě vznikly W. pro jiné jaz. Od r. 1996 byly vytvořeny v projektu EuroWordNet „národní“ W., kde figuruje mj. i český W. Vývoj „národních“ W. (v současnosti více než 70 jaz. světa) mapuje a podporuje Global WordNet Association.

W. obsahuje subst., adj., verb., adverb. Např. {kabriolet, sporťák} tvoří synset, jehož hyperonymem je synset {auto, vůz}, který je spojen vztahem hyperonymie s (jednoprvkovým) synsetem {motorové vozidlo}. Synset {motorové vozidlo} je spojen vztahem holonymie (tj. celek obsahuje část) se synsetem {spalovací motor}. V ↗počítačovém zpracování přirozeného jazyka lze takovou síť využít k reprezentaci a odvozování znalostí. Např. ze vztahů „součástí motorového vozidla je spalovací motor“ a „kabriolet je druhem motorového vozidla“, které jsou ve W. obsaženy, lze odvodit novou znalost, tj. „kabriolet má spalovací motor“ (✍Touretzky, 1986).

W. je prvním zdrojem, na kterém lze ověřit psycholingvistické teorie na celé slovní zásobě. Předtím bylo možné teorie ověřovat jen na malém vzorku slovníku. Důraz na přirozené zachycení sémantických vztahů mezi lexikálními jednotkami vedl k potlačení jejich abecedního uspořádání, protože to fakticky od sebe odděluje lexikální jednotky patřící významově k sobě (např. pesvlk).

Rozšiřující

W. vznikl na základě poznatků z psycholexikologie, v 80. letech nově vznikající vědní disciplíny. Konkrétně měl prokázat psycholingvistickou hypotézu, že organizace lexikální paměti může být reprezentována grafem, jehož uzly jsou lexikální významy a hrany reprezentují sémantické vztahy. Do té doby byla tato hypotéza (tzv. relační hypotéza) popisována jen obecně a nikdy na celé slovní zásobě. Úkolem experimentu bylo vytvořit relační popis angl. slovní zásoby (subst.) a zjistit, zda a které druhy lexikální znalosti tímto způsobem popsat nelze. Experiment skončil úspěšně, přestože se ukázalo, že relační popis celé angl. slovní zásoby narazil na celou řadu problémů.

Od 90. let 20. stol. přibývají k původnímu W., podle místa vzniku nazývanému Princetonský W. (PWN), W. dalších jaz. V projektu EuroWordNet (a potom dalších) vzniká mezijazykový index (Inter‑Lingual Index (ILI)), který propojuje synsety stejného významu v jednotlivých W. s PWN. Při tvorbě „národních“ W. se objevují nové problémy, jejichž řešení vedou k odlišnostem proti PWN.

Základní rysy W. jsou společné pro PWN i další W. W. striktně rozlišuje slovní formu (word form) a význam slova (word meaning, ↗lexikální význam). Vztah mezi slovními formami a významy je více‑víceznačný (many‑to‑many): některé slovní formy mají víc významů (↗víceznačnost, ↗homonymie, ↗polysémie), některé významy lze označit různými slovními formami (↗synonymie). V synsetu se vyskytují vždy jen slovní formy jednoho slovního druhu, slovní formy jiných slovních druhů jsou dostupné přes vztah derivace (např. novýnově). W. obsahuje čtyři hlavní autosémantické slovní druhy: subst., adj., verb. a adverbia. Protože řada slov má více významů, jsou literály ve W. označeny číslem za dvojtečkou, např. kohoutek:1kohoutek:2.

W. popisuje lexikální významy diferenčním způsobem, tj. vyhýbá se konstrukci významu. ✍Miller (1991) uvádí příklad slova board (č. deska n. výbor). Uvedením slovního tvaru board v synsetech {board, committee} a {board, plank} W. ukazuje na fakt, že board má nejméně 2 významy, „vysvětluje“ je pouze uvedením synonym. Svojí koncepcí uspořádání významů slova se W. blíží tezaurům.

Páteří W. je sémantický vztah hyponymie/hyperonymie. Synsety propojené pomocí hyponymie/hyperonymie tvoří hyponymické/hyperonymické stromy čili hierarchie pojmů. Vztahy meronymie/holonymie jsou ve W. specifikovány dvěma poddruhy: vyjádření součásti (např. „kapsa je součástí kalhot“) a členství („houslista je součástí orchestru“). Každý synset může mít jedno hyponymum/hyperonymum, ale více meronym/holonym, viz ✍Fellbaum(ová) (1998), ✍Miller (1995). Vztah opozitnosti má ve W. význam zejména u adj. a adverb., u ostatních slovních druhů často nedává smysl n. je diskutabilní, např. otec – matka.

Ve W. jsou slovesa organizována pomocí hyponymie/hyperonymie do sémantických skupin (např. slovesa pohybu, komunikace, vlastnictví aj.) a v rámci každé skupiny (pokud je to možné) popsána pomocí troponymie (upřesnění způsobu). U některých sloves W. reflektuje vztah slabého vyplývání (↗inference): např. z chrápat vyplývá jako pravděpodobnost spát, konkrétně z tvrzení „x chrápe“ (a lexikální znalosti) vyplývá, že asi „x spí“. Troponymie je z tohoto pohledu speciálním případem lexikálního vyplývání. Podobně se W. staví k zachycení vztahů mezi příčinou a následkem. Protože jde o diskutabilní téma, W. se omezuje pouze na tzv. lexikalizované příčinně‑následkové dvojice, např. vyučovat – naučit se. Tento vztah se příliš často nepoužívá, protože může při počítačovém zpracování vést ke sporům (např. ne vždy, když „x vyučuje y (koho) z (co)“, platí, že „y se naučí z“). Opět jde o speciální případ lexikálního vyplývání. W. zachycuje opozitnost u sloves, přestože si autoři uvědomují, že opozitnosti existuje více druhů, od troponym jít – běžet přes konverzivní opozita koupit – prodat až po kontradiktorická antonyma rovnat se – lišit se.

Z uvedeného vyplývá, že zařazení literálů do určitých synsetů i zavedení vztahů mezi určitými synsety je věcí volby autorů databáze. Ve W. je však patrná snaha zachytit tyto vztahy tak, jak by se na nich patrně shodla většina uživatelů jaz.

Na vytváření PWN 1.0 se do r. 1991 podílelo dvacet psychologů, lingvistů a psycholingvistů, počet synsetů této verze je 44 983 (subst.: 28 276, verba: 6 087, adj.: 10 620). Verze 3.0 z r. 2006 obsahuje už 117 659 synsetů (subst.: 82 115, verba: 13 767, adj.: 18 156, adv. 3 621). Současná verze 3.1 je k dispozici online na adrese http://wordnet.princeton.edu/.

V letech 1996–1999 vznikly v rámci projektu EuroWordNet I a II (EWN) W. pro italštinu, španělštinu, holandštinu (v rámci EWN I v letech 1996–1998) a němčinu, francouzštinu, češtinu a estonštinu (v rámci EWN II v letech 1998–1999). Struktura každého W. vznikla nezávisle na ostatních W., aby odrážela způsob lexikalizace v daném jaz. a nešlo jen o „překlad“ PWN. Navíc byla vytvořena vrcholová ontologie (Top Ontology), popisující 63 základních významů (Base Concepts) rozdělených do tří skupin: entity 1. řádu (konkrétní subst., např. zvíře, výrobek, tekutina), entity 2. řádu (subst., verb., adj., např. vlastnost, příčina, trvat), entity 3. řádu (abstraktní subst., např. myšlenka, informace). Základní významy jsou společné pro všechny W., viz ✍Vossen (2002).

Při výstavbě jednotlivých „národních“ W. byla největším problémem shoda na míře diferenciace významů. ✍Vossen & Bloksma ad. (1998) uvádí jak příklady přílišné diferenciace významů (hol. draaien ʻběžetʼ má 2 významy: functioneren ʻfungovatʼ a aan de gang zijn ʻpracovatʼ, které jsou víceméně totožné), tak příklady příliš nízké diferenciace (hol. automatisering ʻautomatizaceʼ je def. jako het automatisch maken of worden ʻudělat automatickýmʼ n. ʻstát se automatickýmʼ).

V EWN bylo také třeba počítat s faktem, že některé významy lexikalizované v jednom jaz. nemají vyjádření v jiném. V takovém případě lze využít tranzitivity sémantických vztahů, např. povyskočit má vztah troponymie se skočit, tzn. přestože povyskočit nebude mít ekvivalent v jiném jaz., je možné v tomto jaz. zaznamenat, že povyskočit je způsobem, jakým lze skočit.

V EWN je patrná snaha co nejhustěji propojit jednotlivé W., přestože v různých jaz. je povaha lexikalizace různá díky rozdílné konceptualizaci. Z toho důvodu vznikla v EWN (oproti PWN) celá řada sém. vztahů, které jsou často poměrně specifické, např. ROLE_SOURCE_DIRECTION popisující směr zdroje (např. dopadnout – zem).

Český W. je vytvářen od r. 1998 na Fakultě informatiky Masarykovy univerzity, nejprve v projektu EWN, později tamtéž v projektu BalkaNet. Základem pro č. W. byl SSČ, který byl v té době jedním z mála použitelných zdrojů, protože existoval v elektronické podobě. Dalším zdrojem, který v té době existoval, a mohl být tudíž použit při tvorbě č. W., byl česko‑anglický překladový slovník Lingea Lexicon. Díky němu bylo také možné č. W. propojit s PWN prostřednictvím ILI. Následně č. W. čerpal z těchto zdrojů: Slovník českých synonym, Český slovník věcný a synonymický I, II a III, seznam českých kolokací z korpusu ESO, korpusu DESAM a ↗ČNK. Velká část dat byla pořízena automaticky z uvedených zdrojů, ale všechna data bylo třeba před zahrnutím do databáze projít manuálně. Do č. W. byly poloautomaticky doplněny derivační vztahy, konkrétně mutace, transpozice, agentivní derivace, přechýlení, deminutivní derivace, posesivní derivace, prefixace, augmentativní derivace; viz ✍Pala & Hlaváčková (2007).

Do č. W. jsou navíc zahrnuty informace o slovesných valencích. Později byl na základě těchto informací vytvořen samostatný slovník valenčních rámců VerbaLex. Hyponymické/hyperonymické stromy v č. W. jsou zpravidla mělčí než v PWN, srov. počítač:1stroj:1aparát:1objekt:1computer:1machine:2device:1instrumentality:1artefact:1inanimate object:1entity:1; viz ✍Pala & Ševeček (1999). Na konci r. 2012 č. W. obsahoval 28 478 synsetů. Na rozdíl od PWN je licence č. W. uzavřená.

Literatura
  • Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database, 1998.
  • Miller, G. A. Analysis of the Organization of Lexical Memory. Defense Technical Information Center, 1991.
  • Miller, G. A. WordNet: A Lexical Database for English. Communications of the ACM 11, 1995, 39–41.
  • Pala, K. & P. Ševeček. Final CD ROM on EuroWordNet, LE4-8328, 1999.
  • Pala, K. & D. Hlaváčková. Derivational Relations in Czech WordNet. In Piskorski, J. & H. Tanev (eds.), Proceedings of the Workshop on Balto-Slavonic Natural Language Processing, 2007, 75–81.
  • Touretzky, D. S. The Mathematics of Inheritance Systems, 1986.
  • Vossen, P. EuroWordNet. General Document, 2002.
  • Vossen, P. & L. Bloksma ad. Compatibility in Interpretation of Relations in EuroWordNet. Computers and the Humanities 2–3, 1998, 153–184.
Citace
Zuzana Nevěřilová (2017): WORDNET. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/WORDNET (poslední přístup: 20. 8. 2019)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka