LEMMATIZACE

Základní

Přiřazení ↗lemmatu jednomu slovnímu tvaru (příp. skupině slovních tvarů) v textu; viz ✍Čermák & Klímová ad. (2000), ✍McEnery (2001), ✍Hajič (2004), ✍Knowles & Zuraidah (2004), ✍Leech (2004); je obvykle, ne však nutně součástí automatické morfologické (vč. slovnědruhové) ↗anotace. L. lze chápat ve dvojím smyslu: (a) jako součást ↗morfologické analýzy v širším smyslu, kdy se slovnímu tvaru přiřadí všechna jeho lemmata nezávisle na kontextu (pro homonymní tvar může být takových lemmat více) (✍Sedláček, 2006; ✍Hlaváčová, 2009), (b) jako součást procesu ↗disambiguace (zjednoznačnění) slovních tvarů v textu, kdy se náležité lemma stanoví z nabídky, kterou poskytla morfologická analýza, na základě kontextu (✍Karlsson & Voutilainen ad., 1995; ✍Petkevič, 2006). Uvedená pojetí jsou shodná u jednoduché nekontextové l., patří‑li lemmatizovaný slovní tvar k paradigmatu jediného ↗lexému: např. slovesnému tvaru vytvoříme bude při morfologické analýze přiřazeno jediné lemma vytvořit jakožto reprezentativní podoba příslušného slovesného lexému bez ohledu na kontext a následná disambiguace toto lemma nezmění. Automatická l. je v pojetí (b) nesnadná, je‑li lemmatizovaný slovní tvar homonymní, tj. patří‑li k paradigmatům více lexémů: např. tvar zvířenou náleží jednak paradigmatu adjektivního lexému zvířený, jednak paradigmatu substantivního lexému zvířena. V tomto případě se v procesu l. na základě kontextu rozhodne, které z potenciálních lemmat se danému tvaru přiřadí. U lexikálních homonym, jejichž morfologické paradigma je totožné, se někdy při l. rozlišuje mezi jednotlivými lexikálními významy homonyma, např. zabavit_1 × zabavit_2.

Specifickým typem l. je l. víceslovných spojení, která přiřazuje lemma nikoli jednomu slovu, ale více slovům spjatým nějakým vztahem (např. l. předložkových výrazů typu v souvislosti s). Dosud neuspokojivě řešeným problémem při automatické l. je zahrnutí všech tvarů morfologického paradigmatu pod jediné lemma i tam, kde to není patřičné: ne všechny tvary slov spadají pod běžné lemma bez problému. Tak např. zdvořilá prosba o dovolení projít Dovolíte? se neodráží v žádném z registrovaných významů slova dovolit, protože není součástí výlučně morfologické l. (uvedený tvar by se dal lemmatizovat pragmaticky takto: lemma (dovolíte) = dovolíte), a podobné je to u frazémů, kde např. tvar holičkách (ve frazému nechat na holičkách) není asi vhodné lemmatizovat jako holičky (tvar, který mimo metajazykové užití neexistuje).

Automatickou l. provádí počítačový program zvaný lemmatizátor (✍Hajič, 2004; ✍Sedláček, 2006), který je buď samostatný, n. je modulem morfologické analýzy, či morfologického ↗taggeru provádějícího morfologickou ↗disambiguaci textu. Smyslem l. je jednak identifikovat v daném kontextu náležitý lexém u homonymních slovních tvarů, jednak umožnit uživateli pracovat nikoli jen se slovními tvary, nýbrž i s lemmaty jakožto reprezentanty příslušných lexémů a jejich paradigmat, což mu podstatně usnadňuje práci s korpusem. L. zároveň umožňuje pořizovat frekvenční údaje o jednotlivých lexémech a zjišťovat jejich distribuci. Například ve větě Na vyzvání svého předsedy jsme odešli se jednotlivé slovní tvary lemmatizují při l. typu (b) typicky takto (v prvním sloupci je uveden slovní tvar, ve druhém jeho náležité lemma, popř. následované lemmatem v daném kontextu nesprávným; homonymní tvar je vyznačen tučně):

Na

na

vyzvání

vyzvání (vyzvánět)

svého

svůj

předsedy

předseda

jsme

být

odešli

odejít (odeslat)

.

.

Rozšiřující
Literatura
  • Čermák, F. & J. Klímová ad. (eds.) Studie z korpusové lingvistiky, 2000.
  • Český národní korpus, 2010.
  • Garside, R. & G. Leech ad. Corpus Annotation. Linguistic Information from Computer Text Corpora, 1997.
  • Hajič, J. Disambiguation of Rich Inflection (Computational Morphology of Czech), 2004.
  • Hlaváčová, J. Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. PhD. dis., FF UK, Praha, 2009.
  • Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič, V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2011, 154–170.
  • Karlsson, F. & A. Voutilainen ad. (eds.) Constraint Grammar: A Language-Independent System for Parsing Unrestricted Text, 1995.
  • Knowles, G. & M. D. Zuraidah. The Notion of a “Lemma”. Headwords, Roots and Lexical Sets. International Journal of Corpus Linguistics 9, 2004, 69–82.
  • Leech, G. The State of the Art in Corpus Linguistics. In Aijmer, K. & B. Altenberg (eds.), English Corpus Linguistics: Studies in Honour of Jan Svartvik, 1991, 8–29.
  • Leech, G. Corpus Annotation Schemes. Literary and Linguistic Computing 8, 1993, 275–281.
  • Leech, G. Adding Linguistic Annotation. In Wynne, M. (ed.), Developing Linguistic Corpora: A Guide to Good Practice, 2004.
  • McEnery, A. & A. Wilson. Corpus Linguistics, 2001.
  • Petkevič, V. Značkování, automatická morfologická analýza a desambiguace. In Kocek, J. & M. Kopřivová ad. (eds.), Český národní korpus – Úvod a příručka uživatele, 2000, 25–34.
  • Petkevič, V. Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, 2006, 26–44.
  • Sedláček, R. Morfologický analyzátor češtiny. Mgr. dipl., FI MU, Brno, 2006.
Citace
Vladimír Petkevič (2017): LEMMATIZACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/LEMMATIZACE (poslední přístup: 27. 4. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka