DIAKRITIZACE TEXTU  (háčkování textu)

Základní

Automatické doplňování diakritických znamének do textu, ve kterém tato znaménka chybí. Diakritika může v textu chybět z různých, převážně technických důvodů. Elektronická komunikace zpočátku umožňovala používat jen velmi omezenou sadu znaků, do které se vešla pouze písmena anglické abecedy. Podobná omezení platila u řady dalších počítačových aplikací, mobilních telefonů i jiných zařízení. A přestože ve většině případů jsou již tato omezení minulostí, elektronické texty bez diakritiky se nadále objevují, např. proto, že jejich zadávání na mobilních zařízeních je pro uživatele jednodušší, n. kvůli menším nárokům na zakódování takového textu (jedna zpráva SMS pojme až 160 znaků bez diakritiky, jakmile se ale ve zprávě objeví první písmeno s diakritikou, začne se používat méně úsporné kódování a limit velikosti zprávy klesne na 70 znaků). Pro pohodlí příjemce takové zprávy je vhodné (a pro účely ↗počítačového zpracování jazyka dokonce nutné) mít k dispozici program, který dokáže chybějící diakritiku do textu doplnit. Tento proces se nazývá d., slangově háčkování. Z podstaty věci je nutné na výstupu d. předpokládat určité procento chyb.

Č. patří k jazykům s vysokou mírou využití diakritických znamének v textu. Z 26 písmen anglické abecedy jich rovná polovina může v č. nést 1 n. 2 různá znaménka. Kromě toho se s cizími slovy a zejména s vlastními jmény dostávají do č. i znaménka z jiných jaz., např. Müller, Wałęsa, Milošević, Erdoğan. Na druhou stranu by dobrý diakritizační program měl být schopen rozpoznat citované úseky v cizím jaz., které mají zůstat netknuty: ve větě Petr rekl: „Never more!“ chceme diakritizovat uvozovací větu („Petr řekl“), ale nechceme diakritizovat přímou řeč na „Nevěř moře!“.

Pouhé dohledání odpovídajícího slova ve slovníku mnohdy nestačí, protože odstranění diakritiky vytvořilo nové skupiny ↗homonym. Případy, kdy totéž slovo bez diakritiky odpovídá dvěma různým č. slovům, jsou poměrně běžné, např. uhel – úhel. V extrémních případech může mít taková skupina i 6 členů: rad – raď – rád – řad – řaď – řád. Úkolem d. je vybrat z dané homonymní skupiny to slovo, které se v daném kontextu jeví jako nejpravděpodobnější.

Pravděpodobnost slova lze odhadnout na základě jeho četnosti v ↗korpusu; na korpusu můžeme také vyhodnotit úspěšnost té které metody. Údaje v tomto hesle se vztahují k části ↗Pražského závislostního korpusu (PDT; ✍Bejček & Hajič ad., 2011); tato část obsahuje přes 108 tis. slov (včetně čísel, ale bez interpunkčních znamének). Ponecháme‑li všechna slova bez diakritiky, bude jich 50 % správně. Úspěšnost jakékoli statistické metody závisí na rozsahu korpusu, na němž byla statistika získána. Orientačně lze říci, že nejjednodušší přístup, který z každé homonymní skupiny vybere nejčetnější slovo bez ohledu na kontext, vede na 84 % správně diakritizovaných slov. Tuto úspěšnost lze dále zvýšit kombinací korpusu a slovníku (slovník doplní i méně časté slovní tvary, které se v korpusu neobjevily). V uvedeném případě se to týká až 7 % slov, např. model zná slovo strojírenský, ale nezná slovo nestrojírenský.

Možností, jak vylepšit tuto základní metodu, je celá řada. Jejich společným cílem je rozpoznat kontext, ve kterém má být vybráno jiné než nejčetnější slovo. Je možné vést statistiku dvojic či trojic sousedních slov; aby však taková statistika dobře modelovala realitu, potřebujeme řádově větší korpus. Některé homonymie mají systematický charakter, např. přídavné jméno × příslovce (věcné × věcně, věčné – věčně) n. krátký × dlouhý tvar příčestí (řezány × řezaný). Toho lze využít a sbírat statistiky pouze o koncovkách, čímž se nároky na velikost dat sníží.

Diakritická znaménka a problém jejich doplňování se objevuje v řadě jaz., přičemž závažnost problému je úměrná podílu písmen s diakritikou na textu daného jaz. Zajímavá je situace v arabštině, kde se diakritická znaménka používají k zachycení krátkých samohlásek, v běžném textu se však nepoužívají. Zde přitom nejde o technická omezení. Znaménka jsou vynechána i v tisku, protože arabský mluvčí si samohlásky bez problému domyslí podle kontextu; při počítačovém zpracování textu je však potřeba diakritiku doplnit strojově. Z dalších typově podobných problémů lze jmenovat rozlišování malých a velkých písmen n. predikativní zadávání textu pomocí číslicové klávesnice mobilního telefonu (T9).

Rozšiřující
Literatura
  • Bejček, E. & J. Hajič ad. Prague Dependency Treebank 2.5., 2011 (https://lindat.mff.cuni.cz/).
  • Šantić, N. & J. Šnajder ad. Automatic Diacritics Restoration in Croatian Texts. In Future 2009: “Digital Resources and Knowledge Sharing”, 2009, 309–318.
Citace
Daniel Zeman (2017): DIAKRITIZACE TEXTU. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/DIAKRITIZACE TEXTU (poslední přístup: 21. 9. 2019)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka