POČÍTAČOVÉ ZPRACOVÁNÍ PŘIROZENÉHO JAZYKA

Základní

Automatické zpracování mluveného slova nebo strojově čitelného textu vyžadující určitou znalost jazykového systému, ve kterém daná promluva nebo text vznikly. P.z.p.j. (natural language processing // NLP) je obor, který zahrnuje celou škálu činností při práci s jazykovými daty (elektronickým textem či nahrávkou promluvy). Jde především o takové úlohy, ve kterých využijeme alespoň elementární povědomí o jazyku; nepatří sem technické operace, při kterých zacházíme s textem jako s obecným datovým souborem (např. komprimace dat). Pojem přirozený jazyk je chápán jako protiklad k jazykům formálním, např. programovacím. Uměle vytvořené jazyky určené pro mezilidské dorozumívání (např. esperanto) lze tedy v tomto smyslu přiřadit k přirozeným jazykům.

Příkladem zpracování zajímavého pro koncové uživatele může být ↗strojový překlad (automatický překlad) mezi dvěma přirozenými jazyky, ↗rozpoznávání řeči a její převod na text, komunikace člověka se strojem v přirozeném jazyce, ↗extrakce informací z textu či nahrávky, ↗automatická sumarizace textu, ↗gramatické a ↗pravopisné korektory, ↗diakritizace textun. identifikace jazyka, ve kterém je text napsán, poznání autorství textu, a to psaného (viz ↗jazykový fraktál) i mluveného (↗forenzní fonetika). V neposlední řadě pak také příprava jazykového materiálu (↗korpusů) pro jazykovědný výzkum.

Tyto koncové úlohy v sobě skrývají řadu dílčích problémů, které lze (většinou) klasifikovat buď jako součást analýzy (stroj zjišťuje, co znamená vstupní text), n. syntézy (stroj musí z abstraktní reprezentace významu vygenerovat text v přirozeném jaz.). V současnosti existující metody řešení těchto problémů jsou jen přibližné. Vzhledem ke složitosti jazykového systému je nutné na výstupu očekávat určité procento chyb.

Dílčí problémy analýzy lze uspořádat do pomyslných vrstev (rovin) uspořádaných od povrchové po hloubkovou čili významovou. Analýza obvykle začíná ↗tokenizací, tj. rozdělením vstupní posloupnosti znaků na slova a další prvky (čísla, symboly), pro které se používá souhrnný angl. termín token. Současně je nutné rozpoznat hranice vět, což může být obtížné v případech, kdy velké písmeno následuje po tečce uprostřed věty (sv. Jan).

Na tokenizaci navazuje morfologická analýza, která ke slovnímu tvaru s pomocí elektronického slovníku doplní základní tvar (↗lemma), informace o ↗slovním druhu a hodnotách ↗morfologických kategorií. U homonym přiřadí všechny možné interpretace slova, např. slovní tvar je je tvarem 3.os.sg. slovesa být a zároveň tvarem akuz.pl. zájmena oni. Na morfologickou analýzu bezprostředně navazuje proces ↗desambiguace (zjednoznačnění), kde se z možných interpretací vybere ta, která je na základě kontextu náležitá, n. se jeví nejpravděpodobnější. Tento proces bývá také označován anglickým termínem tagging (značkování) podle značek (tagů) – smluvených kódů, které zhuštěnou formou zachycují hodnoty morfologických kategorií. Používané metody značkování jsou založené na statistických modelech, někdy kombinovaných s lingvisticky motivovanými pravidly. Nejprve se dostatečně velký korpus (řádově statisíce slov) označkuje ručně. Z tohoto korpusu lze pak získat statistiku četnosti jednotlivých značek v kontextu konkrétních slov. Tagger si statistiku zapamatuje („natrénuje se“) a později ji využije při značkování. Pro každé slovo dosud neoznačkovaného textu vezme množinu značek přípustných na základě morfologické analýzy a ze statistiky zjistí, která z nich je v kontextu okolních slov nejpravděpodobnější. Samostatným odvětvím značkování je rozpoznávání a klasifikace pojmenovaných entit, tedy vlastních jmen osob, zeměpisných názvů, názvů organizací a výrobků.

Třetí rovina zpracování se zaměřuje na větnou syntax, tj. seskupování slov do ↗frází (sekce 2)závislostní vztahy mezi slovy. Automatická syntaktická analýza textu bývá i v č. označována anglickým pojmem ↗parsing. V obecném případě jde o velmi obtížný problém. Gramaticky správných vět je v jaz. nekonečně mnoho a délka věty teoreticky není omezena. Pokusy popsat tvoření vět systémem formalizovaných pravidel narážejí na obrovské množství zvláštních případů a větnou homonymii. Někdy se řešení homonymie neobejde bez znalosti mimojazykových skutečností, např. ve frázi červené a bílé víno jde velmi pravděpodobně o dva druhy vína, zatímco červená a bílá polská vlajka vypovídá o jediné vlajce, která má dvě barvy. Člověk si s většinou podobných případů poradí a automaticky odfiltruje méně pravděpodobné (byť ne nutně chybné) interpretace. Při automatické syntaktické analýze se proto nejvíce prosazují metody založené na statistickém ↗strojovém učení, které se také snaží vybrat nejpravděpodobnější čtení. Chyby, které se na výstupu těchto metod objevují, jsou vyvažovány větší robustností: počítač může rozebrat i větu, se kterou autor analyzátoru nepočítal, v extrémním případě i větu negramatickou.

Hodnocení (↗evaluace) úspěšnosti počítačové analýzy jaz. velmi závisí na řadě faktorů, zejména na žánru a na zvoleném tvaru, v jakém požadujeme výsledek analýzy. Orientačně lze říci, že současné algoritmy umožňují pro č. dosáhnout u taggingu (procento správně určených slov) přibližně 95% úspěšnosti a u parsingu 80–85% úspěšnosti u tzv. unlabeled accuracy (procento správně nalezených vztahů mezi řídícím a závislým větným členem) a 75–79% úspěšnosti u tzv. labeled accuracy (procento stanovení správné syntaktické funkce nalezeného syntaktického vztahu).

Rozšiřující
Literatura
  • Allen, J. Natural Language Understanding, 1994.
  • Bojar, O. Čeština a strojový překlad, 2012.
  • Jurafsky, D. & J. D. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics, 2009.
  • Manning, C. & H. Schütze. Foundations of Statistical Natural Language Processing, 1999.
  • Nivre, J. Inductive Dependency Parsing, 2006.
  • Sproat, R. Morphology and Computation, 1992.
Citace
Daniel Zeman, Vladislav Kuboň (2017): POČÍTAČOVÉ ZPRACOVÁNÍ PŘIROZENÉHO JAZYKA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/POČÍTAČOVÉ ZPRACOVÁNÍ PŘIROZENÉHO JAZYKA (poslední přístup: 23. 1. 2020)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka