DIALOGOVÝ SYSTÉM

Základní

Počítačový program, jehož účelem je komunikovat s člověkem pomocí mluvené řeči; viz i ↗zodpovídání dotazů. Hlasové dialogové systémy mají široké možnosti uplatnění, kterými jsou např. automatizace hlasových kontaktních center, interaktivní zábava, výuka jazyků, pomoc hendikepovaným a aplikace, kde jiné ovládací a prezentační možnosti zařízení (např. zobrazovací) jsou omezené. Typický d.s. se skládá z těchto základních komponentů: (a) rozpoznávání mluvené řeči, (b) porozumění přirozenému jazyku, (c) řízení dialogu, (d) generování odezvy a (e) syntézy mluvené řeči.

Rozšiřující

(a) Komponent rozpoznávání řeči má v d.s. za úkol převedení spontánní řeči do textové podoby. V současnosti se pro tyto účely nejčastěji používají statistické přístupy založené na skrytých markovských modelech a umělých neuronových sítích (✍Psutka & Müller ad., 2006). V obou přístupech se model rozpoznávání řeči dělí na model akustický, který modeluje, jak se jednotlivé hlásky slov vyslovují, a na model jazykový, který modeluje, jak se řadí slova do vět. D.s. musí pracovat se spontánní řečí, která se významně liší od řeči čtené. Spontánní řeč je typická používáním nespisovného jazyka a negramatických vět, dále častými přeřeknutími, opakováním již vysloveného, užitím výplňových frází, výskytem neřečových událostí, jako je například váhání, hlasitý nádech, řeč na pozadí n. hluk okolí; viz také ↗výpovědní modifikace. Proto se komponent rozpoznávání řeči připravuje dialogové úloze většinou na míru na základě dat podobných řešené úloze, ideálně na základě anotovaných dat komunikace uživatele a prototypu vyvíjeného dialogového systému. Přestože v úloze rozpoznávání čtené řeči se již běžně dosahuje chybovosti rozpoznaných slov méně než 5 %, v úloze rozpoznávání spontánní řeči v rámci d.s. provozovaném v reálném prostředí se spolehlivost rozpoznávání řeči pohybuje mezi 20–30 %.

(b) Komponent porozumění přirozenému jazyku převádí textový přepis řeči do sémantické reprezentace. Mezi používané formalismy reprezentace sémantické informace patří řečové (dialogové) akty (✍Austin, 1962), sémantické rámce (✍Psutka & Müller ad., 2006), lambda kalkul (✍Zettlemoyer & Collins, 2007). V současnosti se v praktických d.s. nejčastěji používá reprezentace významu založená na ↗řečových aktech (✍Thomson & Young, 2010; ✍Young & Gašić ad., 2010). V dialogových systémech se řečový akt skládá z typu aktu a jeho atributů a hodnot (✍Young & Gašić ad., 2010); (atributům se také často říká koncepty n. sloty). Typ aktu reprezentuje základní význam promluvy, jako je „pozdrav“, „poděkování“, „rozloučení”, anebo také, že uživatel o něčem informuje, chce něco potvrdit n. zjistit. To, o čem chce uživatel informovat n. co chce potvrdit či zjistit, má potom podobu atributů a jejich hodnot. Např. v úloze spočívající v poskytování informací o restauracích by byl atributem „typ jídla“ n. „poloha“ a jim odpovídající hodnoty by byly „italské“ n. „centrum“. Úloha interpretace mluvené řeči z rozpoznaného textu je složitá nejenom kvůli dříve popsaným aspektům spontánní řeči, ale také kvůli velké chybovosti rozpoznaného textu. Z těchto důvodů se standardní techniky vyvinuté v oboru ↗komputační lingvistiky nepoužívají v praxi přímo, ale jsou upraveny tak, aby dosáhly vysoké robustnosti vůči výše popsaným jevům. Příkladem tohoto postupu je sémantický interpret Phoenix (✍Ward & Issar, 1994), který je založen na robustní kombinaci ↗bezkontextových gramatik odpovídající jednotlivým konceptům v řešené úloze. Při interpretaci promluvy se Phoenix snaží najít takovou kombinaci gramatik, aby co největší počet slov byl generován nějakou gramatikou a zároveň aby byl použit co nejmenší počet gramatik. Robustnost tohoto řešení spočívá v tom, že umožňuje přeskočit slova v textu, která neodpovídají žádné gramatice. Podobně může být rozšířen interpret založený na kategoriálních kombinačních gramatikách (combinatory categorial grammars) (✍Steedman, 1996), které reprezentují význam jednotlivých slov v promluvě pomocí lambda kalkulu a definují, jak má být tento význam vyjádřen logickými výrazy reprezentujícími význam celé promluvy. Pro účely zpracování spontánní řeči n. špatně rozpoznané promluvy je interpret doplněn o další kombinační pravidla, která umožní vynechat n. naopak doplnit některá slova promluvy tak, aby se dala odvodit i negramatická věta (✍Zettlemoyer & Collins, 2007). Příkladem nelingvistického přístupu k sémantické interpretaci může být postup využívající sady klasifikátorů pro detekci jednotlivých řečových aktů a jejich atributů. Pro tyto účely byly např. využity klasifikátory založené na metodě podpůrných vektorů (support vector machines) (✍Mairesse & Gašić ad., 2009). Výhoda tohoto přístupu spočívá v tom, že klasifikátory se dají optimalizovat přímo na datech obsahujících negramatické věty n. špatně rozpoznaná slova pomocí standardních technik strojového učení, a tak dosáhnou lepších výsledků v reálném provozu. K porozumění řeči z hlediska psycholingvistiky viz ↗porozumění řeči.

(c) Komponent řízení dialogu reaguje na vstup uživatele a generuje systémový akt jako odpověď. Typicky se dělí na dvě části: (i) model dialogu, který modeluje stav dialogu, a (ii) strategii řízení dialogu, která určuje následující akci dialogového systému na základě odhadnutého stavu. Stav dialogu reprezentuje všechnu informaci potřebnou k úspěšnému pokračování dialogu, tj. zejména cíl uživatele a to, co bylo během konverzace již řečeno a potvrzeno. V současné praxi je komponent řízení dialogu většinou založen na využití ručně psaných deterministických algoritmů a stavových automatů. V tomto případě stavy automatu odpovídají možným stavům dialogu a přechody mezi stavy odpovídají akcím dialogového systému. Příkladem tu může být standard ✍VoiceXML 2.1 (2013). Přestože se aplikace založené na tomto standardu běžně používají, vývoj takových systémů je nákladný a kvalita stále není na takové úrovni, která by umožňovala plynulou konverzaci. Proto se v současnosti zkoumá, jak využít metod učení z dat a optimálního rozhodování, které již byly úspěšně uplatněny v rozpoznávání mluvené řeči n. zpracování přirozeného jazyka. Typicky jsou tyto metody založeny na částečně pozorovatelném markovském rozhodovacím procesu (tzv. partially observable Markov decision proces (POMDP) (✍Thomson & Young, 2010; ✍Young & Gašić ad., 2010)). Základním předpokladem POMDP je, že stav dialogu včetně cíle uživatele nemůže být znám. Proto POMDP počítá pravděpodobnostní funkci přes všechny možné stavy a všechna rozhodnutí jsou potom založena na znalosti této pravděpodobnosti. Zjednodušeně řečeno, POMDP dialogový systém sleduje všechny možné hypotézy o stavu dialogu v každém kroku a vypočítává jejich pravděpodobnost. Následně strategie řízení navrhne optimální odpověď systému. Pro učení strategie řízení se používá zpětnovazební učení (reinforcement learning), které optimalizuje strategii řízení tak, aby maximalizovala očekávanou celkovou odměnu (✍Sutton & Barto, 1998). Např. v případě dotazovacích dialogových systémů je snahou maximalizovat subjektivní spokojenost uživatele a minimalizovat délku dialogu potřebnou ke sdělení požadované informace. Pro zpětnovazební učení jsou typické dva druhy učení: učení v interakci s uživatelem (on‑policy learning) a učení z korpusu dat (off‑policy learning). V současnosti jsou nejpoužívanějšími technikami metody založené na interakci s uživatelem (✍Young & Gašić ad., 2010; ✍Rieser & Lemon, 2011), protože při jejich úspěšném zvládnutí by bylo teoreticky možné vyvinout d.s., které by se mohly dlouhodobě učit, zlepšovat a adaptovat na nové a nepředvídatelné situace.

(d) Komponent generování odezvy transformuje řečový akt systému do textové podoby včetně stylových a emočních charakteristik. Modul generování odpovědi je v praktických dialogových systémech většinou založen na šablonách (✍Young & Gašić ad., 2010; ✍Bohus & Rudnicky, 2009). Šablony jsou ručně napsané věty pro různé řečové akty, ve kterých jsou některé části nahrazeny proměnnými. Potom se při realizaci řečového aktu vybere nejvhodnější šablona a proměnné v šabloně se nahradí hodnotami atributů z řečového aktu. Tento postup je vhodný zejména při prototypování dialogového systému, protože je zaručeno (expertem vývojářem), že výstupy takového modulu budou syntakticky správné. Nevýhodou metod založených na šablonách je jejich malá flexibilita při generování alternativních realizací promluvy, neboť každá alternativa se musí ručně zakódovat jako nová šablona. Proto se v současnosti rozvíjejí statistické metody založené na mapování řečových aktů do syntaktických stromů, z nichž se následně vytvářejí povrchové formy. Příkladem podobného systému může být projekt Personage (✍Mairesse & Walker, 2011). Tento systém má obě popsané komponenty, i když mapování řečových aktů do syntaktických stromů je pro složitost úlohy stále realizováno pomocí šablon. Nicméně převod syntaktického stromu do daného jazyka se učí z dat. Přínosem systému Personage je větší flexibilita a variabilita v generování promluv. Systém např. umožňuje generovat věty, které mají stejný základní význam, ale jsou více či méně stručné, pozitivní n. negativní apod. Další možností, jak zvýšit variabilitu výstupu, je vytvořit statistické modely generování založených na frázích a z takových modelů následně vzorkovat požadované výstupy (viz ✍Mairesse & Gašić ad., 2010). Nicméně potíž s tímto přístupem je v tom, že generované promluvy nemají často dobrou povrchovou strukturu. Proto se takto generované věty vyhlazují pomocí jazykových modelů n. se generuje více alternativních promluv a z nich se následně vybírá pomocí klasifikátorů gramaticky nejlepší realizace.

(e) Komponent syntézy mluvené řeči převádí promluvu v textové podobě na akustický signál, který je následně přehrán uživateli. Proces syntézy se skládá z předzpracování textu a poté syntézy zvukového signálu. Předzpracování textu má zejména za úkol text normalizovat, např. převést zkratky do podoby, ve které se budou následně vyslovovat: ČT → Čé Téčko, n. číslic: 121 → sto dvacet jedna. Pro úlohu předzpracování se většinou používají ručně tvořená pravidla a slovníky. Samotná syntéza je založená buď na metodě výběru akustických jednotek (✍Hunt & Black, 1996), n. na skrytých markovských modelech (✍Zen & Oura, 2009). Metoda výběru akustických jednotek syntetizuje požadovanou větu pospojováním akustických jednotek frází, slov n. fonémů. Pro tuto metodu je velmi důležitá rozsáhlá databáze, ze které se mohou vybírat jednotky tak, aby na sebe co nejlépe akusticky navazovaly a zároveň splňovaly požadavky na prozodii věty. Databáze jednotek se dnes vytváří automaticky z nahraných promluv řečníka a jejich přepisů. První systém rozpoznávání řeči optimalizovaný pro daného řečníka zarovná přepsaný text s akustickým signálem: najde, kde začínají a končí jednotlivé jednotky. Potom se vyberou z takto zarovnaného textu vhodné jednotky pro syntézu, vyskytující se např. ve vhodném kontextu ostatních jednotek n. mající požadované prozodické vlastnosti. Přestože je práce na vytvoření databáze jednotek z velké části automatizovaná, je její příprava stále velmi náročná, zejména pokud je cílem vytvořit syntézu s bohatou prozodií. Metoda založená na skrytých markovských modelech spoléhá podobně jako metoda výběru akustických jednotek na systém rozpoznávání řeči optimalizovaný pro daného řečníka. Ale na rozdíl od metody výběru akustických jednotek se skrytý Markovův model využívá přímo ke generování akustického signálu místo segmentace dat. Výhoda tohoto přístupu je v tom, že změna základních vlastností prozodie, jako je délka trvání jednotlivých hlásek a výška základního hlasivkového tónu n. zabarvení hlasu, se dá dosáhnout relativně snadnou manipulací parametrů modelu.

D.s. mohou kromě hlasu využít také jiných výrazových prostředků ke komunikaci s člověkem; v takovém případě hovoříme o multimodálních dialogových systémech. Multimodální vstup může mít podobu textu vloženého pomocí klávesnice (typed text), ručně psaného textu (handwritten text), gest pořízených pomocí dotykových obrazovek a gest vyjádřených pohybem např. rukou n. hlavy a pořízených videokamerou. Výstup dialogového systému potom může navíc využít grafického rozhraní k zobrazení psaného textu, obrázků n. i virtuální osoby. Dále může komunikovat pomocí vibrací kláves n. dotykové obrazovky, pomocí zařízení k realizaci pohybových gest, např. znakování, n. pomocí manipulace fyzické mluvící hlavy, např. zavrtění hlavou, úsměv n. zamračení.

Literatura
  • Austin, J. L. How to do Things with Words, 1962 (č. překlad Jak udělat něco slovy, 2000).
  • Bohus, D. & A. Rudnicky. The RavenClaw Dialog Management Framework: Architecture and Systems. Computer Speech & Language 23, 2009, 332–361.
  • Hunt, A. & A. W. Black. Unit Selection in a Concatenative Speech Synthesis System Using a Large Speech Database. In Proceedings of ICASSP 96, 1996, 373–376.
  • Mairesse, F. & M. Gašić ad. Spoken Language Understanding from Unaligned Data Using Discriminative Classification Models. In ICASSP '09: Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, 2009, 4749–4752.
  • Mairesse, F. & M. Gašić ad. Phrase-Based Statistical Language Generation Using Graphical Models and Active Learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2010, 1552–1561.
  • Mairesse, F. & M. A. Walker. Controlling User Perceptions of Linguistic Style: Trainable Generation of Personality Traits. Computational Linguistics 37, 2011, 455–488.
  • Psutka, J. & L. Müller ad. Mluvíme s počítačem česky, 2006.
  • Rieser, V. & O. Lemon. Learning and Evaluation of Dialogue Strategies for New Applications: Empirical Methods for Optimization from Small Data Sets. Computational Linguistics 37, 2011, 153–196.
  • Steedman, M. Surface Structure and Interpretation,1996.
  • Sutton, R. S. & A. G. Barto. Reinforcement Learning: An Introduction, 1998.
  • Thomson, B. & S. Young. Bayesian Update of Dialogue State: A POMDP Framework for Spoken Dialogue Systems. Computer Speech & Language 24, 2010, 562–588.
  • VoiceXML 2.1, Working Draft, 2013, http://www.w3c.org.
  • Ward, W. & S. Issar. Recent Improvements in the CMU Spoken Language Understanding System. In Proceedings of the Workshop on Human Language Technology (ACL), 1994, 213–216.
  • Young, S. & M. Gašić ad. The Hidden Information State Model: A Practical Framework for POMDP-Based Spoken Dialogue Management. Computer Speech and Language 24, 2010, 150–174.
  • Zen, H. & K. Oura ad. Recent Development of the HMM-Based Speech Synthesis System (HTS). In Asia-Pacific Signal and Information Processing Association (APSIPA), 2009, 121–130.
  • Zettlemoyer, L. S. & M. Collins. Online Learning of Relaxed CCG Grammars for Parsing to Logical Form. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning EMNLPCoNLL, 2007, 678–687.
Citace
Filip Jurčíček (2017): DIALOGOVÝ SYSTÉM. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/DIALOGOVÝ SYSTÉM (poslední přístup: 21. 9. 2019)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka