SYNTÉZA ŘEČI

Základní

Proces umělého vytváření řeči, resp. převod psaného textu na mluvenou řeč (text‑to‑speech – TTS). Systémy syntézy řeči, resp. syntézy řeči z textu, se využívají zejména k automatickému čtení textů (knih, elektronické pošty, webovských stránek atd.) v počítačích, chytrých telefonech, tabletech či v jiných elektronických zařízeních a dále pro zpřístupnění psaných textů nevidomým a zrakově postiženým (např. pomocí čteček obrazovek, tzv. screen reader) či jako hlasová pomůcka pro němé a lidi s poruchou hlasu. Spolu s rozpoznáváním řeči je s.ř. nedílnou součástí hlasových dialogových systémů.

Systémy s.ř. se skládají ze dvou hlavních modulů: (a) ↗zpracování přirozeného jazyka (NLP) a (b) vlastního syntetizéru řeči.

(1) V angl. literatuře se modul ↗NLP v kontextu syntézy řeči z textu nazývá front‑end. Jeho úkolem je převést psaný text do výslovnostní podoby (např. ✍Taylor, 2009). Tento modul obvykle zahrnuje blok fonetické transkripce textu a blok generování prozodických (suprasegmentálních) charakteristik řeči. Protože fonetická transkripce ani generování prozodických charakteristik na základě textu nemusí být jednoznačné, bývá těmto blokům předřazen blok lingvistické analýzy textu (překryv s oborem ↗komputační lingvistika – zahrnuje např. předzpracování textu, normalizaci textu nebo interpretaci značkovaného textu a dále morfologickou, syntaktickou, kontextovou a ideálně i sémantickou analýzu textu, viz např. ✍Manning & Schütze, 1999; ✍Taylor, 2009 aj.). Modul NLP bývá silně jazykově závislý – jednotlivé postupy a algoritmy využívají různé znalosti o zpracovávaném jaz., ať už na expertní úrovni (např. pravidla ↗fonetické transkripce, pravidla pro převod různých entit – dat, časových údajů atd. – do plné slovní formy, pravidla pro frázování a jiné členění vět na fráze či jiné subvětné celky apod.) n. na úrovni jazykově závislých příznaků pro různé metody strojového učení (↗strojové učení). Pro syntézu č., slovanského jaz. s těsnou korespondencí mezi psanou a výslovnostní formou slov, se k fonetické transkripci používají podrobné fonetické znalosti (✍Palková, 1997), produkční pravidla, která definují, jak se jednotlivá písmena v daných fonetických kontextech přepisují na fonémy, a slovníky výjimečných výslovností (obsahující zejména zápis výslovnosti slov cizího původu) (✍Psutka & Müller ad., 2006). Pro generování prozodických charakteristik č. se obvykle využívají znalosti o struktuře věty, jejím členění a způsobu vyjádření modality (např. ✍Sgall & Hajičová ad., 1986; ✍Palková, 1997; ✍Romportl & Matoušek, 2005; ✍Psutka & Müller ad., 2006). Pro lingvistickou analýzu vstupního č. textu lze využít metody ↗komputační lingvistiky.

(2) Modul syntézy řeči (též syntetizér řečin. v angl. literatuře back‑end) na základě jazykově závislých fonetických a prozodických informací o vytvářené řeči získaných na výstupu modulu ↗NLP generuje řeč – provádí vlastní syntézu řeči na signálové úrovni. V současné době se k tomu používají korpusově orientované metody (podle ✍Taylora, 2009 nazývané též techniky třetí generace), které využívají rozsáhlé foneticky a prozodicky anotované řečové korpusy. V rámci korpusově orientovaného přístupu rozlišujeme dvě základní metody: (a) konkatenační syntézu řeči výběrem jednotek a (b) statistickou parametrickou syntézu řeči (SPS). Na rozdíl od modulu NLP syntetizér řeči obvykle využívá jazykově nezávislé algoritmy.

Ad (a) Princip syntézy řeči výběrem jednotek (unit selection) spočívá v řetězení (konkatenaci) řečových signálů vhodně vybraných instancí řečových jednotek (nejčastěji difonů, polofonů n. fonémů). Výběr probíhá podle různých fonetických, prozodických, akustických či kontextových hledisek. Výsledná řeč je tedy tvořena rekombinací původních řečových signálů na úrovni zvolených řečových jednotek (např. ✍Hunt & Black, 1996; ✍Dutoit, 2008; ✍Taylor, 2009 aj.). Výhodou této metody je obecně vysoká kvalita syntetické řeči na signálové úrovni, nevýhodami pak občasný (i výrazný) pokles kvality v místech řetězení související s nedostatečným zastoupením některých řečových kontextů (tzv. řídké kontexty) ve zdrojovém řečovém korpusu, neschopnost systému syntetizovat řeč s jinými charakteristikami (např. v jiném mluvním stylu n. jiným hlasem), než které jsou obsaženy ve zdrojovém řečovém korpusu, a vysoké paměťové nároky (obvykle je nutné ukládat řečové signály všech jednotek). Pro č. bylo dosaženo velmi dobrých výsledků, pokud výběr jednotek probíhal podle konceptu symbolické prozodie, kdy jsou prozodické vlastnosti řečových jednotek místo explicitních hodnot (např. hodnot základní hlasivkové frekvence, trvání jednotek aj.) vyjádřeny implicitně pomocí obecných lingvistických příznaků (např. typ věty n. fráze, fonetický kontext, pořadí jednotky ve slově, pořadí slova ve frázi, pořadí fráze ve větě apod.). V případě rozsáhlých zdrojových korpusů koncept výběru podle symbolické prozodie minimalizuje nutnost modifikace řečového signálu a zachovává tak vysokou signálovou kvalitu vytvářené řeči (viz ✍Tihelka & Matoušek, 2006). Zde jsou ukázky č. hlasu syntetizovaného metodou syntézy řeči výběrem jednotek:

ženský 

mužský 

slovenský ženský 

Ad (b) Statistická parametrická syntéza reprezentuje řečové jednotky (v tomto případě nejčastěji kontextově závislé fonémy; kontext je zde definován fonetickým a prozodickým okolím jednotek) pomocí statistických modelů se pro tento účel používají téměř výhradně skryté Markovovy modely – hidden Markov models (HMM), proto je tato metoda často nazývána také jako HMM syntéza. Stejně jako v případě rozpoznávání řeči je řečový signál ve SPS (viz výše) reprezentován pomocí sady parametrů (nejčastěji mel‑frekvenčních kepstrálních koeficientů, MFCC) a parametry modelů jsou nastavovány automaticky pomocí trénovacích algoritmů založených na metodách strojového učení (↗strojové učení). Výsledná řeč se generuje z natrénovaných modelů (✍Tokuda & Masuko, 1995; ✍Yoshimura & Tokuda ad., 1999; ✍Zen & Tokuda ad., 2009 aj.). Výhodami této metody je stabilní kvalita (díky generování řeči nedochází k poklesu kvality typickému pro řetězení signálů), možnost změny řečových charakteristik (vč. změny hlasu) prostřednictvím změn parametrů modelů a výrazně nižší paměťová náročnost (ukládají se pouze parametry modelů). Nevýhodou je celkově nižší kvalita řeči na signálové úrovni způsobená především statistickým „průměrováním“ při modelování řeči a nutností generovat řeč z parametrů. Vzhledem k silné jazykové nezávislosti tohoto přístupu pracuje SPS č. řeči se stejnými typy statistických modelů; při jejich trénování se využívají řečová data včetně specifických fonetických a prozodických informací získaných na výstupu modulu NLP (viz ✍Hanzlíček, 2010). Zde jsou ukázky č. hlasu syntetizovaného metodou statistické parametrické syntézy řeči:

ženský 

mužský 

V minulosti se – zejména vzhledem k nízkému výkonu tehdejší výpočetní techniky – používaly jiné metody. Mezi tzv. techniky druhé generace patří syntéza řeči konkatenací a signálovou modifikací (na rozdíl od syntézy řeči výběrem jednotek se pro každou řečovou jednotku využívala jen jedna instance, jejíž řečový signál se modifikoval pomocí různých technik, např. metody PSOLA, MBROLA n. sinusoidálních modelů). Ještě starší jsou techniky první generace, založené na (zjednodušeném) modelování hlasového traktu (mezi nejznámější metody této generace patří formantová syntéza, lineární prediktivní syntéza a artikulační syntéza).

Kvalita syntetické řeči se většinou hodnotí podle dvou základních hledisek: srozumitelnosti (jak dobře je syntetické řeči rozumět) a přirozenosti (jak přirozeně syntetická řeč zní, tj. jak „blízká“ je lidské řeči). V obou případech se využívají poslechové testy, při nichž posluchači hodnotí sledované atributy syntetické řeči.

Zatímco zpočátku se výzkum s.ř. soustředil na zvyšování srozumitelnosti syntetické řeči, v současné době je hlavním cílem zvyšování její přirozenosti. I když bylo na tomto poli dosaženo významných úspěchů a současné systémy s.ř. se v porovnání s těmi historickými vyznačují výrazně vyšší kvalitou, s.ř. stále nedosahuje kvalit řeči lidské, a to zejména pokud jde o přirozenost řeči, zvláště pak o míchání a „přepínání“ mezi různými mluvními styly, vyjadřování expresivních vlastností (emocí apod.), modelování a vyjadřování mezivětných a jiných déletrvajících vztahů a souvislostí apod.

Detailní rozbor technik s.ř. lze nalézt např. v pracích ✍Taylor (2009), ✍Benesty & Sondhi ad. (2008), ✍Psutka & Müller ad. (2006) aj.

Rozšiřující
Literatura
  • Benesty, J. & M. Sondhi ad. (eds.) Springer Handbook of Speech Processing, 2008.
  • Dutoit, T. Corpus-Based Speech Synthesis. In Benesty, J. & M. Sondhi ad. (eds.), Springer Handbook of Speech Processing, 2008, 437–455.
  • Hanzlíček, Z. Czech HMM-Based Speech Synthesis. In Sojka, P. & A. Horák ad. (eds.), Text, Speech and Dialogue, Lecture Notes in Computer Science 6231, 2010, 291–298.
  • Hunt, A. & A. Black. Unit Selection in Concatenative Speech Synthesis System Using a Large Speech Database. In Proceedings of ICASSP, 1996, 373–376.
  • Manning, C. & H. Schütze. Foundations of Statistical Natural Language Processing, 1999.
  • Palková, Z. Fonetika a fonologie češtiny, 1997.
  • Psutka, J. & L. Müller ad. Mluvíme s počítačem česky, 2006.
  • Romportl, J. & J. Matoušek. Formal Prosodic Structures and Their Application in NLP. In Matoušek, V. & P. Mautner ad. (eds.), Text, Speech and Dialogue, Lecture Notes in Computer Science 3658, 2005, 371–378.
  • Sgall, P. & E. Hajičová ad. The Meaning of the Sentence in its Semantic and Pragmatic Aspects, 1986.
  • Taylor, P. Text-to-Speech Synthesis, 2009.
  • Tihelka, D. & J. Matoušek. Unit Selection and Its Relation to Symbolic Prosody: A New Approach. In Proceedings of Interspeech, 2006, 2042–2045.
  • Tokuda, K. & K. Masuko ad. An Algorithm for Speech Parameter Generation from Continuous Mixture HMMs with Dynamic Features. In Proceedings of Eurospeech, 1995.
  • Yoshimura, T. & K. Tokuda ad. Simultaneous Modeling of Spectrum, Pitch and Duration in HMM-Based Speech Synthesis. In Proceedings of Eurospeech, 1999, 2347–2350.
  • Zen, H. & K. Tokuda ad. Statistical Parametric Speech Synthesis. Speech Communication 51, 2009, 1039–1064.
Citace
Jindřich Matoušek (2017): SYNTÉZA ŘEČI. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/SYNTÉZA ŘEČI (poslední přístup: 24. 9. 2020)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka