STROJOVÝ PŘEKLAD

Autor: Ondřej Bojar

▲

►

Základní

Úloha automatického převodu textu z jednoho přirozeného jazyka do jazyka jiného; angl. machine translation (MT). Svou složitostí a pestrostí studovaných směrů dobře ilustruje šíři oboru ↗počítačové lingvistiky. O překladu existují sice souhrnné monografie (č. ✍Bojar, 2012; angl. zejm. ✍Koehn, 2009), oblast je však stále v překotném vývoji a sborníky konferencí a workshopů se tak řadí mezi nutné zdroje. Jednotící je v tomto směru workshop WMT s každoroční soutěží v automatickém překladu i automatickém hodnocení kvality překladu (viz ✍Bojar & Buck ad., 2014).

Z hlediska dosahované kvality a nasazení MT v praxi lze mluvit o orientačním překladu (gisting), překladu určeném k ruční revizi (posteditaci) a o produkční kvalitě. Jaké úrovně kvality se podaří dosáhnout, závisí na mnoha okolnostech, především na uzavřenosti domény (srov. předpověď počasí, návody k přístrojům, noviny, beletrie), obtížnosti stylu (filmové titulky × právní texty), objemu dostupných paralelních dat, tj. textů, které již dříve přeložili lidé, a samozřejmě i na vlastnostech zdrojového a cílového jazyka, zejména rozdílech ve slovosledu a bohatosti tvarosloví, jak empiricky dokládá ✍Koehn & Birch(ová) ad. (2009).

Většina současných systémů překládá jednotlivé vstupní věty izolovaně, soustředěný zájem o zachování potřebných vztahů mezi větami (např. ↗koreference, ↗anafora, ↗diskurz) se objevil teprve nedávno (✍Webber(ová) & Popescu-Belis ad. (eds.), 2013).

▲

►

Rozšiřující

1 Stupeň lingvistické abstrakce

MT může, ale nemusí stavět na stratifikačních lingvistických teoriích, jako je např. ↗FGP (✍Sgall & Hajičová ad., 1986). Systémy, které sledují tradiční postup, (1) analýza na příslušnou rovinu formálního popisu jazyka, (2) převod (transfer) do analogické reprezentace v cílovém jazyce a (3) syntéza finální povrchové formy, se souhrnně nazývají transferový překlad (transfer‑based machine translation).

Extrémním případem s nulovým transferem je překlad založený na interlingvě, tj. formálním zápisu čistého významu věty bez ohledu na jazyk. Z teoretického hlediska jde o velmi vlivný koncept, o jehož uplatnění v překladových systémech se stále malá část výzkumníků pokouší (např. ✍Dave & Parikh ad., 2001), ale který spíše slouží jako orientační bod pro popis přístupů k překladu; např. ✍Xue & Bojar ad. (2014). V praxi je interlingva zřejmě nedosažitelná (viz ✍Lampert, 2001), mj. pro snižující se anotátorskou shodu na hlubších a hlubších rovinách jazykového popisu (✍Dorr(ová) & Passonneau(ová) ad., 2010). O interlingvě lze ovšem mluvit pro velmi úzké oblasti, např. při řešení problému, kdy autoři manuálů k výrobkům sestavují text z připravených stavebních bloků (tj. onen doménově závislý formální zápis) a z něj je současně generováno mnoho jazykových mutací dokumentu.

Systémy založené na transferu se v mnoha ohledech liší, transfer se dá provádět na hlubší či povrchovější syntaktické rovině popisu, případně na rovině zachycující sémantiku věty, a transfer je samozřejmě možné provádět i napříč rovinami a teoriemi. Z tradičních systémů založených na transferu přes hlubší syntaktickou rovinu popisu jazyka jich jen poměrně málo překročilo stadium ověření koncepce a bylo schopno překládat reálné texty. Patří k nim systém kombinující teorie ↗HPSG a ↗LFG i stochastický přístup (✍Bond & Oepen ad., 2005), dále systém ETAP‑3 (✍Boguslavsky & Iomdin ad., 2004), opírající se o teorii ↗MTT, systém společnosti Microsoft zahrnující logickou formu (✍Richardson & Dolan ad., 2001) a konečně TectoMT (✍Popel & Žabokrtský, 2010), vybudované na základě ↗FGP.

Protikladem k hloubkovému transferu je přímý překlad, jehož nejběžnějším zástupcem je v současné době překlad frázový (phrase‑based machine translation; ✍Koehn & Och ad., 2003), který překládá větu po krátkých úsecích (frázích, n‑gramech) bez ohledu na větnou strukturu. „Překladový slovník“ frázového modelu (tj. seznam dvojic zdrojová fráze – cílová fráze společně se skóre charakterizujícím typicky několika způsoby, jak dobře si fráze odpovídají) je získáván zcela automaticky z trénovacích dat. Prvním krokem je úloha větného zarovnání (sentence alignment), kdy ve dvojici textů, které jsou sobě překladem, necháme k sobě automaticky přiřadit jednotlivé věty. Získáváme tak tzv. paralelní texty, paralelní korpus. (Protikladem jsou tzv. porovnatelné korpusy, comparable corpora, v nichž si texty neodpovídají větu po větě, a můžeme tedy usilovat jen o získání překladů jednotlivých slov a sousloví.) Jak ukazuje ✍Rosen (2005), pro větné zarovnání lze kombinací několika metod dosáhnout téměř bezchybných výsledků. Následuje zarovnání po slovech (word alignment), kdy automatická metoda nalezne nejpravděpodobnější korespondence mezi jednotlivými slovy (✍Och & Ney, 2000). Z lingvistického hlediska není úloha zarovnání slov ideálně formulovaná (✍DeNero & Klein, 2010), lepší je uvažovat např. korespondenci hloubkových syntaktických uzlů (✍Mareček et al., 2008), ale praktický efekt pro frázové systémy není příliš patrný. Ze získaných zarovnaných vět pak frázový systém extrahuje překladové dvojice. Významnou komponentou frázového překladu je tzv. jazykový model (language model), který pomáhá vybrat nejlepší kombinaci přeložených frází a sestavit je vhodně za sebe. Změny slovosledu frázový model umožňuje jak zcela přirozeně uvnitř frází, tak (do určité míry) změnami pořadí jednotlivých frází.

Kvalita přímého překladu se dá velmi často významně zlepšit jednoduchými či složitějšími způsoby předzpracování vstupu, jako je úprava slovosledu (✍Collins & Koehn ad., 2005) a zjednodušení n. naopak zpřesnění tvarosloví (✍Goldwater(ová) & McClosky, 2005; ✍Avramidis & Koehn, 2008; ✍Oflazer & El-Kahlout, 2007; ✍Yeniterzi(ová) & Oflazer, 2010). Obecně mají všechny tyto úpravy přiblížit zdrojový a cílový jazyk z hlediska počtu, pořadí a počtu typů slov. Těmito úpravami se de facto transfer realizovaný standardním (např. frázovým) modulem posouvá na nepatrně vyšší rovinu lingvistického popisu, byť není většinou podepřen žádnou teorií.

Mezi hloubkovým a frázovým překladem je široká škála možností, jak zohlednit syntax vstupní n. výstupní věty, případně obou stran současně. Významným milníkem v tomto směru je tzv. hierarchický překlad (✍Chiang, 2007), který z frázového překladu přebírá robustnost (schopnost zpracovat i negramatický vstup) a dokáže využít neanotovaná paralelní data, přitom ale modeluje určitou hierarchickou strukturu zdrojové a cílové věty. Nelze mluvit o gramatice vět v lingvistickém smyslu, použitý aparát synchronních ↗bezkontextových gramatik (✍Chiang, 2006) je totiž v hierarchickém modelu omezen na jediný neterminál. Přímočaré zahrnutí gramatických kategorií do modelu vede k výrazné ztrátě pokrytí (překladové heslo nelze použít pro neshody v počtu doplnění, n. proto, že se liší gramatickou kategorií) a model musí obsahovat metody, které tyto požadavky rozvolní (✍Zollmann & Venugopal, 2006; ✍Chiang, 2010).

2 Pravidlové systémy × statistické systémy, hybridizace a kombinace systémů

Podstatným rysem překladových systémů a jejich komponent je to, zda v jádru procedur stojí postup implementovaný lingvistou‑expertem (tzv. rule‑based systems), n. zda se konkrétní pravidla naučí systém sám na základě obecného schématu a dat nějakou metodou ↗strojového učení (tzv. data-driven systems, statistical systems, stochastic systems). Zvolený přístup orientačně určuje, jak náročný bude systém na údržbu a adaptaci na nový typ textů n. jazykový pár, pro datově orientované systémy může stačit plně automatické přetrénování. Statistické systémy jsou obecně robustnější vůči nečekaným vstupům za cenu nižší jistoty, že „jednoduché“ vstupy budou zpracovány dobře.

Jako hybridní lze označit jak systémy, které obsahují komponenty obou typů (např. TectoMT používá řadu pravidel před převodem hloubkového syntaktického stromu do cílového jazyka, větný rozbor před touto fází a volba nejlepší kombinace lexikálního obsazení za ní jsou však statistické), tak systémy, které nějakým způsobem spojují výstup tradičních pravidlových systémů a např. frázového překladu. Obecně tzv. kombinace systémů dosahují lepších výsledků než jednotlivé typy systémů. Pro č. je v tomto směru zajímavý systém Chimera (✍Tamchyna & Popel ad., 2014), který kromě hloubkového i frázového překladu zahrnuje závěrečnou automatickou korekci gramatiky a případné navrácení negace, kterou předešlé kroky překladu omylem ztratily.

Literatura

Avramidis, E. & P. Koehn. Enriching Morphologically Poor Languages for Statistical Machine Translation. In Proceedings of ACL-08: HLT, 2008, 763–770.
Boguslavsky, I. & L. Iomdin ad. Multilinguality in ETAP-3: Reuse of Lexical Resources. In COLING 2004. Multilingual Linguistic Resources, 2004, 1–8.
Bojar, O. Čeština a strojový překlad, 2012.
Bojar, O. & C. Buck ad. Findings of the 2014 Workshop on Statistical Machine Translation. In Proceedings of the Ninth Workshop on Statistical Machine Translation, 2014, 12–58.
Bond, F. & S. Oepen ad. Open Source Machine Translation with DELPH-IN. In Proceedings of the Open-Source Machine Translation Workshop at the 10th Machine Translation Summit, 2005, 15–22.
Collins, M. & P. Koehn ad. Clause Restructuring for Statistical Machine Translation. In ACL ’05: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, 2005, 531–540.
Dave, S. & J. Parikh ad. Interlingua-based English–Hindi Machine Translation and Language Divergence. Machine Translation 16, 2001, 251–304.
DeNero, J. & D. Klein. Discriminative Modeling of Extraction Sets for Machine Translation. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010.
Dorr, B. J. & R. J. Passonneau ad. Interlingual Annotation of Parallel Text Corpora: A New Framework for Annotation and Evaluation. Natural Language Engineering 16, 2010, 197–243.
Goldwater, S. & D. McClosky. Improving Statistical MT through Morphological Analysis. In HLT ’05: Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, 2005, 676–683.
Chiang, D. An Introduction to Synchronous Grammars, 2006.
Chiang, D. Hierarchical Phrase-Based Translation. Computational Linguistics 33, 2007, 201–228.
Chiang, D. Learning to Translate with Source and Target Syntax. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010, 1443–1452.
Koehn, P. Statistical Machine Translation, 2009.
Koehn, P. & F. J. Och ad. Statistical Phrase Based Translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL), 2003.
Koehn, P. & A. Birch ad. 462 Machine Translation Systems for Europe. In MT Summit XII, 2009 (http://mt-archive.info/).
Lampert, A. Interlingua in Machine Translation, 2001.
Mareček, D. & Z. Žabokrtský ad. Automatic Alignment of Czech and English Deep Syntactic Dependency Trees. In Hutchins, J. & W. v. Hahn (eds.), Proceedings of the Twelfth EAMT Conference 2008, 2008, 102–111.
Oflazer, K. & I. D. El-Kahlout. Exploring Different Representational Units in English-to-Turkish Statistical Machine Translation. In Proceedings of the Second Workshop on Statistical Machine Translation, StatMT ’07, 2007, 25–32.
Och, F. J. & H. Ney. A Comparison of Alignment Models for Statistical Machine Translation. In Proceedings of the 17th Conference on Computational Linguistics 2, 2000, 1086–1090.
Popel, M. & Z. Žabokrtský. TectoMT: Modular NLP Framework. In Loftsson, H. & E. Rögnvaldsson ad. (eds.), Lecture Notes in Artificial Intelligence, Proceedings of the 7th International Conference on Advances in Natural Language Processing (IceTAL 2010), vol. 6233 of Lecture Notes in Computer Science, 2010, 293–304.
Richardson, S. D. & W. B. Dolan ad. Overcoming the Customization Bottleneck Using Example-Based MT. In Proceedings of the Workshop on Data-driven Methods in Machine Translation, 2001, 1–8.
Rosen, A. In Search of Best Method for Sentence Alignment in Parallel Texts. In Garabík, R. (ed.), Computer Treatment of Slavic and East European Languages, 174–185, 2005.
Sgall, P. & E. Hajičová ad. The Meaning of the Sentence and Its Semantic and Pragmatic Aspects, 1986.
Tamchyna, A. & M. Popel ad. CUNI in WMT14: Chimera Still Awaits Bellerophon. In Proceedings of the Ninth Workshop on Statistical Machine Translation, 2014, 195–200.
Webber, B. & A. Popescu-Belis ad. (eds.) Proceedings of the Workshop on Discourse in Machine Translation, 2013.
Xue, N. & O. Bojar ad. Not an Interlingua, but Close: Comparison of English AMRs to Chinese and Czech. In Calzolari, N. & K. Choukri ad. (eds.), Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014), 2014, 1765–1772.
Yeniterzi, R. & K. Oflazer. Syntax-to-Morphology Mapping in Factored Phrase-based Statistical Machine Translation from English to Turkish. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010, 454–464.
Zollmann, A. & A. Venugopal. Syntax Augmented Machine Translation via Chart Parsing. In Proceedings of the Workshop on Statistical Machine Translation, 2006, 138–141.

Citace

Ondřej Bojar (2017): STROJOVÝ PŘEKLAD. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/STROJOVÝ PŘEKLAD (poslední přístup: 25. 4. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

STROJOVÝ PŘEKLAD

Další pojmy: