VYHODNOCOVÁNÍ  (evaluace)

Základní
Rozšiřující

Zcela zásadní součást vědeckého výzkumu i vývoje aplikací v počítačové lingvistice. Vzhledem k šíři oboru je přirozené, že neexistuje univerzální postup, jak metody a jejich obměny vyhodnocovat. Velmi hrubě lze odlišovat metody ruční a automatické, i automatické metody se však většinou opírají o připravené ruční anotace, např. soubor očekávaných výstupů. Následující klíčové aspekty jsou důvěryhodným způsobům v. společné:

1. Nezávislá testovací množina. Metodu, systém n. komponent je vždy třeba vyhodnocovat na datech, která nebyla k dispozici v době návrhu a vývoje. Naprosto kritické je dodržet tuto podmínku při vývoji statistických a datově‑orientovaných metod, jež se na dodaných datech tzv. trénují n. přinejmenším optimalizují některé své parametry. Při překryvu trénovacích a testovacích dat dojde k tzv. přetrénování (též přeučení, angl. overfitting) systému, což může občas vést k selhání použitých optimalizačních algoritmů a téměř vždy vede k podstatně horšímu výkonu v reálném nasazení. Nezávislost testovací množiny je však třeba dodržet i při ručním v., opakované použití téže sady může ovlivnit pozornost a preference hodnotitelů a hodnocený systém může být na známé problémy již připraven.

2. Ruční hodnocení se zohledněním mezianotátorské shody. Ruční hodnocení lze obecně považovat za spolehlivější způsob, protože automatické metody mohou „přehlédnout“ i zcela zásadní, ale nečekané problémy. I ruční hodnocení však čelí řadě potíží, nejlepší je proto ruční a automatické hodnocení kombinovat a srovnávat. Největšími problémy ručního hodnocení jsou subjektivita (různí hodnotitelé hodnotí stejný výstup různě s ohledem na rozdílné znalosti, zkušenosti, vědomosti, schopnosti, pečlivost ad.) a nereprodukovatelnost (i jeden hodnotitel bude stejný výstup hodnotit rozdílně, mj. proto, že je ovlivněn svým předešlým hodnocením a znalostí materiálu). Souhrnně se tyto problémy projeví v nižší mezianotátorské a vnitroanotátorské shodě (inter‑annotator, resp. intra‑annotator agreement), a je proto velmi žádoucí ji jako doplňkovou informaci uvádět. Kromě prostého procenta případů, kdy se dva anotátoři shodli, je vhodnější odstranit ze skóre shodu, jíž by dosáhli i náhodně tipující anotátoři. Přehled o různých metodách měření shody dává např. ✍Artstein & Poesio (2008).

3. Snaha o maximální věrnost replikace. Snad všechny metody vyhodnocování v počítačové lingvistice trpí tím, co by se dalo v numerické matematice nazvat špatnou podmíněností. I velmi malá změna vstupních podmínek, testovacích dat n. způsobu jejich přípravy může vést k podstatně odlišným hodnotám výsledného skóre; někdy, ne však vždy, se přitom podstatně liší i samotné výsledky. Pro relativní srovnání systémů je proto třeba dbát na věrnou replikaci základního systému (baseline). Např. v oblasti strojového překladu je zcela nemyslitelné srovnávat hodnoty skóre pro konkurenční metodu pouze citované z odborných článků, vždy je nutné výstupy konkurenčního systému vyhodnotit znovu stejnou technikou ručního hodnocení n. stejnou (vlastní) implementací automatické metody hodnocení, a to souběžně s předkládaným návrhem.

4. Soutěže a společné úlohy. Vzhledem k obtížnosti zajištění plně srovnatelných podmínek jsou v počítačové lingvistice oblíbené soutěže a společné úlohy (shared tasks), kdy organizátoři stanoví technické podmínky (povolené zdroje dat apod.), poskytnou vstupní data a vyhodnotí výstupy soutěžících systémů jednotným způsobem. Při zvlášť pečlivém přístupu účastníci dodají pouze hodnocený systém organizátorům a nemají ani možnost vstupní data vidět dříve, než na nich organizátoři hodnocený systém spustí. Mezi nejznámější série společných úloh patří: TREC (✍Voorhees (ed.), 2013; TREC), CLEF (✍Ferro, 2014; CLEF), WMT (✍Bojar & Buck ad., 2014; ACL 2014), CoNLL (✍Hockenmaier & Riedel (eds.), 2013; CoNLL), SemEval (✍Nakov & Zesch (eds.), 2014; SemEval), BioNLP (✍Nédellec & Bossy ad., 2013; BioNLP), a historické MUC (✍Grishman a Sundheim, 1996). Částečný přehled poskytuje také ACL: Competitions and Challenges. Souhrnně lze říci, že o technikách v. se v počítačové lingvistice většinou stejně aktivně diskutuje jako o úlohách samých.

5. Základní užívané míry. Při automatickém vyhodnocování lingvistických nástrojů se většinou opíráme o přehled očekávaných odpovědí a kontrolujeme, do jaké míry jich systém dosáhl. Pouze v případě malého počtu přípustných kategoriálních odpovědí je možné pro uznání správnosti výstupu systému požadovat přesnou shodu s očekávanou odpovědí. V ostatních případech je množina možných odpovědí příliš velká a přesné shody nelze vůbec dosáhnout n. to ani není žádoucí. Např. ve ↗strojovém překladu jsou správných překladů jedné věty běžně desítky až stovky tisíc (✍Bojar & Macháček ad., 2013).

Pro posouzení částečné shody je v praxi nutné očekávanou odpověď i výstup systému rozdělit na menší jednotky a porovnávat např. překryv množin těchto součástek. Každý konkrétní způsob v. tak vnáší do výsledného skóre určité předpoklady nezávislosti (nekontroluje celek, předpokládá, že pro spolehlivé vyhodnocení celku stačí porovnat izolované součástky). Pro vyhodnocení míry překryvu množin (součástek) navržených odpovědí a očekávaných odpovědí se užívají standardní míry:

Úplnost/Pokrytí (recall) je podíl n. procento odpovědí, které systém vydal z celkového počtu odpovědí, které vydat měl. Recall 100 % dostane systém, který nikdy neopomene žádnou očekávanou součástku odpovědi. Přesnost (precision) je podíl n. procento součástek „potvrzených“ (požadovaných) v očekávané odpovědi z celkového počtu součástek, které systém vydal. Přesnost 100 % odpovídá případu, kdy systém nevydá žádnou nesprávnou odpověď nebo její součástku. Č. termín „přesnost“ se bohužel používá i pro jeden speciální případ, anglicky označovaný accuracy. O accuracy je možné mluvit pouze tehdy, jsou‑li množiny očekávaných i vydaných odpovědí jednoprvkové: vždy se čeká jedna odpověď a systém vždy právě jednu odpověď vydá. Accuracy pak splývá s přesností, je to prostě podíl správných odpovědí z celkového počtu otázek. V dalším textu budeme pod slovem „přesnost“ rozumět výhradně „precision“.

Je zřejmé, že přesnost a úplnost si konkurují. O systému, který nikdy nevydá vůbec žádnou odpověď, je možné říkat, že dosahuje přesnosti 100 %. Kvůli nulové úplnosti je však v praxi nepoužitelný. Podobně vydat všechny možné odpovědi zajistí úplnost 100 % za cenu nízké přesnosti. V závislosti na dané úloze je někdy vhodnější klást důraz na přesnost (např. neobtěžovat uživatele nesprávnými návrhy na opravy textu), jindy na úplnost (vyhledávání dokumentů v menších kolekcích). Existuje i několik způsobů, jak přesnost a úplnost spojit do jedné hodnoty. Nejběžnější je harmonický průměr, který se pak označuje jako F‑skóre nebo F1‑skóre (název zdůrazňuje, že přesnost a úplnost jsou stejně důležité).

Podrobnější pohled umožňují tzv. ROC křivky (Receiver operating characteristic, ROC curve), které vynášejí úplnost (recall, v tomto kontextu nazývaný true positive rate, schopnost předpovědět kladný případ) proti false positive rate (podíl neprávem vydaných odpovědí z celkového počtu odpovědí, které neměly být vydány) při různých hodnotách některého z parametrů systému. Křivka tedy charakterizuje vztah mezi všemi možnými přesnostmi a úplnostmi najednou. ROC křivku je opět možné shrnout do jedné hodnoty, např. plochu pod křivkou n. bod, kdy jsou true positive ratetrue negative rate v rovnováze.

Z představeného konceptu vybočuje řada způsobů v., zejména pro úlohy, u nichž nelze přesně stanovit, jak dlouhý má být výstup systému (↗strojový překlad, ↗rozpoznávání řeči) n. kde není možné sestavit úplnou množinu správných odpovědí (↗vyhledávání informací (information retrieval)).

Literatura
  • ACL (http://aclweb.org/aclwiki/).
  • Artstein, R. & G. Poesio. Inter-coder Agreement for Computational Linguistics. Computational Linguistics 34, 2008, 555–596.
  • Bojar, O. & M. Macháček ad. Scratching the Surface of Possible Translations. In Lecture Notes in Computer Science, Vol. 8082, Text, Speech and Dialogue: 16th International Conference, TSD 2013. Proceedings, 2013, 465–474.
  • Bojar, O. & Ch. Buck ad. Findings of the 2014 Workshop on Statistical Machine Translation. In Proceedings of the Ninth Workshop on Statistical Machine Translation, 2014, 12–58.
  • Ferro, N. CLEF 15th Birthday: Past, Present, and Future. SIGIR Forum 48, 2014, 31–55.
  • Grishman, R. & B. Sundheim. Message Understanding Conference – 6: A Brief History. In Proceedings of the 16th International Conference on Computational Linguistics (COLING) I, 1996, 466–471.
  • Hockenmaier, J. & S. Riedel. (eds.) Proceedings of the Seventeenth Conference on Computational Natural Language Learning, 2013.
  • Nakov, P. & T. Zesch. (eds.) Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014), 2014.
  • Nédellec, C. & R. Bossy ad. Overview of BioNLP Shared Task 2013. In Proceedings of the BioNLP Shared Task 2013 Workshop, 2013, 1–7.
  • Voorhees, E. M. (ed.) The Twenty-Second Text Retrieval Conference Proceedings (TREC 2013). NIST Special Publication, 2013.
Citace
Ondřej Bojar (2017): VYHODNOCOVÁNÍ. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/VYHODNOCOVÁNÍ (poslední přístup: 1. 6. 2020)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka