AUTOMATICKÁ SUMARIZACE

Základní

Vytvoření stručné a přesné reprezentace obsahu (textového) dokumentu nebo dokumentů, angl. text summarisation. Řešení úlohy, tzv. souhrn (summary), spočívá v identifikaci nejdůležitější informace obsažené v textu, její zestručnění a prezentace v přirozeném jaz. Souhrn může být vytvořen pro jeden n. také více dokumentů a nebývá delší než polovina délky původního textu, obvykle je ale mnohem kratší (✍Radev & Hovy ad., 2002). Souhrn může být buď tzv. extraktem, který je tvořen vybranými (často nesouvislými) úseky původního textu, n. tzv. abstraktem, který je generován ze struktur automaticky získaných hlubší analýzou textu s ohledem na návaznost a gramatičnost výsledku (např. ✍McKeown & Radev, 1995). Většina publikovaných prací se ovšem zabývá vytvářením extraktů, které tvoří věty vybrané z dokumentu na základě jejich významnosti. Jedna z prvních prací na toto téma (✍Luhn, 1958) využívá k hodnocení významnosti věty četnosti a vzdálenosti plnovýznamových slov v ní obsažených. Věty, ve kterých jsou plnovýznamová slova častější a blíže u sebe, pak tvoří výsledný souhrn. ✍Baxendale (1958) experimentálně zjistil, že věty vhodné pro extrakt se často vyskytují jako první n. poslední věty v odstavcích, a zapojil informaci o pozici vět v rámci dokumentu a odstavců do hodnocení jejich významnosti. ✍Edmundson (1969) pak vylepšil předchozí přístupy tím, že upřednostňoval věty z nadpisů a podnadpisů, a také věty obsahující tzv. výplňová slova (cuewords). Důležitost jednotlivých rysů, které mají na významnost věty vliv, byla zprvu nastavována ručně, ale s rozvojem výpočetní techniky v 90. letech 20. stol. se začaly pro optimalizaci vah používat metody strojového učení, které umožňovaly zapojení většího počtu rysů. Uplatnění našly nejdříve tzv. naivní bayesovské metody (✍Kupiec & Pedersen ad., 1995), které zjednodušovaly řešení úlohy předpokladem nezávislosti jednotlivých rysů i vět. ✍Lin (1999) použil pro výběr vět klasifikátor využívající tzv. rozhodovacích stromů, které již nezávislost příznaků nepředpokládají. Dalším významným krokem byla aplikace metod pro tzv. sekvenční značkování (např. skryté Markovovy modely, ✍Conroy & O’Leary, 2001), které uměly zachytit závislosti mezi větami. ✍Osborne (2002) popsal metodu založenou na kombinaci rysů v tzv. log‑lineárním modelu a využití apriorní pravděpodobnosti, která regulovala délku generovaných souhrnů. ✍Svore & Vanderwende ad. (2007) využili pro výběr vět tzv. neuronových sítí a rysů získaných z externích zdrojů (např. Wikipedia). Zcela jiným směrem se vydávají metody založené na analýze diskurzu dokumentu. Zatímco ✍Barzilay & Elhadad (1997) používají pro výběr vět jednoduchých tzv. lexikálních řetězců (lexical chains, posloupnosti sémanticky podobných slov v dokumentu) a tzv. koheze textu, ✍Marcu (1998) používá diskurzní parsing na základě rhetorical structure theory a významné části výsledných struktur (stromů) pak tvoří souhrn. ✍Daumé III & Marcu (2004) tuto metodu rozšířili použitím tzv. kernelových metod pro spolehlivější detekci významných částí diskurzních stromů.

Evaluační metody (automatické i ruční) pro sumarizaci textu detailně porovnávají ✍Lin & Hovy (2002). Největší pozornost je věnována metodám použitým pro evaluaci v rámci série konferencí DUC (Document Understanding Conference). De facto standardem v automatické evaluaci se stala míra ROUGE (recall-oriented understudy for gisting evaluation, ✍Lin, 2004) porovnávající automatický souhrn s několika ručně vytvořenými souhrny.

Rozšiřující
Literatura
  • Barzilay, R. & M. Elhadad. Using Lexical Chains for Text Summarization. In Proceedings of the ACL Workshop on Intelligent Scalable Text Summarization, 1997, 10–17.
  • Baxendale, P. Machine-Made Index for Technical Literature – An Experiment. IBM Journal of Research Development 2, 1958, 354–361.
  • Conroy, J. M. & D. P. O’Leary. Text Summarization via Hidden Markov Models. In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2001, 406–407.
  • Daume III, H. & D. Marcu. A Tree-Position Kernel for Document Compression. In Proceedings of the Fourth Document Understanding Conference, 2004.
  • Edmundson, H. P. New Methods in Automatic Extracting. Journal of the ACM 16, 1969, 264–285.
  • Kupiec, J. & J. Pedersen ad. A Trainable Document Summarizer. In Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1995, 68–73.
  • Lin, C.-Y. Training a Selection Function for Extraction. In Proceedings of the Eight International Conference on Information and Knowledge Management, 1999, 55–62.
  • Lin, C.-Y. ROUGE: a Package for Automatic Evaluation of Summaries. In Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), 2004, 25–26.
  • Lin, C.-Y. & E. Hovy. Manual and Automatic Evaluation of Summaries. In Proceedings of the ACL-02 Workshop on Automatic Summarization, 2002, 45–51.
  • Luhn, H. P. The Automatic Creation of Literature Abstracts. IBM Journal of Research Development 2, 1958, 159–165.
  • Marcu, D. C. The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts. PhD. diss., University of Toronto, 1998.
  • McKeown, K. R. & D. R. Radev. Generating Summaries of Multiple News Articles. In Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1995, 74–82.
  • Osborne, M. Using Maximum Entropy for Sentence Extraction. In Proceedings of the ACL’02 Workshop on Automatic Summarization, 2002, 1–8.
  • Radev, D. R. & E. Hovy ad. Introduction to the Special Issue on Summarization. Computational Linguistics 28, 2002, 399–408.
  • Svore, K. & L. Vanderwende ad. Enhancing Single-Document Summarization by Combining Rank Net and Third-Party Sources. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007, 448–457.
Citace
Pavel Pecina (2017): AUTOMATICKÁ SUMARIZACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/AUTOMATICKÁ SUMARIZACE (poslední přístup: 25. 2. 2020)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka