EXTRAKCE INFORMACÍ  (extrakce dat z textu)

Základní

Získávání strukturovaných informací z nestrukturovaných strojově čitelných dokumentů, angl. information extraction. Řešení úlohy spočívá v tzv. rozpoznávání pojmenovaných entit (named entity recognition), tj. slov a slovních spojení, která v textu vystupují jako jména lidí, geografické názvy, jména produktů, názvy organizací, časové a množstevní údaje atp., a také vztahů (relací) mezi nimi, jako jsou např. ceny zboží v elektronických obchodech, data a místa narození lidí, výsledky sportovních utkání apod., ve formě tzv. znalostních bází (knowledge base). Cílem procesu extrakce informací je jejich jednodušší zpřístupnění. Již ✍Harris (1958) se zabýval tím, jak zjednodušit vyhledávání ve vědecké literatuře, a navrhl metodu, jak identifikovat základní sémantické struktury v této oblasti a jak do těchto struktur mapovat vědecké články.

Prvním krokem v extrakci informací bývá rozpoznávání pojmenovaných entit (✍Grishman & Sundheim, 1996), které má využití i v jiných úlohách, např. zodpovídání dotazů (question answering); viz ↗zodpovídání dotazů. Pojmenované entity mohou být v závislosti na konkrétní úloze omezeny na různé typy. Často se rozlišují entity typu osoba, organizace, místo, ale může jít i o zcela jiné (výrobky, služby) n. detailnější kategorie (organizace vládní, komerční, neziskové, sportovní atd.), často hierarchicky organizované. Metody rozpoznávání pojmenovaných entit lze rozdělit do dvou základních typů a jejich kombinací: (1) heuristické metody využívající ručně psaných pravidel založených na společných rysech jejich výskytů v textu (např. slova začínající velkým písmenem následované zkratkou „s r.o.“ znamenají pravděpodobně název firmy); (2) sekvenční modely založené na metodách pro značkování slov, ve kterých značky odpovídají typům entit (např. hidden Markov models, ✍Bikel & Miller ad., 1997; maximum entropy Markov models, ✍Mikheev & Grover ad., 1998; conditional random fields, ✍Finkel & Grenager ad., 2005).

Dalším krokem extrakce informací bývá řešení koreference (coreference resolution), tedy identifikace výrazů, které odpovídají jedné entitě (např. „Václav Havel“, „prezident“, „manžel“, „on“) a ve výsledku vystupují pod stejným identifikátorem. Posledním krokem celého procesu je detekce relací, která se opět řeší buď heuristickými metodami založenými na ručně konstruovaných pravidlech využívajících povrchové n. hloubkové analýzy textu (např. „[osoba] narozen dne [datum] v [místo]“ může vést k získání informace o datu a místě narození konkrétní osoby), n. metodami využívajícími strojového učení a nejrůznějších rysů (✍Kambhatla, 2004), případně jejich kombinace.

V oblasti extrakce informací probíhalo několik evaluačních kampaní, ty nejvýznamnější zahrnují série MUC (Message Understanding Conference) v letech 1987–1997, ACE (Automatic Content Extraction) v letech 2000–2008 a KBP (Knowledge Base Population) roku 2009.

Rozšiřující
Literatura
  • Bikel, D. & S. Miller ad. Nymble: A High-Performance Learning Name-Finder. In Proceedings of the Fifth Conference on Applied Natural Language Processing, 1997, 194–201.
  • Finkel, J. R. & T. Grenager ad. Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling. In Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics, 2005, 363–370.
  • Grishman, R. & B. Sundheim. Message Understanding Conference 6: A Brief History. In Proceedings of the 16th International Conference on Computational Linguistics, 1996, 466–471.
  • Harris, Z. Linguistic Transformations for Information Retrieval. In Proceedings of the International Conference on Scientific Information, 1958.
  • Kambhatla, N. Combining Lexical, Syntactic, and Semantic Features with Maximum Entropy Models for Information Extraction. In The Companion Volume to the Proceedings of 42st Annual Meeting of the Association for Computational Linguistics, 2004, 178–181.
  • Mikheev, A. & C. Grover ad. Description of the LTG System Used for MUC-7. In Proceedings of the Seventh Message Understanding Conference (MUC-7), 1998.
Citace
Pavel Pecina (2017): EXTRAKCE INFORMACÍ. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/EXTRAKCE INFORMACÍ (poslední přístup: 12. 10. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka