VYHLEDÁVÁNÍ INFORMACÍ

Základní

Hledání nestrukturovaných dat (dokumentů) ve strojově čitelné podobě, které uspokojují informační potřebu uživatele. Od tradičního vyhledávání v databázích se liší tím, že vyhledávaná data nemají předem danou pevnou strukturu (jako např. v relačních databázích), zpravidla se jedná o textové dokumenty n. multimédia (zahrnující audio, video či obraz). Vyhledávání obvykle probíhá nad rozsáhlými soubory (kolekcemi), např. miliony webových stránek, pomocí tzv. internetových vyhledávačů. Informační potřebu uživatel specifikuje formou tzv. dotazu, což bývá nejčastěji posloupnost klíčových slov, případně opatřených tzv. vyhledávacími operátory, které umožňují přesnější formulaci (rozšíření n. zúžení) dotazu. Výsledkem vyhledávání je seznam nalezených dokumentů setříděný podle klesající (odhadnuté) relevance. Úspěšnost vyhledávání se hodnotí pomocí tzv. přesnosti (precision), viz precision & recall, definované jako podíl relevantních dokumentů ve výsledném seznamu ke všem dokumentům v seznamu, a pokrytí (recall), definovaného jako podíl nalezených relevantních dokumentů vůči všem relevantním dokumentům v kolekci.

Pojem v.i. (information retrieval) zavedl ✍Mooers (1950). První plně automatizované systémy byly vyvinuty v 50. a 60. letech 20. stol. ✍Luhn (1957) popsal základní model pro indexování dokumentů a vyhledávací kritérium založené na výskytech slov. Dalšími milníky byl vývoj systému SMART (✍Salton, 1971) a zavedení evaluační metodologie pomocí kolekce Cranfield (✍Cleverdon, 1967), jejíž principy se používají dodnes. Série konferencí a evaluačních kampaní Text Retrieval Conference (TREC) organizovaná ve Spojených státech od roku 1992 pak umožnila rychlý vývoj nových metod díky testování na velkých kolekcích (✍Harman, 1993).

První systémy vyhledávání informací byly založeny na tzv. boolském modelu, který umožňuje zadávání dotazů pomocí slov a tzv. boolských operátorů (AND, OR, NOT). Jeho nedostatky, spočívající především v nemožnosti řadit nalezené dokumenty podle relevance a také jisté obtížnosti tvorby dotazů uživateli, odstranily tzv. vektorové modely (✍Salton & Wong ad., 1975), založené na reprezentaci dokumentů a dotazů jako prvků vektorového prostoru a měření podobnosti jako velikosti úhlů svíraných těmito vektory. Rozměry vektorového prostoru typicky odpovídají slovům, případně jejich normalizovaným tvarům (např. lemmatům). Složky vektorů potom odpovídají váze příslušných slov, která bývá odvozena od četnosti slov v dokumentu (term frequency) a celé kolekci (document frequency, collection frequency). Jednou z nejefektivnějších metod vážení slov je tzv. Okapi (✍Robertson & Walker ad., 1999). Dalším typem modelů pro vyhledávání informací jsou tzv. pravděpodobnostní modely, které k řazení dokumentů využívají odhad pravděpodobnosti jejich relevance vůči dotazu (Probabilistic Ranking Principle, ✍Robertson, 1977). Jejich variantou jsou metody využívající principů tzv. jazykového modelování (např. ✍Hiemstra, 2001), kde je každý dokument reprezentován tzv. jazykovým modelem a relevance dokumentů je odvozována od pravděpodobnosti dotazu dané těmito jazykovými modely.

Rozšiřující
Literatura
  • Cleverdon, C. W. The Cranfield Tests on Index Language Devices. In Aslib Proceedings 19, 1967, 173–192.
  • Harman, D. K. Overview of the First Text REtrieval Conference (TREC-1). In Proceedings of the First Text REtrieval Conference (TREC-1), 1993, 1–20.
  • Hiemstra, D. Using Language Models for Information Retrieval. PhD. diss., University of Twente, Enschede, 2001.
  • Luhn, H. P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1957, 309–317.
  • Mooers, C. N. Information Retrieval Viewed as Temporal Signaling. In Proceedings of the International Congress of Mathematicians 1, 1950, 572–573.
  • Robertson, S. E. The Probabilistic Ranking Principle in IR. Journal of Documentation 33, 1977, 294–304.
  • Robertson, S. E. & S. Walker ad. Okapi at TREC-7: Automatic ad hoc, Filtering, VLC and Filtering Tracks. In Proceedings of the Seventh Text REtrieval Conference (TREC-7), 1999, 253–264.
  • Salton, G. The SMART Retrieval System-Experiments in Automatic Document Retrieval, 1971.
  • Salton, G. & A. Wong ad. A Vector Space Model for Information Retrieval. Communications of the ACM 18, 1975, 613–620.
Citace
Pavel Pecina (2017): VYHLEDÁVÁNÍ INFORMACÍ. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/VYHLEDÁVÁNÍ INFORMACÍ (poslední přístup: 24. 5. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka