METADATA

Základní

Standardizované, strukturované informace doplňující vlastní text ↗korpusu údaji o jeho obsahu, původu n. lingvistické interpretaci. M. jsou obohacením textu a zvyšují možnosti využití korpusových dat. M. lze ukládat v mnoha formátech, nejběžnějším z nich je ↗XML.

M. mohou mít různou povahu podle úrovně, k níž se vztahují: k celému korpusu, ke konkrétnímu textu, k jeho části n. k jednotlivému slovnímu tvaru. Na úrovni celých textů jde např. o bibliografické údaje, označení žánru a původu textu, údaje o nahrávce, licenci n. záznam toho, jakými verzemi kterých nástrojů byl text zpracován (viz ↗korpus a jeho příprava). Veškeré zásahy (změny n. vypuštění částí textu), k nimž v průběhu zpracování došlo, lze také zaznamenávat na konkrétní místa v textu tak, aby byla rekonstruovatelná jeho původní podoba. Pomocí m. lze text členit na menší celky (↗segmentace), strukturovat ho (↗parsing), přidávat ↗anotaci konkrétních jednotek (výsledky ↗lemmatizace a ↗tagování), tyto jednotky sdružovat (označení víceslovných jednotek) aj.

M. lze vkládat buď přímo do textu (inline markup; příklad je možné najít v hesle ↗jazyky značkovací), n. naopak odděleně od něj ve zvláštním souboru, z něhož pak na konkrétní místa v textu vedou odkazy (stand‑off markup). Tento druhý způsob umožňuje anotovat týž text několika různými, navzájem nezávislými způsoby, práce s ním je však náročnější.

Rozšiřující
Literatura
  • Burnard, L. Metadata for Corpus Work. In Wynne, M. (ed.), Developing Linguistic Corpora – a Guide to Good Practice (http://www.ahds.ac.uk/creating/), 2005.
Citace
Michal Křen (2017): METADATA. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/METADATA (poslední přístup: 24. 10. 2020)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka