LINGVISTICKÉ DATABÁZE

Základní

Soubor dat organizovaný podle jednoho či více principů, užívající množství tabulek, do níž se dá ukládat velké množství homogenních dat, v nichž lze podle těchto principů či parametrů různě a hlavně rychle hledat; i lingvisty je užívaná např. velká komerční a komplexní databáze ORACLE aj. Databázi podobný je tabulkový procesor (užívá v zásadě jen jednu tabulku); známé jsou pro tyto účely jednoduché programy vzniklé jako např. komerční tabulkový procesor Microsoft Excel. Protože databáze bývají často strukturované a hierarchizované, jsou l.d. elektronickou obdobou velkých tezaurů, nazývaných někdy (v komputační vědě) ontologiemi, které se však většinou vážou na jednotlivé obory a oblasti.

L.d. mají různou podobu sahající od (relativně) prostých organizovaných tabulek a seznamů (takovými jsou např. hesláře slovníků) až po složité ↗tezaury; v běžném smyslu se však l.d. ještě za korpus nepovažují. Korpusy dnes bývají v počítači uloženy různě, např. v podobě relační databáze, kde vlastní forma (slovo) odpovídá jedné položce v databázi. Ta je propojena indexem s jinou databází n. jinými databázemi, v nichž se ukládá např. jeho tag, n. s další databází, kam se ukládá informace, kde se v textu dané slovo nachází apod.

Vedle lexikografie, kde moderní typy softwaru pracují s databázemi běžně, je v tomto směru zřejmě nejznámější užitkovou lingvistickou aplikací, resp. lexikální databází, angl. ↗WordNet, mající i zmenšené a omezené obdoby v desítkách dalších jaz. včetně č. Oblíbený WordNet je volně přístupná databáze založená na modifikovaném pojetí synonym snažící se každé slovo zařadit do nějaké velmi volně synonymní, popř. hyponymní aj. třídy; v praxi je to kombinace slovníku a hierarchizovaného tezauru. Oproti jeho dominantní paradigmatické povaze je jeho slabinou jen okrajově zachycená syntagmatická stránka slov. Ve svých více než 100 000 skupinách (nazývaných synsety) nabízí i množství dalších užitečných informací (vedle ↗hyponym liší i ↗meronyma, nabízí někdy i ↗kolokáty aj.).

Rozšiřující
Literatura
Citace
František Čermák (2017): LINGVISTICKÉ DATABÁZE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/LINGVISTICKÉ DATABÁZE (poslední přístup: 19. 4. 2021)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka