ČESKÝ NÁRODNÍ KORPUS  (ČNK)

Základní

Projekt založený v roce 1994 F. Čermákem (institucionálně zaštítěn Ústavem Českého národního korpusu při FF UK). Od svého počátku si kladl za cíl být centrem korpusového výzkumu v ČR a poskytovatelem ↗korpusů pro všechny druhy výzkumu (nejen lingvistického). V roce 2012 zahrnoval následující složky: (i) synchronní ↗psané korpusy, řada SYN (v celkovém objemu 1,3 miliardy slov), (ii) synchronní ↗mluvené korpusy, konkrétně PMK (Pražský mluvený korpus, 0,67 mil. slov) a BMK (Brněnský mluvený korpus, 0,5 mil. slov) a zvláště řada Oral (v celkovém rozsahu 2 mil. slov), (iii) ↗diachronní korpus DIAKORP, pokrývající období od 13. stol. do roku 1945 (v celkovém rozsahu přes 2 mil. slov) a (iv) ↗paralelní korpus InterCorp, zahrnující texty v č. a jejich překlady do jednoho n. více z celkem 27 jaz. (v celkovém objemu 92 mil. slov). Přístup ke všem korpusům prostřednictvím webového rozhraní je bezplatný, z licenčních důvodů je nutná registrace. ČNK zároveň poskytuje možnost hostování i mnoha dalším korpusům.

Projekt ČNK se kromě budování korpusů (a tedy mapování jaz. stavu a vývoje č.) věnuje i zpřístupňování dat pro výzkumné účely zejména v oblasti automatického zpracování přirozeného jazyka (NLP), vývoji nových nástrojů pro vytěžování korpusů (např SyD; viz ↗korpusový a lingvistický software) a rozvoji metodologie korpusové lingvistiky i její popularizaci.

Rozšiřující
Literatura
Citace
Václav Cvrček (2017): ČESKÝ NÁRODNÍ KORPUS. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ČESKÝ NÁRODNÍ KORPUS (poslední přístup: 24. 5. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka