HLAVNÍ SVĚTOVÉ KORPUSY

Základní

1. Za krátkou dobu historie ↗korpusů se už začala vžívat i jejich hrubá klasifikace do tří typů podle doby vzniku a rozsahu dat, tj. na korpusy první, druhé a třetí generace:

I Korpusy první generace

Brown Corpus (v úplném znění Brown University Standard Corpus of Present‑Day American English) je jeden z prvních moderních počítačově zpracovaných korpusů, který byl vytvořen N. Francisem a H. Kučerou v 60. letech 20. stol. na Brownově univerzitě v USA. Obsahuje 500 vzorků po 2 000 slovech z textů různých žánrů publikovaných v roce 1961. Na jeho základě vznikl (vedle mnoha kvantitativních analýz) první počítačově zpracovaný frekvenční slovník American Heritage Dictionary. Brown Corpus je pro svůj pečlivě vypracovaný design dodnes využívaným zdrojem dat a slouží jako standard pro tvorbu korpusů; dnes je volně dostupný na webu (https://archive.org/details/BrownCorpus). Brown Corpus byl inspirací i pro další korpus první generace – LOB (Lancaster‑Oslo‑Bergen Corpus), který byl zkompilován v 70. letech jako protějšek Brown Corpusu reprezentující britskou angl. Právě existence těchto dvou z hlediska kompozice a  velikosti identických korpusů umožnila první kvantitativní porovnání britské a americké angl.

2. II Korpusy druhé generace

(a) British National Corpus (BNC) (http://www.natcorp.ox.ac.uk/) je první velký a dlouho nejvlivnější korpus druhé generace. Je to velký reprezentativní korpus psané a mluvené britské angl. z let 1991–1994 (100 miliónů slov). Dodnes je hlavním zdrojem poznání angl.

(b) Bank of English je původní jméno korpusu Cobuild (http://www.titania.bham.ac.uk/). Nereprezentativní synchronní korpus dosáhl postupně rozsahu 525 milionů slov (rok 2005). Jeho kopie má nakladatel Harper Collins Publishers a Univerzita v Birminghamu; část uložená v Birminghamu je dostupná a umožňuje akademický výzkum, zatímco skotská kopie tvoří součást většího celku Collins Word Web.

(c) Corpus of Contemporary American English (http://corpus.byu.edu/coca/) je z let 1990–2011. Dnes je největším americkým nereprezentativním synchronním psaným korpusem o rozsahu 425 milionů slov; skládá se z 5 zhruba stejně velkých žánrů (jaz. mluvený, próza, časopisy, noviny a akademická próza) a jeho autorem je M. Davies.

(d) Digitales Wörterbuch der Deutschen Sprache (DWDS) (http://dwds.de/) je komplex 5 slovníků s vazbou na 15 korpusů, z nichž asi nejdůležitější je stomilionový Kernkorpus des 20. Jahrhunderts (DWDS‑Kernkorpus).

(e) Frantext (http://www.frantext.fr/) je neobvyklý smíšený korpus francouzštiny složený z více než 4000 literárních neanotovaných textů (z toho cca 10 % odborných) od středověku do současnosti, tj. bez rozlišení diachronie od synchronie. Frantext se začal budovat již v 60. letech 20. stol. (v Analyse et traitement informatique de la langue française) jako základ pro slovník Trésor de la langue française (poslední díly vyšly v 90. letech 20. stol.; zpřístupněn i elektronicky (http://atilf.atilf.fr/tlf.htm). Frantext se skládá z 285 milionů slovních tvarů v 4746 textech (údaj z března 2016), 57 % textů je morfologicky označkovaných, značkování se dále nerozšiřuje. Obsahuje francouzské texty 16.–21. stol., i několik málo starších textů. Jeho největší část (43 %) pochází z 20. stol. Většinou jde o romány (40 %), odborné texty tvoří 28 %. Dále se zde nacházejí paměti, divadelní hry, korespondence, poezie a cestopisy. Korpus neobsahuje publicistiku. Přesné určení žánrového složení není možné, protože texty mohou patřit do více kategorií zároveň (srov. ✍Nádvorníková, 2003). Přístup ke korpusu je velmi omezený, v ČR ho lze získat prostřednictvím asociace Gallica (http://gallica.cz/), je vázaný na IP adresy konkrétních počítačů. Při vyhledávání je možné vytvářet virtuální korpusy podle vlastní potřeby a používat regulárních výrazů, základem je počítačový program Hyperbase.

Velké, stomilionové korpusy však mají i další jaz., jako např. (údaje z jara 2016):

(f) Austrian Academy Corpus (http://www.aac.ac.at/) obsahuje digitalizované literární texty z let 1848–1989.

3. III Korpusy třetí generace

Za korpusy třetí generace se považují dnes velmi velké korpusy vzniklé či vznikající po roce 2000 a čerpající mj. i z webu.

Korpus DEREKO (http://www1.ids-mannheim.de/kl/projekte/korpora/) je svou velikostí 28 miliard slovních tvarů (stav k 28. 9. 2015) největším korpusem textů na světě. Je budován jako archiv současné psané něm. a jeho primárním cílem je vytvoření základny pro empirický lingvistický výzkum. Vzniká v Institut für Deutsche Sprache (IDS) v Mannheimu už od roku 1964, kdy P. Grebe a U. Engel začali pracovat na Mannheimském korpusu (Mannheimer Korpus). Přístup ke korpusu DEREKO je možný (po předchozí registraci uživatele na webu) prostřednictvím korpusového manažeru COSMAS II (Corpus Search, Management and Analysis System, vznikal pod vedením C. Belici a M. Kupietze), jehož klientskou část může uživatel používat buď lokálně (příslušný program si uživatel nainstaluje do svého počítače), n. formou webového rozhraní. Uživatel si může podle vlastní potřeby vytvářet virtuální korpusy. Je také možné využít tzv. kolokační databázi (Collocation Database CCDB, Kookkurenzdatenbank CCDB, hlavní autor C. Belica), která umožňuje prostřednictvím tzv. kookurenční analýzy (Kookkurrenzanalyse) zobrazit tzv. kookurenční profil slova založený na kolokačních vlastnostech jednotlivých slov, dále také vzájemnou podobnost či rozdílnost kontextů a struktur, v nichž se slovo vyskytuje. Tyto kookurenční profily lze pak mezi sebou porovnávat (podobně jako u Word Sketches pomocí Sketch Engine); viz ↗korpusový a lingvistický software.

4. Další miliardové korpusy (často vytvořené automatickým stahováním webových zdrojů) jsou například: Wikipedia Corpus (http://corpus.byu.edu/wiki/), 1,9 miliardy slov; Global Web-Based English (GloWbE, http://corpus.byu.edu/glowbe/) 1,8 miliardy; Austrian Media Corpus (http://www.oeaw.ac.at/icltt/amc), 2 miliardy; COW (Corpora from the Web, http://corporafromtheweb.org/), několikamiliardové webové korpusy nizozemštiny, angličtiny, francouzštiny, němčiny, španělštiny a švédštiny; španělský ESCOPW14 (http://corporafromtheweb.org/escow14/), 7, 3 miliardy; švédský SVCOW14 (http://hpsg.fu-berlin.de/cow/), 4,8 miliardy.

Rozšiřující
Literatura
  • Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
  • Belica, C. Kookkurrenzdatenbank CCDB. Eine korpuslinguistische Denk- und Experimentierplattform für die Erforschung und theoretische Begründung von systemisch‑strukturellen Eigenschaften von Kohäsionsrelationen zwischen den Konstituenten des Sprachgebrauchs, 2001.
  • Francis, W. N. & H. Kučera. Brown Corpus Manual, 1964.
  • Johansson, S. & G. Leech ad. Manual of Information to Accompany the Lancaster‑Oslo/Bergen Corpus of British English, for Use with Digital Computers, 1978.
  • Klímová, J. Francouzský textový korpus a systém elektronických slovníků. SaS 55, 1994, 295–300.
  • Kupietz, M. & H. Keibel. The Mannheim German Reference Corpus (DeReKo) as a Basis for Empirical Linguistic Research. In Minegishi, M. & Y. Kawaguchi (eds.), Working Papers in Corpus-Based Linguistics and Language Education, 2009, 53–59.
  • Kupietz, M. & C. Belica ad. The German Reference Corpus DeReKo: A Primordial Sample for Linguistic Research. In Calzolari, N. ad. (eds.), Proceedings of the 7th Conference on International Language Resources and Evaluation, 2010, 1848–1854.
  • Nádvorníková, O. Analýza predikačního potenciálu francouzských tvarů na ‑ANT. Mgr. dipl., FF UK, Praha, 2003.
  • Nádvorníková, O. Existuje pro francouzštinu ekvivalent ČNK? In Štícha, F & J. Šimandl (eds.), Grammar & Corpora, 2007, 179–190.
  • Nádvorníková, O. Korpusová analýza faktorů sémantické interpretace francouzského gérondivu. PhD. dis., FF UK, Praha, 2012.
  • Nádvorníková, O. & A. Polická ad. Využití InterCorpu ve vysokoškolských kurzech francouzské filologie. In Čermák, F. & J. Kocek (eds.), Mnohojazyčný korpus InterCorp: Možnosti studia, 2010, 232–241.
Citace
Václav Cvrček (1), František Čermák (2a–2c), Marie Kopřivová (2d–2f, 3, 4) (2017): HLAVNÍ SVĚTOVÉ KORPUSY. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/HLAVNÍ SVĚTOVÉ KORPUSY (poslední přístup: 28. 10. 2020)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka