KORPUS

Základní

Rozsáhlý soubor autentických textů (psaných nebo mluvených) převedený do elektronické podoby v jednom formátu tak, aby v něm bylo možné jednoduše vyhledávat jazykové jevy (zejména slova a slovní spojení // ↗kolokace); mluví se též o jazykovém korpusu. K. zobrazuje jaz. jevy v jejich přirozeném kontextu a umožňuje tak vytvářet na reálných datech podložený jaz. výzkum v rozsahu, který byl dříve nemyslitelný. Jeho hlavní předností je vedle užití přirozeného jaz. materiálu i schopnost vypovídat o ↗frekvenci (četnosti) jevů a jejich typickém užití, což je informace jen pomocí badatelovy intuice nezjistitelná. Jelikož do k. vstupují texty jako celek, poskytuje na rozdíl třeba od lístkového katalogu nevýběrové informace o všech typech jaz. jevů.

Latinské slovo corpus znamenající „tělo, těleso“ se však užívá v různých oborech, v lingvistice od 50. let poprvé v angl. a odtud i v dalších jaz. jako označení pro velký soubor elektronických textů, zpracovávaný a vytěžovaný specifickými softwarovými nástroji v počítači (pro odlišení se tu také někdy mluví o textových korpusech). K. je tedy záznamem a relativně objektivním modelem jaz. empirie a je a má být při svém zpracování v základním, výchozím smyslu zcela zbavený jakékoliv apriorní teorie a jiných vlivů, které jaz. nutně deformují a které by se do něj mohly promítat, ať je jejich autor míní sebelépe. Využívá ho (vedle jiných oborů) zvláště empirická lingvistika za účelem studia a poznání jaz. a v širším smyslu skrze něj i k poznání celkové dobové reality, kterou jaz. zprostředkovává a zachycuje. V tomto smyslu je k. autentických záznamů jaz. zpravidla největším zdrojem specializovaného i obecného poznání jaz. a sociální reality vůbec a kvantitou a kvalitou a setrvalostí i kontinuitou informace, kterou je schopný nabídnout, je základní a charakteristickou národní kulturní institucí už dlouho překračující svým významem jediný obor, lingvistiku. Povahou a možnostmi své nabídky mnohonásobně předčí jakékoliv jiné zdroje poznání a studia jaz.

K. stále rostou, „dopředu i dozadu“. Jednak není ani zdaleka elektronicky zachycená a zpracovaná celá minulost dané národní kultury a úhrn jejích minulých textů (↗diachronní korpus), jednak se jaz. stále vyvíjí a bude vyvíjet; odtud potřeba jeho kontinuálního mapování. Většina velkých k. (patří mezi ně i jeden z největších vůbec, Český národní korpus // ČNK) je dostupná na http://www.korpus.cz/, mnohé jsou volně přístupné, bez zvláštního poplatku. Dnešní rozsahy největších k. se pohybují řádově už ve stamiliónech a miliardách slov a jimi nabízená informace je, na rozdíl od zdrojů tradiční lingvistiky založené na manuálních excerptech a archivech, tak bohatá, že ji často nelze, bez použití dalších nástrojů, filtrů a zvláštních metod, bez rizika zahlcení informacemi přímo používat. K. se liší od běžného elektronického archivu, tj. prostého úložiště daných textů s omezenými možnostmi prohledávání. Oproti archivu k. vyniká nejen sofistikovaným korpusovým manažerem (↗korpusový a lingvistický software) schopným zpracovat miliardy slov, řadou speciálních programů a obvykle i vnesenou (lingvistickou) ↗anotací každého slova, ale i celkovým plánovaným zaměřením na určitý cíl se záměrem ho textově maximálně pokrýt. Obvykle se tu pak mluví o reprezentativnosti takového k.

Předpokladem jaz. k. je dostupný soubor autentických, nijak jazykově neupravovaných textů, zpravidla bezprostředně n. až následně existující v elektronické podobě. Podkladové texty pro k. se zpravidla shromažďují podle určitého klíče (reprezentativnost) s cílem získat dostatečně rozsáhlou a vyváženou bázi, ve které výzkum pomocí počítače a řady specializovaných programů (↗korpusový a lingvistický software) vede k hlubšímu a objektivnímu poznání jaz. obecně či v daném směru. Z k. získané a statisticky vyhodnocené informace se v jazykovědě dál zpracovávají teoreticky n. prakticky; svou povahou však k. slouží jak teoretické lingvistice k testování hypotéz, tak i na druhé straně i prostému nespecializovanému uživateli, zajímá‑li se např., jak se dané slovo užívá: každé slovo, hledaná forma (nikoliv však přímo význam) se pomocí programů v k. velmi rychle zjistí a nabízí v bohatých a typických i méně typických kontextech ukazujících jejich autentický úzus (jehož zachycení bylo a je dosud největší slabinou jak valné většiny dosavadních mluvnic, tak slovníků).

Nashromážděné texty v daných proporcích procházejí, po svém katalogizování, dokumentování a zanesení do bibliografické databáze, řadou technických automatických procedur, ve kterých se texty konvertují, popř. čistí, technicky zpracovávají a jejich části označují (viz ↗korpus a jeho příprava). V důsledku označení typů textů není třeba používat k. celý, lze si pro speciální výzkumné účely pomocí korpusového manažeru volit pro výzkum i jen texty určitého druhu (např. romány psané ženami v určitém časovém období); pak se mluví o virtuálním (sub)korpusu.

Žádný k. není a nemůže být záznamem celého jaz., ten ostatně k mání a komplexnímu přímému studiu nebyl nikdy: jaz. je v tomto smyslu všude kolem nás a jen jeho malá část je zapsaná v textech. Staré lexikální archivy, velmi výběrově ho mapující, jsou z dnešního hlediska malé a nedokonalé (pro srovnání např. č. lexikální archiv ÚJČ má 12–13 miliónů excerpt, zatímco ↗ČNK obsahuje v r. 2013 přes 3 miliardy slov). Ani v korpusu ale rozhodně není k nalezení všechno, především ne v oblasti mluveného jaz., šance na víc informací však s rostoucími korpusy rostou také. Velký k. je však co do informace, kterou obsahuje, mnohonásobně lepší zdroj než cokoliv v minulosti. Jeho povaha je tedy jedinečná a nenahraditelná. Stejně tak ho tudíž na druhé straně nelze nahradit webovým korpusem, který se získává automaticky a snadno, ale jen z těch textů, které na webu jsou a zůstávají tam (mnohé nezůstávají a mnohé typy jaz. tam chybějí), a to bez proporcí, bibliografické informace a možnosti zpětného ověření. Webový k. lze však stáhnout a uložit v určité podobě a rozsahu do počítače, kde se s ním dá dále pracovat.

Dobré synchronní k. se snaží mapovat jaz. v jeho proměnách kontinuálně a postupem času po určité době postupně zastarávají, stávají se součástí, byť nedávné, diachronie, a pak je nutné je přesunout do diachronního korpusu (viz ↗Český národní korpus) a nahradit novějšími. Je zřejmé, že takováto činnost si vyžaduje mnoho sil a investic a to je také důvod, proč mnohé zahraniční k. už dál nerostou, jakkoliv je to jak proti zájmu obecnému, tak lingvistickému, protože se tak přerušuje potřebné mapování vývoje jaz. v jeho kontinuitě, při sledování jeho změn.

Obvykle, ne však vždy, se k. vybavují napřed bibliografickou anotací (tagování), zachycující řadu vnějších rysů textů, od autora, názvu, roku až po komplexně označovaný žánr aj. Až potom následuje vlastní automatické a různě pracné lingvistické ↗značkování, vnášející do k. většinou označení morfologického tvaru a slovního druhu (tj. označením takového tvaru a přidělením tvaru reprezentativního, tj. lemmatu), avšak dosud většinou pouze jen na úrovni jednotlivých tvarů, tj. textových výskytů (↗tokenů) lexému. Automatické tagování víceslovných lemmat je však dosud v počátcích.

Vlastní vyhledání zadaného tvaru v k., ke kterému slouží v různé podobě regulární výrazy (viz ↗jazyky dotazovací) užívající pro dotaz písmena a některé další znaky, např. * (wildcard, zastupující libovolný jiný znak) apod., se vždy objeví statisticky vyhodnocené, tj. k výsledku se dodává jeho ↗frekvence. I prostá frekvence už dává uživateli představu o tom, zda hledaný tvar n. lemma jsou okrajové (v důsledku lemmatizace lze hledat mj. i podle lemmatu), anebo naopak centrální, typické, což je důležité např. pedagogicky (pro autory učebnic apod.) či při stanovování členů třídy, prototypu aj.; výhodnější je ovšem znalost relativní frekvence, tj. znalost frekvence hledaného slova v nějakém rámci, umožňující tak i jeho srovnání. Je zřejmé, že k zobecněnému závěru o povaze a úzu jakékoliv hledané jaz. formy v k. je třeba dvou věcí: mít (a) dostatečný počet různých výskytů (z různých, nezávislých zdrojů), tj. záznamů dané formy, a (b) dostatečné rozsáhlý kontext každého výskytu. Až na základě dostatečného množství opakujících se dokladů lze analogicky vyvozený závěr zobecňovat, ať už jde uživateli o mluvnickou formu, valenci či (sémanticky danou) kolokabilitu. Je to jen přeformulování starých zásad lingvistické práce už z předkorpusové, manuální éry. Nabízí‑li však (nejen diachronní) k. jen jediný doklad na danou formu (popř. jen několik málo dokladů), navíc s omezeným kontextem, nelze o ní, jejím významu, formě ani úzu prohlásit prakticky nic, a takovému izolovanému dokladu se říká podle diachronní lexikografie hapax legomenon, v korpusové lingvistice hapax. Je pochopitelné a empiricky ověřené, že v každém k. je hapaxů stále velké množství (až polovina typů, avšak méně než 1 % výskytů‑tokenů), i když mezi ně patří různé chyby, propria, ale i dosud jinde nezachycená slova.

Základní formou, která zachycuje výsledek hledání v k., je soubor řádků, tj. hledaná forma s kontextem a informací, odkud pochází, popř. i další bibliografickou informací. Nazývá se ↗konkordance. Tento výsledek se dá dále různě filtrovat, třídit apod. Vedle této podoby zobrazení výsledku, která je dána povahou vneseného značkování, jdou některé k. dál a zobrazují i syntaktické vztahy; pak se mluví zvláště o treebanku (jako je Pražský závislostní korpus). K. mluvené zachycují zvukovou i grafickou podobu, popř. i fonetický přepis aj .

Současné k. se stále dominantně orientují na psaný současný jaz. (viz ↗korpus synchronní), kterého je díky dnešní elektronické sazbě knih, časopisů apod., relativní dostatek a dá se zpracovávat víceméně automaticky. Jen pomalu se však začínají objevovat skromné a ekonomicky i co do nároků na lidskou práci mnohem dražší korpusy dalších typů. Patří k nim k. diachronní (viz ↗Český národní korpus), jejichž data se musí manuálně přepisovat n. skenovat, ↗korpusy mluvené, resp. orální, jejichž data se musí pracně nahrávat a přepisovat, mají‑li být skutečně prototypická, a nemají to být např. pouhé rozhlasové záznamy. Rysy autentického mluveného jaz. takové záznamy většinou díky úsilí redaktorů apod. značně poztrácely, pokud je vůbec měly. S ohledem na velmi široký datový záběr se velké k. usilující obvykle o reprezentativní zachycení všech typů jaz. nazývají národní k., jako je český, britský, polský národní k. aj.

Srovnávání jaz., vycházející optimálně z existence překladových textů, umožňují paralelní k. (↗Český národní korpus). Předpokladem paralelního k. jsou dostupné překlady textů, které jsou zarovnány; zarovnání, tj. shodné uspořádání (↗alignment) v obou (popř. více) jaz. je minimálně na úrovni odstavců, popř. vět. Jedním z největších multilingválních paralelních k., vztažených k češtině a (některým) textům Českého národního korpusu, je InterCorp, zahrnující dnes přes třicet jaz., které lze navzájem různým způsobem a ve větším počtu najednou srovnávat (v závislosti na dostupných překladech); multilingválních k. i mimo č. je ovšem více.

Lze si ovšem představit i řadu dílčích a specializovaných k., orientovaných např. tematicky; ty však lze v zásadě vytvářet z velkého reprezentativního k. ad hoc. Mnoho uživatelů se ve snaze po rychlém výsledku občas pokouší sestavit k. z těch textů, které jsou volně dostupné. Takový oportunní korpus však nabízí výsledky nejasné povahy, bez informací o dalších, nezastoupených částech jaz., resp. jeho žánrech, či představě o hranicích sledované oblasti. Pro seriózní výzkum takové k. nelze doporučovat. Experimentuje se i s ↗korpusem multimodálním, lépe pouze trimodálním, spojujícím text psaný, mluvený se skutečnou filmově nahranou reálnou situací, někdy doplněným popisem mimiky a gest aj.; tento typ k. je však teprve v začátcích, je velmi drahý a náročný na zpracování.

Využití k. je vedle teoretického a lexikografického popisu jaz. velmi různé a vedle výzkumu je dané v zásadě praktickou potřebou, např. pedagogickou (viz ↗aplikace korpusové lingvistiky). Běžným a relativně snadným výstupem z k. jsou různé frekvenční seznamy, které můžou vyústit ve ↗frekvenční slovník, což je užitečné východisko a korektiv mnoha dalších lingvistických činností. Viz také ↗typy korpusů.

Rozšiřující
Literatura
  • Aijmer, K. (ed.) Corpora and Language Teaching, 2009.
  • Aijmer, K. & B. Altenberg (eds.) English Corpus Linguistics. Studies in Honour of Jan Svartvik, 1991.
  • Atkins, S. & J. Clear ad. Corpus Design Criteria. Literary and Linguistic Computing 7, 1992, 1–16.
  • Atkins, B. T. S. & A. Zampolli. (eds.) Computational Approaches to the Lexicon, 1994.
  • Baker, P. (ed.) Contemporary Corpus Linguistics, 2009.
  • Baker, P. (ed.) Sociolinguistics and Corpus Linguistics, 2010.
  • Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
  • Barnbrook, G. Language and Computers, 1996.
  • Bartoň, T. & V. Cvrček ad. Statistiky češtiny, 2009.
  • Biber, D. Representativeness in Corpus Design. Literary and Linguistic Computing 8, 1993, 243–258.
  • Biber, D. & S. Conrad ad. Corpus Linguistics. Investigating Language Structure and Use, 1998.
  • Bonelli, E. T. & J. Sinclair. Corpora. In Brown, K. (ed.), Encyclopedia of Language and Linguistics 2, 2005, 206–219.
  • Burnard, L. A Gentle Introduction to XML (http://tei-c.org/), 1993.
  • Bybee, J. (ed.) Frequency of Use and the Organization of Language, 2007.
  • Campoy, M. C. & M. J. Luzón. (eds.) Spoken Corpora in Applied Linguistics, 2007.
  • Čermák, F. Corpus Studies and Probabilistic Grammar. In Aijmer K. & B. Altenberg (eds.), English Corpus Linguistics. Studies in Honour of Jan Svartvik, 1991, 30–43.
  • Čermák, F. Corpus Annotation Schemes. Literary and Linguistic Computing 8, 1993, 275–281.
  • Čermák, F. Co je to korpus? Čeština doma a ve světě 1/94, 1994, 58–59.
  • Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. SaS 56, 1995a, 119–140.
  • Čermák, F. Komputační lexikografie. In Čermák, F. & R. Blatná (eds.), Manuál lexikografie, 1995b, 50–71.
  • Čermák, F. Czech National Corpus: A Case in Many Contexts. International Journal of Corpus Linguistics 2, 1997, 181–197.
  • Čermák, F. Czech National Corpus: Its Character, Goal and Background. In Sojka, P. & V. Matoušek ad. (eds.), Text, Speech, Dialogue, Proceedings of the First Workshop on Text, Speech, Dialogue TSD '98, 1998, 9–14.
  • Čermák, F. Information, Language, Corpus and Linguistics. In Matoušek, V. ad. (eds.), Text, Speech and Dialogue, Second International Workshop, TSD '99, 1999a, 39–43.
  • Čermák, F. Linguistics, Corpora and Information. In Lewandowska-Tomaszcyk, B. & P. J. Melia (eds.), PALC '99: Practical Applications in Language Corpora, Łódż Studies in Language, 1999b, 193–201.
  • Čermák, F. Combination, Collocation and Multi-Word Units. In Heid, U. & S. Evert ad. (eds.), Proceedings of The Ninth Euralex International Congress EURALEX 2000, 2000a, 489–495.
  • Čermák, F. Jazykový korpus: Prostředek a zdroj poznání. In Čermák, F. & J. Klímová ad. (eds.), Studie z korpusové lingvistiky, 2000b, 15–37.
  • Čermák, F. Language Corpora: The Czech Case. In Matoušek, V. & P. Mautner (eds.), Text, Speech and Dialogue, TSD 2001, 2001a, 21–30.
  • Čermák, F. Český národní korpus: stav v r. 2001. In Jarošová, A. (ed.), Slovenčina a čeština v počítačovom spracovaní, 2001b, 121–135.
  • Čermák, F. Informace, korpusy a lingvistika. Vesmír 80, 2001c, 648–649.
  • Čermák, F. Pražský mluvený korpus, http://ucnk.ff.cuni.cz/.
  • Čermák, F. The Czech National Corpus: Its Structure and Use. In Lewandowska-Tomaszcyk, B. (ed.), PALC 2001: Practical Applications in Language Corpora, 2001d, 207–224.
  • Čermák, F. Today’s Corpus Linguistics. Some Open Questions. International Journal of Corpus Linguistics 7, 2003, 265–282.
  • Čermák, F. Das Tschechische Nationalkorpus. In Scharnhorst, J. (ed.), Sprachkultur und Lexikographie, 2004a, 97–108.
  • Čermák, F. Frekvenční slovník češtiny na začátku 21. století. In Čermák, F. & M. Křen ad. Frekvenční slovník češtiny, 2004b, 7–10.
  • Čermák, F. Korpusová lingvistika dnešní doby. In Čermák, F. & R. Blatná (eds.), Studie z korpusové lingvistiky 1, Korpusová lingvistika, stav a modelové přístupy, 2006a, 9–18.
  • Čermák, F. Mluvené korpusy. In Čermák, F. & R. Blatná (eds.), Studie z korpusové lingvistiky 1, Korpusová lingvistika, stav a modelové přístupy, 2006b, 53–67.
  • Čermák, F. Kolokace v lingvistice. In Čermák, F. & M. Šulc (eds.), Studie z korpusové lingvistiky 2. Kolokace, 2006c, 9–16.
  • Čermák, F. Lexikon nebo syntax? Nechce se mi a sestry její. In Čermák, F. & R. Blatná (eds.), Studie z korpusové lingvistiky 1, Korpusová lingvistika, stav a modelové přístupy, 2006d, 68–94.
  • Čermák, F. Statistické metody hledání frazémů a idiomů v korpusech. In Čermák, F. & M. Šulc (eds.), Studie z korpusové lingvistiky 2. Kolokace, 2006e, 94–106.
  • Čermák, F. Korpusová lingvistika. In Pleskalová, J. & M. Krčmová ad. (eds.), Kapitoly z dějin české jazykovědné bohemistiky, 2007a, 468–472.
  • Čermák, F. Spoken Corpora Design Revisited (http://corpus.bham.ac.uk/corplingproceedings07/), 2007b.
  • Čermák, F. Some of Current Problems of Corpus and Computational Linguistics or Fifteen Commandments and General Truths. In Čermák, F. & R. Marcienkevičienè ad. (eds.), The Third Baltic Conference on Human Language Technologies. Proceedings, 2007c, 61–69.
  • Čermák, F. Czech Collocations. In Lexicographica. International Journal for Lexicography 24, 2008a, 59–67.
  • Čermák, F. Partikule, jejich syntagmatika a kumulace v mluvené češtině. In Kopřivová, M. & M. Waclawičowá (eds.), Čeština v mluveném korpusu, 2008b, 63–74.
  • Čermák, F. Diskrétní jednotky v jazyce: případ cirkumfixů. SaS 69, 12, 2008c, 78–98.
  • Čermák, F. Spoken Corpora Design: Their Constitutive Parametres. International Journal of Corpus Linguistics 14, 2009a, 113–123.
  • Čermák, F. Jazyk a statistika. In Bartoň, T. & V. Cvrček ad. Statistiky češtiny, 2009b, 19–21.
  • Čermák, F. Leksikografovi zapiski o korpusnom slovarju. Jezik in slovstvo 14, 2009c, 25–42.
  • Čermák, F. Jazyk a jeho kombinace. JA 47, 2010a, 2–22.
  • Čermák, F. Notes on Compiling a Corpus-Based Dictionary. In Lexikos 20 (AFRILEXreeks/series 20, 2010), 2010b, 559–579.
  • Čermák, F. Lexical Collocability: The Case of Verbs and Adverbs. In Ďurčo, P. (ed.), Feste Wortverbindungen und Lexikographie. Kolloquium zur Lexikographie und Wörterbuchforschung, 2010c, 23–35.
  • Čermák, F. Korpusy včera, dnes a zítra. In Čermák, F. (ed.), Korpusová lingvistika Praha 2011 2. Výzkum a výstavba korpusů, 2011a, 10–29.
  • Čermák, F. (ed.) Korpusová lingvistika Praha 2011 1. InterCorp, 2011b.
  • Čermák, F. (ed.) Korpusová lingvistika Praha 2011 2. Výzkum a výstavba korpusů, 2011c.
  • Čermák, F. The Case of The Czech National Corpus: Its Design and History. In Gozdz-Roszkowski, S. (ed.), Explorations across Languages and Corpora, 2011d.
  • Čermák, F. InterCorp: A Contribution to Interlinguistics. Philological Studies 63, 2012, 67–84.
  • Čermák, F. ad. Slovník Karla Čapka, 2007a.
  • Čermák, F. ad. Frekvenční slovník mluvené češtiny, 2007b.
  • Čermák, F. & R. Blatná. (eds.) Jak využívat Český národní korpus, 2005.
  • Čermák, F. & R. Blatná. (eds.) Korpusová lingvistika: Stav a modelové přístupy. Studie z korpusové lingvistiky 1, 2006.
  • Čermák, F. & V. Cvrček ad. (eds.) Slovník komunistické totality, 2010.
  • Čermák, F. & A. Klégr ad. (eds.) InterCorp: Exploring a Multilingual Corpus, 2010.
  • Čermák, F. & J. Klímová ad. (eds.) Studie z korpusové lingvistiky, 2000.
  • Čermák, F. & J. Kocek. (eds.) Mnohojazyčný korpus InterCorp: Možnosti studia, 2010.
  • Čermák, F. & J. Králík ad. Recepce současné češtiny a reprezentativnost korpusu. SaS 56, 1997, 117–124.
  • Čermák, F. & M. Křen ad. Frekvenční slovník češtiny, 2004.
  • Čermák, F. & M. Křen. New Generation Corpus-Based Frequency Dictionaries: The Case of Czech. International Journal of Corpus Linguistics 4, 2005a, 453–468.
  • Čermák, F. & M. Křen. Large Corpora, Lexical Frequencies and Coverage of Texts (http://birmingham.ac.uk/research/). Corpus Linguistics 2005, 1, 2005b, 453–467.
  • Čermák, F. & M. Křen ad. A Frequency Dictionary of Czech. Core Vocabulary for Learners, 2011, 29–44.
  • Čermák, F. & P. Kubíček. Jazykový korpus a škola. ČJL 48, 34, 1997, 84–92.
  • Čermák, F. & V. Petkevič. Linguistically Motivated Tagging as the Base for a Corpus Based Grammar (http://birmingham.ac.uk/research/). Corpus Linguistics 1, 2005.
  • Čermák, F. & A. Rosen. The Case of InterCorp: a Multilingual Parallel Corpus. International Journal of Corpus Linguistics 17, 2012, 411–427.
  • Čermák, F. & M. Šulc. (eds.) Studie z korpusové lingvistiky 2. Kolokace, 2006.
  • Čermák, F. & V. Schmiedtová. The Czech National Corpus Project and Lexicography. In Murata, M. & S. Yamada ad. (eds.), Asialex '03 Tokyo Proceedings. Dictionaries and Language Learning: How Can Dictionaries Help Human & Machine Learning?, 2003, 74–80.
  • Facchinetti, R. Corpus Linguistics 25 Years On, 2007.
  • Fillmore, Ch. J. & B. T. S. Atkins. Starting Where the Dictionaries Stop: The Challenge of Corpus Lexicography. In Atkins, B. T. S. & A. Zampolli (eds.), Computational Approaches to the Lexicon, 1994, 349–393.
  • Garside, R. & G. Leech ad. Corpus Annotation. Linguistic Information from Computer Text Corpora, 1997.
  • Gerbig, A. & O. Mason. (eds.) Language, People, Numbers. Corpus Linguistics and Society, 2008.
  • Gries, S. T. Quantitative Corpus Linguistics with T. A Practical Introduction, 2009.
  • Hajič, J. & B. Hladká. Morfologické značkování korpusu českých textů stochastickou metodou. SaS 58, 1997, 288–304.
  • Hajič, J. & B. Hladká. Tagging Inflective Languages: Prediction of Morphological Categories for a Rich, Structured Tagset. Proceedings from COLING-ACL'98, 1998, 483–490.
  • Hajič, J. & E. Hajičová ad. Syntax v Českém národním korpusu. SaS 59, 1998, 168–177.
  • Halliday, M . A. K. Language as System and Language as Instance: The Corpus as a Theoretical Construct. In Svartvik, J. (ed.), Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82, 1991, 17–32.
  • Church, K. W. & P. Hanks. Word Association Norms, Mutual Information and Lexicography. Computational Linguistics 16, 1990, 22–29.
  • Kennedy, G. An Introduction to Corpus Linguistics, 1998.
  • Kocek, J. & M. Kopřivová ad. (eds.) Český národní korpus: Úvod a příručka uživatele, 2000.
  • Kopřivová, M. & M. Waclawičová. (eds.) Čeština v mluveném korpusu, 2008.
  • Králík, J. & M. Šulc. The Representativeness of Czech Corpora. International Journal of Corpus Linguistics 5, 2005, 357–366.
  • Kučera, K. The Czech National Corpus: Principles, Design, and Results. Literary and Linguistic Computing 17, 2002, 245–257.
  • Leech, G. The State of the Art in Corpus Linguistics. In Aijmer, K. & B. Altenberg (eds.), English Corpus Linguistics. Studies in Honour of Jan Svartvik, 1991, 8–29.
  • Lüdeling, A. & M. Kytö. (eds.) Corpus Linguistics 1, 2008, 2, 2009.
  • McEnery, A. & A. Wilson. Corpus Linguistics, 2001.
  • McEnery, T. & R. Xiao ad. Corpus-Based Studies. An Advanced Resource Book, 2006.
  • McEnery, T. & A. Hardy. Corpus Linguistics. Method, Theory and Practice, 2012.
  • Meyer, Ch. English Corpus Linguistics, 2002.
  • Oakes, M. P. Statistics for Corpus Linguistics, 1998.
  • Oliva, K. & M. Hnátková ad. The Linguistic Basis of a Rule-Based Tagger of Czech. In Sojka, P. & I. Kopeček ad. (eds.), Proceedings of the Text, Speech and Dialogue conference TSD 2000, 2000, 3–8.
  • Olohan, M. Introducing Corpora in Translation Studies, 2004.
  • Richards, J. C. & R. Schmidt. (eds.) Longman Dictionary of Language Teaching and Applied Linguistics, 2002.
  • Sampson, G. & D. McCarthy. Corpus Linguistics: Readings in a Widening Discipline, 2005.
  • Sinclair, J. (ed.) Looking up, 1987.
  • Sinclair, J. Corpus Concordance Collocation, 1991.
  • Sinclair, J. Reading Concordances. An Introduction, 2003.
  • Sinclair, J. Trust the Text: Language, Corpus and Discourse, 2004.
  • Sinclair, J. & S. Jones ad. English Collocation Studies: The OSTI Report (Research in Corpus and Discourse), 2004.
  • Sinclair, J. & A. Mauranen. Linear Unit Grammar, 2006.
  • Stubbs, M. Words and Phrases, 2001.
  • Teubert, W. & A. Čermáková. Corpus Linguistics. A Short Introduction, 2007.
  • Teubert, W. & R. Krishnamurthy. (eds.) Corpus Linguistics 1, Critical Concepts in Linguistics, 2007.
  • Tognini-Bonelli, E. Corpus Linguistics at Work, 2004.
  • Widdowson, H. G. The Description and Prescription of Language. In Alatis, J. (ed.), Georgetown University Round Table on Languages and Linguistics, 1991, 11–24.
  • Wynne, M. (ed.) Developing Linguistic Corpora: A Guide to Good Practice, 2005.
Citace
František Čermák (2017): KORPUS. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/KORPUS (poslední přístup: 19. 9. 2019)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka