KORPUSOVÝ A LINGVISTICKÝ SOFTWARE

Základní
Rozšiřující

Kvůli množství a rozmanitosti korpusových a lingvistických programů i pro jejich důležitost a relevantnost pro lingvistiku se tu omezíme pouze na software čtyř typů: (1) korpusové manažery, (2) konkordanční programy a (3) některé další, (4) software ke zpracování mluvených jazyků.

1 Korpusové manažery (corpus browser // corpus query system)

K.m. je speciální počítačový program, který umožňuje vyhledávání v korpusu. K.m. je obecně komplexní nástroj k hledání v korpusu, zpravidla označkovaném a lemmatizovaném, na základě vložené anotace, nabízející, vedle základní konkordance a identifikace kolokací, i množství dalších způsobů zpracování dat, především jejich frekvenci. Dotazy se zadávají ve speciálním dotazovacím jaz. (↗dotazovací jazyky). K.m. pracuje buď lokálně, n. na principu klient‑server. V prvním případě musí být na počítači, který pracuje s korpusem, zároveň i celý textový korpus. Takové programy se používaly zejména v začátcích korpusové lingvistiky (viz níže Konkordanční programy). V druhém případě je na uživatelově počítači pouze klientská část, která zajišťuje především uživatelské rozhraní (napomáhá s tvorbou dotazů a zobrazuje výsledky) a vlastní vyhledávání probíhá na vzdáleném serveru, kde je také uložen korpus. Tento způsob je vhodný pro velké korpusy. Jeho další výhodou je, že všem uživatelům jsou k dispozici stejná a aktuální data. Klientský program může být buď lokálně nainstalován na uživatelově počítači, n. může jít o webovou aplikaci. S použitím konkrétního dotazovacího jaz. lze v příslušném korpusu vyhledávat slova a jejich kombinace v kontextu. Jednotlivé výskyty jsou většinou zobrazovány formou konkordančních řádků. V závislosti na konkrétním k.m. lze pak používat i další funkce (jako např. třídění konkordančních řádků a počítání ↗frekvencí, statistické funkce a ↗asociační míry). V následujícím přehledu jsou uvedeny k.m. používané v ÚČNK:

(a) Manatee je serverová část k.m. Jejím autorem je P. Rychlý. Slouží k vyhodnocování dotazů zadaných pomocí klientské části, kterou je např. Bonito, SketchEngine n. No SketchEngine (viz dále).

(b) Bonito je klientská část k.m., kterou si uživatel lokálně instaluje. Odpovídající serverovou částí k.m. je Manatee. Autorem obou částí je P. Rychlý. Bonito může běžet na různých operačních systémech bez větších nároků na výkon počítače. Tento k.m. byl používán pro vyhledávání v korpusech ↗ČNK i pro vyhledávání v korpusech jiných jaz. Program Bonito umožňuje prostřednictvím ↗dotazovacího jazyka vyhledávat jednotlivá slova n. slovní spojení podle tzv. atributů, které jsou každému slovnímu tvaru v korpusu přiřazeny (např. atribut word, lemma, tag). Takto vyhledané výrazy zobrazuje v příslušném kontextu formou konkordančních řádků (↗KWIC), které lze uložit mimo k.m. pro další analýzu. Dále umožňuje grafickou tvorbu dotazů, zobrazení a vyhledávání pomocí strukturních značek (označují např. hranice věty), třídění konkordančních řádků. Umožňuje také použití statistických funkcí (vztahujících se obvykle ke ↗kolokacím), jako je např. vzájemná informace (↗MI‑score), míra kontrastu (↗T‑score) a frekvenční distribuce, která spočítá frekvence výrazů na zadaných pozicích.

(c) SketchEngine je klientská část k.m. Manatee (viz výše) v podobě webové aplikace, která umožňuje zobrazovat slovní profily (word sketches, dále WS, viz níže) hledaného výrazu, slova s podobnými slovními profily a rozdíly mezi slovními profily srovnávaných výrazů. WS jsou plně integrovány s ↗kolokacemi, kliknutím na kolokát ve WS se uživateli zobrazí konkordance v korpusu, díky kterým se tento kolokát objevil v seznamu. SketchEngine také umožňuje vytváření vlastních webových korpusů a další práci s nimi. Vlastníkem programu je společnost LexicalComputing Ltd. založená A. Kilgarriffem. SketchEngine vyvíjí od roku 2003 P. Rychlý se svým týmem.

Word sketches (slovní profily) jsou představovány seznamem kolokací pro jednotlivé gramatické vztahy, které jsou pro hledaný výraz vytvořeny automaticky na základě příslušného korpusu. Tyto vztahy jsou předem definovány podle slovních druhů pro daný jazyk v tzv. sketchgrammar (např. pro sloveso v č. jsou v seznamu uvedeny nejčastější kolokáty pro subjekt, objekt, adverbia atd.). WS byly poprvé systematicky použity pro Macmillan English Dictionary for Advanced Learners (2002).

(d) No SketchEngine je klientská část k.m. Manatee (viz výše) v podobě webové aplikace. Stejně jako Bonito (viz výše) umožňuje uživateli práci s korpusy a nabízí podobné funkce. Jde o nekomerční omezenou verzi SketchEngine (viz výše), která vznikla pod vedením P. Rychlého. V současné době je používána pro korpusy ↗ČNK.

e) Rozhraní KonText je rozšířenou a upravenou verzí původního rozhraní No Sketch Engine, kterou v ÚČNK vyvíjí T. Machálek. Umožňuje mimo jiné poslech zvukových segmentů spojených s transkripty u mluvených korpusů a je rozšiřován s ohledem na potřeby uživatelů.

(f) Vlivný a rozšířený je ale i něm. manažer CQP ze Stuttgartu, resp. IMS Workbench, nabízející množství možností a funkcí (viz http://ims.uni-stuttgart.de/forschung/).

(g) Známý je už delší dobu dvojí software provozující British National Corpus v jeho různých verzích, tj. Sara/Xaira.

Tyto k.m. vznikly, tak jako mnoho dalších, původně pro potřeby jen jednoho jaz.; některé se však začaly používat šíře a mezinárodně, zvláště první dva jmenované k.m., které se dnes užívají ve více zemích a pro více jaz. Některé jaz. však vyvinuly své manažery vlastní a dosud je pro svůj jazyk používají.

2 Konkordanční programy (konkordancery)

K.p. jsou speciální programy, které si uživatel nainstaluje na vlastní počítač, na němž je zároveň uložen i příslušný korpus. Slouží k vyhledávání slov a jejich ↗kolokací v textech korpusu a řada z nich disponuje i dalšími užitečnými funkcemi.

(a) WordSmithTools od M. Scotta je jedním z nejpopulárnějších, ale i nejuniverzálnějších k.p., který mj. poprvé přináší hledání keywords, klíčových slov, užitečných k tematické charakterizaci textu, a který má i řadu dalších možností (viz http://lexically.net/wordsmith/).

(b) MonoconcPro (Athel), jehož autorem je M. Barlow, je oblíbený a spolehlivý k.p. Umožňuje pracovat s velkými objemy dat (i více než stomiliónovými), vytvářet frekvenční slovníky, hledat základní kolokace aj. Oba k.p. jsou komerční.

(c) ConcApp (ConcApp Concordancer and Text Analyser // Word Profiler) je komerční k.p. s mnoha dalšími funkcemi nabízející slovní profily, statistiky, hledání kolokací aj.

(d) AntConc je jeden z nejlepších volných k.p. s množstvím užitečných funkcí (viz http://laurenceanthony.net/).

(e) Multiconcord: the Lingua Parallel Concordancer patří mezi nejstarší k.p. v oblasti zpracování a výzkumu paralelních korpusů (viz http://artsweb.bham.ac.uk/pking/). Známý a novější je komerční ParaConc (Athel), jehož autorem je M. Barlow; tento program už je schopen pracovat s Unicodem a zvládá velké množství různojazyčných textů, které mohou být anotované.

(f) Starší, ve své kategorii první a dlouho velmi vlivný byl a je dosovský komerční k.p. OCP, Oxford Concordance Programme, v pozdější verzi známý jako Micro‑OCP, který byl pionýrským počinem a dokázal od samého začátku zpracovávat obrovská data (např. velkého oxfordského slovníku ve své původní verzi pro velké počítače).

(g) Jen o něco později se objevil původně jiný dosovský a ve své době vlivný americký program WordCruncher, mající už i verzi pro Windows (viz http://wordcruncher.com/).

(h) Ve své době byl velmi oblíbený komplexní dosovský program, který nabízí vedle hledání a indexování mnoho vítaných možností, jako je grafické znázornění výskytu prvku v textu aj., tj. Tact (viz http://projects.chass.utoronto.ca/tact/), dnes nabízený i na webu jako TactWeb.

(ch) WebAsCorpus je jeden z dobrých webových konkordančních programů k vyhledávání slov a zjišťování jejich úzu pro několik desítek jaz. včetně č. (viz http://webascorpus.org/).

3 Jiné programy

Dalších užitečných programů je mnoho, některé z nich jsou volné. K těm, které lingvisté užívají vedle výše uvedených nejčastěji, patří ve stručném výběru především:

(a) Collocate (Athel), tj. komerční program od M. Barlowa k hledání ↗n‑gramů (mechanickému nalezení všech dvou‑, troj‑, čtyř‑, pětimístných kombinací slov, tj. bigramů, trigramů, tetragramů, pentagramů aj.) a ke zjišťování několika kolokačních měr, jako je t‑score, MI‑score, log‑likelihood aj.

(b) ConcGram, zprostředkovaný nakladatelstvím Benjamins, tj. komerční vyhledávač frazémů a dalších struktur v korpusu.

(c) kfNgram, tj. volný program k získávání ↗n‑gramů a lexikálních kombinací v osobním, menším korpusu (viz http://kwicfinder.com/).

(d) KWICFinder (KeyWords in Context Concordances), tj. webový konkordanční program na hledání ↗kolokací v různých jaz. (viz http://kwicfinder.com/).

Čistě webové jsou užitečné jednoúčelové programy jako Log-likelihood calculator k výpočtu míry logaritmické podobnosti (viz http://ucrel.lancs.ac.uk/).

č. webových aplikací můžeme jmenovat SyD, program pro synchronní a diachronní analýzu jaz. variant (viz http://syd.korpus.cz).

Mnoho volných lingvistických a korpusových programů nabízí ke stažení Summer Institute of Linguistics, SIL. Někteří lingvisté si ovšem podle potřeby píší své vlastní programy (skripty) v některém z programovacích jaz. Jedním z poměrně oblíbených programovacích jaz. vhodných ke zpracování textů je Perl.

4 Anotační programy pro mluvený jazyk viz ↗mluvený korpus.

Literatura
  • Kilgariff, A. & P. Rychlý ad. The SketchEngine. Proceedings Euralex, 2004, 105–116.
  • Kocek, J. & M. Kopřivová ad. (eds.) Český národní korpus: Úvod a příručka uživatele, 2000.
  • Rychlý, P. Korpusové manažery a jejich efektivní implementace. PhD. dis., FI MU, Brno, 2000.
  • Rychlý, P. Manatee/Bonito – A Modular Corpus Manager. 1st Workshop on Recent Advances in Slavonic Natural Language Processing, 2007, 65–70.
  • Rychlý & P. Smrž. Manatee, Bonito and Word Sketches for Czech. In Proceedings of the Second International Conference on Corpus Linguistics, 2004, 124–131.
  • Satrapa P. Perl pro zelenáče, 2000, 2001.
  • Wall, L. & R. L. Schwartz. Programming Perl, 1997.
Citace
Marie Kopřivová (1), František Čermák (2–4) (2017): KORPUSOVÝ A LINGVISTICKÝ SOFTWARE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/KORPUSOVÝ A LINGVISTICKÝ SOFTWARE (poslední přístup: 19. 9. 2020)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka