REPREZENTATIVNOST KORPUSU  (vyváženost korpusu)

Základní

V korpusové lingvistice často používané, ale nejednoznačně definované pojmy dotýkající se vztahu mezi korpusem a jazykovou realitou, který dosud nebyl uspokojivě vyřešen. Obecně lze říci, že ↗korpus je vzhledem k jaz. (případně jeho části, např. jaz. psanému) reprezentativní, obsahuje‑li v dostatečném množství texty všech jeho variet. Odpovídají‑li poměry mezi varietami v korpusu jejich poměrům v reálném úzu, jedná se navíc o korpus vyvážený. V jiných pohledech se však pojmy reprezentativnost a vyváženost zaměňují.

Tyto definice přinášejí řadu otázek: jaké množství je dostatečné, jak vymezit jednotlivé variety, a hlavně jak zjistit poměry jejich zastoupení v úzu. Motivace je však zřejmá: korpus by měl být věrným odrazem jaz., malým vzorkem, který ale v maximální možné míře odpovídá celku. Zásadním problémem je ovšem nemožnost objektivně měřit míru, v níž korpus jaz. odpovídá. Na druhé straně je však reprezentativnost a vyváženost korpusů nezbytná proto, že bez nich nelze korpusová data interpretovat ve vztahu k jaz., tj. udělat nutný krok od popisu dat v korpusu k popisu jaz., kterému dávají opodstatnění právě reprezentativnost a vyváženost. Mezi korpusem a jazykovou realitou je tedy vztah, který nezbývá než korigovat (nutně subjektivní) intuicí (✍Atkins & Clear ad., 1992; ✍Biber, 1993; ✍Sinclair, 2005). Souvislost reprezentativnosti s náhodným výběrem vzorku zajímavě a přístupnou formou popisuje ✍Evert (2006).

Reprezentativnost a vyváženost starších psaných korpusů řady SYN v ↗ČNK jsou založeny na řadě průzkumů, které se pokoušely různými způsoby kvantifikovat ↗recepci (ne tedy např. produkci) psaných textů běžnými čtenáři (✍Králík, 2001; ✍Králík, 2004; ✍Šulc, 2001). Přestože je výsledné složení těchto korpusů v některých ohledech diskutabilní (✍Křen, 2012:43–48, 89–95), jde o pokus uchopit reprezentativnost a vyváženost obecných, nespecializovaných jaz. korpusů na solidním základě.

Rozšiřující
Literatura
  • Atkins, S. & J. Clear ad. Corpus Design Criteria. Literary and Linguistic Computing 7, 1992, 1–16.
  • Biber, D. Representativeness in Corpus Design. Literary and Linguistic Computing 8, 1993, 243–257.
  • Čermák, F. & J. Králík ad. Recepce současné češtiny a reprezentativnost korpusu. SaS 56, 1997, 117–124.
  • Evert, S. How Random is a Corpus? The Library Metaphor. Zeitschrift für Anglistik und Amerikanistik 54, 2006, 177–190.
  • Králík, J. Vyvážení zdrojů Synchronního korpusu češtiny SYN2000. SaS 62, 2001, 38–53.
  • Králík, J. Aktualizace rozvržení zdrojů Českého národního korpusu s ohledem na revizi vyváženosti jeho struktury. SaS 65, 2004, 133–142.
  • Křen, M. Diachronní srovnání synchronních korpusů. PhD. dis., FF UK, Praha, 2012.
  • Sinclair, J. Corpus and Text – Basic Principles. In Wynne, M. (ed.), Developing Linguistic Corpora – a Guide to Good Practice, 2005 (http://www.ahds.ac.uk/creating/).
  • Šulc, M. Tematická reprezentativnost korpusů. SaS 62, 2001, 53–61.
Citace
Michal Křen (2017): REPREZENTATIVNOST KORPUSU. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/REPREZENTATIVNOST KORPUSU (poslední přístup: 6. 8. 2020)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka