N-GRAM

Základní

Prosté zřetězení, posloupnost n jednotek stejného druhu (písmen, častěji však slov) v textu. Mezi členy n. se automaticky nepředpokládá lingvistický vztah. O n. se mluví většinou jako o typech, při jejich popisu tedy není zkoumána jejich konkrétní realizace, ale celková ↗frekvence, příp. distribuce v textech atp. (srov. ↗type‑token). Studium n. je výrazem snahy objevovat v povrchově pouze syntagmatickém toku textu opakovaně se vyskytující shluky jednotek, které mají languovou povahu (srov. ↗kolokace, corpus‑driven výzkum).

Bigramy jsou tak v základu zkoumání kolokací (ačkoli i kolokace mohou být více než dvouslovné). Základní odlišnost bigramu od kolokace je fakt jeho neustálené povahy a neprovázanosti členů (každá kolokace je zároveň bigramem, ne každý bigram je ovšem kolokací, srov. nejčastější bigram jak se).

Trigramy, tetragramy apod. vznikají zřetězením více slov, jejich frekventovaný souvýskyt značí ustálenou jednotku, jejíž význam může vyjadřovat celou propozici (zdálo se mi, že; jsem si myslel, že; podíval jsem se na; to je v pořádku apod.).

Rozšiřující
Literatura
  • Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
Citace
Václav Cvrček (2017): N-GRAM. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/N-GRAM (poslední přístup: 22. 9. 2020)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka