N-GRAM

▲

►

Základní

Prosté zřetězení, posloupnost n jednotek stejného druhu (písmen, častěji však slov) v textu. Mezi členy n. se automaticky nepředpokládá lingvistický vztah. O n. se mluví většinou jako o typech, při jejich popisu tedy není zkoumána jejich konkrétní realizace, ale celková ↗frekvence, příp. distribuce v textech atp. (srov. ↗type‑token). Studium n. je výrazem snahy objevovat v povrchově pouze syntagmatickém toku textu opakovaně se vyskytující shluky jednotek, které mají languovou povahu (srov. ↗kolokace, ↗corpus‑driven výzkum).

Bigramy jsou tak v základu zkoumání kolokací (ačkoli i kolokace mohou být více než dvouslovné). Základní odlišnost bigramu od kolokace je fakt jeho neustálené povahy a neprovázanosti členů (každá kolokace je zároveň bigramem, ne každý bigram je ovšem kolokací, srov. nejčastější bigram jak se).

Trigramy, tetragramy apod. vznikají zřetězením více slov, jejich frekventovaný souvýskyt značí ustálenou jednotku, jejíž význam může vyjadřovat celou propozici (zdálo se mi, že; jsem si myslel, že; podíval jsem se na; to je v pořádku apod.).

▲

►

Rozšiřující

Literatura

Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.

Citace

Václav Cvrček (2017): N-GRAM. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/N-GRAM (poslední přístup: 18. 4. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

N-GRAM

Další pojmy: