TOKEN

Základní

Nejmenší jednotka textu, většinou grafické slovo, resp. jedna jeho realizace (↗type‑token). V korpusové lingvistice je v některých případech jedno grafické slovo rozděleno na dvě slova (např. mohu ‑li), často je také z praktických důvodů (pro snadné vyhledávání) oddělována interpunkce od předcházejícího či následujícího slova (3 tokeny: řekl , že). O jednotlivých t. v korpusu se také mluví jako o pozicích. – Velikost ↗korpusu se udává v t.n. také v textových slovech. Rozčlenění textu na t. je výsledkem procesu ↗tokenizace. Viz také ↗tokenizér.

Rozšiřující
Literatura
Citace
Václav Cvrček (2017): TOKEN. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/TOKEN (poslední přístup: 10. 10. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka