TOKENIZACE

Základní

V korpusové lingvistice automatický proces, který člení text složený z písmen, interpunkčních znamének a mezer na jednotlivé izolované ↗tokeny, tj. na slovní tvary a interpunkční znaménka pro účely dalšího (obvykle počítačového) zpracování; viz ✍Baker & Hardie ad. (2006); ✍Jelínek & Petkevič (2011). Při t. se typicky odděluje interpunkce od následujícího či předcházejícího slova, v některých případech se rozděluje slovo skládající se z více slov spojených spojovníkem, identifikují se zkratky končící či nekončící tečkou. T. je obvykle první fází zpracování textu, typicky bezprostředně předchází procesu ↗větné segmentace a ↗morfologické analýzy. T. provádí počítačový program zvaný ↗tokenizér. Např. věta Chcete-li mi to dát, neváhejte!“ by se na tokeny rozdělila takto:

Chcete

-

li

mi

to

dát

,

neváhejte

!

T. řeší obecně netriviální problémy: identifikaci ortografických × morfologických × syntaktických slov, spřežek a víceslovných výrazů. Např. některá ortografická slova jsou morfologicky tvořena dvěma, ba třemi slovy: ohlas je buď imperativem slovesa ohlásit, n.nom./akuz. substantiva mužského neživ. rodu ohlas, n. 2.os.sg.fem. minulého času slovesa ohnout – v tomto případě se skládá z participia ohla a enklitického formantu ‑s, takže je lze morfologicky rozložit na tvar ohla‑s (= jsi), což může být výhodné pro další morfologické a syntaktické zpracování textu. Viz také ↗token, ↗tokenizér.

Rozšiřující
Literatura
  • Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
  • Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič, V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2001, 154–170.
Citace
Vladimír Petkevič (2017): TOKENIZACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/TOKENIZACE (poslední přístup: 24. 4. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka