KÓDOVÁNÍ  (znaková sada)

Základní
Rozšiřující

Způsob převodu dané množiny grafických znaků na čísla pro uložení textu v počítači. Většina k. vychází z původního sedmibitového ASCII k., které umožňovalo zaznamenávat pouze znaky angl. abecedy. Proto bylo ASCII v minulosti mnoha různými způsoby rozšiřováno, čímž vznikla celá řada osmibitových k., jejichž nevýhodou byl kromě vzájemné nekompatibility také omezený repertoár znaků, a tedy i omezení použitelnosti každého z nich na malou množinu jaz. Z osmibitových k. se pro č. používají prakticky pouze dvě: ISO‑8859‑2 (též ISO/IEC 8859‑2, ISO Latin 2) a Windows‑1250 (k. pro MS Windows).

Moderním standardem je univerzální znaková sada obsahující (téměř) všechny znaky (téměř) všech světových abeced nazývaná Unicode, zejména v k. UTF‑8. To používá pro každý znak 1 až 4 bajty při zachování zpětné kompatibility s ASCII.

Literatura
  • McEnery, A. & R. Xiao. Character Encoding in Corpus Construction. In Wynne, M. (ed.), Developing Linguistic Corpora – a Guide to Good Practice (http://ota.ox.ac.uk/documents/), 2005.
Citace
Michal Křen (2017): KÓDOVÁNÍ. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/KÓDOVÁNÍ (poslední přístup: 6. 8. 2020)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka