AUTOMATICKÉ DĚLENÍ SLOV

Autor: Jan Hric
Základní

Popisuje pravidla pro dělení českých slov a princip používaného algoritmu dělení. Víceslabičná slova v č. můžeme, stručně řečeno, rozdělit na slovních švech, po slabičné předponě, resp. na švu slabičné přípony, a na hranici slabik. Samostatné slabiky tvoří i slabikotvorné l, rř, tj. pokud těsně vedle nich není samohláska n. dvojhláska. Nedělíme jednoslabičná slova (pstruh) a zkratky (např.). Kromě čistě jazykových pravidel dělení slov (viz PČP, 1999) se v praxi používají také nepsaná pravidla typografická (v současné době v České republice neexistuje žádná norma zabývající se pravidly typografie, neoficiální typografické rady viz: http://cs.wikipedia.org/wiki/Wikipedie:Typografické_rady), která nedoporučují, až zakazují určité dělení. Nevhodné je oddělení slabičné jednopísmenné předpony n. přípony, např. ú*kaz, i*ra‑cio‑nál‑ní (znak * se zde užívá pro nevhodné a zakázané dělení). Dále slovo nedělíme tak, aby vzniklá část byla rušivá (kni*hovna × knihov‑na). V textu má rozdělené slovo na konci řádku přidaný znak spojovník „‑“.

Pro dělení slov se používají tato pravidla: Složená slova dělíme na švu slov. Slabičné předpony oddělujeme na švu (po‑dle), více slabičných předpon oddělujeme po kterékoli z nich (po‑u‑ká‑zat), neslabičné předpony připojujeme k další slabice (ne‑vzpa‑ma‑to‑vat, zú‑žit, po‑zdr‑žet). V těchto případech slabiky nedělíme jinak (po‑v*z*dech) a dále nedělíme těsně vedle švu (za další samostatnou samohláskou), i kdyby to slabikové dělení dovolovalo (pra‑vo‑ú*hel‑ník, re‑e*di‑ce, žlu‑to‑o*ran‑žo‑vý, stu‑di*a‑chti‑vý). Tato pravidla používáme i na cizí předpony (trans‑ak‑ce). Pokud je předpona dnes již nejasná, připouštíme i slabičné dělení (pro‑s‑tě‑ra‑d‑lo). Ve výše uvedených případech slovních švů a předpon dělíme i dvě samohlásky vedle sebe. Ty naopak neoddělujeme v jiných případech, a to ani v koncovkách (stu‑dium, neo‑im‑pre‑sio‑ni‑s‑mus, reá‑lie, ra‑dio‑an‑té‑na, rag‑byo‑, čty‑řia‑dva‑ce‑ti‑ho‑di‑no‑vý, spo‑lu‑au‑tor, maoi‑s‑mus, opioid‑ní, opiá‑ty).

V ostatních případech se používá slabikové dělení včetně slabik s l/r/ř. Skupinu samohláska‑souhláska‑samohláska dělíme před souhláskou, skupinu samohláska‑souhláska‑souhláska‑samohláska mezi souhláskami s několika upřesněními, skupinu více souhlásek pouze na morfematickém (i příponovém) švu, a pokud není šev zřetelný, tak mezi kterýmikoli souhláskami. Příklady se švem: ob‑struk‑ce, šťast‑ný, prsk‑nout, Es‑ton‑sko, dříč‑ský, lid‑skost, dva‑náct‑ka, druž‑stvo. Příklady bez švu: elek‑t‑ric‑ký, fil‑t‑ro‑vat, spek‑t‑rum.

Na rozhraní slabik se podle Internetové jazykové příručky (✍Pravdová & Svobodová (eds.), 2014) speciálně dělí tyto skupiny souhlásek:

1. souhláska/souhlásky + l: dělí se před l, a pokud předchází písmenu l písmena s/š/d, můžeme dělit i před nimi. Doporučené dělení je před l. Příklady: svi‑s‑lý, jí‑d‑lomum‑lat, žong‑lér‑ství, jeh‑la.

2. Pokud r/ř předchází souhláska, dělíme před r/ř nebo před předcházející souhláskou (mo‑d‑rý, emi‑g‑ra‑ce, vi‑t‑riol).

3. Skupiny samohláska‑s/š‑souhláska‑samohláskasouhláska‑s/š‑souhláska‑samohláska dělíme buď před s/š, nebo za s/š: mí‑s‑to, če‑š‑ti‑na, re‑s‑pekt, ho‑s‑po‑dář‑ství.

4. Skupinu souhlásek str/štr/stř dělíme před s/š, před t nebo před r/ř: re‑gi‑s‑t‑ra‑ce, se‑s‑t‑ra. Připomeňme, že pokud je r/ř slabikotvorné, použijeme předcházející pravidlo (vi‑ce‑mi‑s‑tr).

5. Zdvojené souhlásky a souhlásky stejně vyslovované (‑ck‑) dělíme mezi nimi nebo před nimi, pokud jsou okolo samohlásky (base‑ba‑l‑lo‑vý, ro‑c‑ker). Jinak je neoddělujeme a dělíme mezi zdvojenou souhláskou a souhláskou před nimi, resp. za nimi (Preiss‑ni‑tzův, Budd‑ha).

6. Sekvence ‑ční‑ se za samohláskou rozděluje (agi‑tač‑ní), za souhláskou se ponechává vcelku (re‑dak‑ční, pre‑sump‑ční).

Na dělení může mít vliv i význam slova: pod‑ro‑bit (do otroctví), po‑dro‑bit (při jídle).

Cizí slova dělíme na slabiky podle č. výslovnosti: soft‑wa*re /softvér/, soft‑wa‑ro‑vý /soft‑vé‑ro‑vý/, ver‑saille‑ský /ver‑saj‑ský/. V cizích jaz., které nemají jednoduché n. pravidelné dělení slov, jsou možná dělení uváděna ve slovnících (např. pro angl.n.něm.). V některých jaz. může při dělení nastat změna písmen v rozděleném slově (např. v něm.: hacken ‘kopat, sekat’ dříve hak‑ken, dnes už ha‑cken).

Rozšiřující

Dělicí algoritmus

Nejjednodušší přístup k dělení je mít slovník s povoleným dělením slov. Nevýhodou tohoto přístupu pro č. je, že kromě slov mimo slovník je zapotřebí vyřešit změny dělení způsobené morfologickými příponami. Dělicí algoritmus je vlastně kompaktní způsob reprezentace možných dělení, který nahrazuje slovník. Jeho nevýhodou (jakožto kompromis s kompaktní reprezentací) je existence chyb, jež se projevují jako neúplnost dělení. Tyto chyby nejsou kritické: algoritmus nenajde všechny možné dělící body a to případně způsobí, že se slovo rozdělí na jiném místě. Naopak pro algoritmický přístup je důležité, aby nebyl povolen nesprávný dělící bod, aby tedy chyb tohoto druhu bylo málo. Známé chyby se přidávají do slovníku výjimek, který potřebuje i námi popsaný algoritmus.

Veřejně známá, používaná a jazykově nezávislá metoda je popis dělících bodů pomocí vzorů. Metodu navrhnul ✍Liang (1983) původně pro TeX a jejím použitím vygeneroval vzory pro angličtinu. Vzory se generují ze slovníku rozdělených slov (řádově desetitisíce příkladů v daném jaz.) a lze z nich zrekonstruovat většinu dělících bodů (původně 89 % podle ✍Knutha, 1984). Metoda nemá podporu pro morfologii slov a pracuje s konkrétními tvary slov v trénovacím slovníku, při dělení i ve slovníku výjimek. Vzory pro č. jsou dostupné v TeXu (http://www.cstug.cz/).

Vzor je posloupnost písmen s čísly mezi písmeny a okolo nich, např. 0n0e3j2a0. Čísla odpovídají úrovním, lichá čísla znamenají dělící bod, sudá (včetně 0) zákaz dělení. Hodnota 0 je implicitní počáteční hodnota ve významu: nedělit! Dále ji psát nebudeme a odpovídající zkrácený vzor je ne3j2a vyjadřující lokální dělení ne‑ja. Začátek a konec slova se ve vzorech reprezentuje explicitně, a to tečkou, aby bylo možné používat speciální pravidla pro začátky a konce slov. Ze všech vzorů, které odpovídají slovu, se pro danou pozici vybere maximální číslo a podle jeho parity se určí možnost dělení. Například vzory .ne1, .ne2j1, e3j2a, 1ný. vedou na ohodnocení .ne3j2as1ný. a z toho odvozené dělení ne‑jas‑ný.

Hledání vzorů při vytváření od počátku postupuje od úrovně 1 nahoru vždy od kratších vzorů k delším. Pro danou délku a úroveň vzorů se počítá počet správně a špatně určených změn dělení s nově navrhovaným vzorem, který odstraňuje chybu, vůči aktuální sadě vzorů a slovníku. Vzor se přijme, pokud odstraňuje několikanásobně víc chyb, než jich zavádí. Poněvadž další úroveň hledání vzorů má jinou paritu, odstraňuje tak chyby minulých vzorů. Hledání je vhodné ukončit sudou úrovní, abychom odstranili co nejvíc chybných dělících bodů.

Literatura
  • Bauer, A. a kol. Dělení slov. Slovotvorba v praxi, 1997.
  • Československé sdružení uživatelů TeXu (http://www.cstug.cz/).
  • Haller J. Jak se dělí slova – Abecední seznam slov s naznačeným dělením a s úvodním výkladem o stavbě českých slov, 1956.
  • Knuth, D. E. The TeXbook, 1984.
  • Liang, F. M. Word Hy-phen-a-tion by Com-pu-ter, PhD. diss., Stanford University, 1983 (http://tug.org/docs/liang/).
  • Pravdová, M. & I. Svobodová. (eds.) Akademická příručka českého jazyka, 2014.
  • PČP, 1999.
Citace
Jan Hric (2017): AUTOMATICKÉ DĚLENÍ SLOV. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/AUTOMATICKÉ DĚLENÍ SLOV (poslední přístup: 17. 12. 2018)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2018

Provozuje Centrum zpracování přirozeného jazyka