VĚTNÁ SEGMENTACE

Základní

V korpusové lingvistice automatický proces, při němž se text dělí na věty. V.s. provádí počítačový program zvaný segmenter. Je to po ↗tokenizaci obvykle druhá fáze automatického zpracování textu. V.s. je obecně netriviální, neboť interpunkční znaménka typicky ukončující větu bývají homonymní, např. tečka, jež ukončuje jak větu, tak i zkratku. Při v.s. se obvykle počátek, resp. konec věty, explicitně vyznačí zvláštní značkou značkovacího jaz. (např. ↗XML), např. <s>, resp. </s>. Např. text

Caesar byl zavražděn r. 43 př. Kr. Řím byl tehdy na pokraji převratu.

obsahující dvě věty (nikoli jednu!) by se při netriviální segmentaci (tečka za Kr je totiž víceznačná a následující slovo začíná velkým písmenem) správně segmentoval takto:

<s>Caesar byl zavražděn r. 43 př. Kr.</s>

<s>Řím byl tehdy na pokraji převratu.</s>

V.s. je tedy vzhledem k víceznačnosti interpunkčních znamének, jak předvádí předchozí příklad, netriviální problém (mimo tečku je např. víceznačná i čárka apod.). Při v.s. realizované pravidly se proto používají seznamy zkratek, které jsou zakončené tečkou a zároveň mohou/nemohou stát na konci vět. Problémy představuje i přímá věta vložená do jiné věty, výčty užívající interpunkce, dále věty rozdělené odstavci ad. V.s. se provádí obvykle dvěma způsoby: pomocí pravidel platných v daném jaz., n. na základě strojového učení z tzv. trénovacích textů.

Rozšiřující
Literatura
  • Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič, V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2011, 154–170.
Citace
Vladimír Petkevič (2017): VĚTNÁ SEGMENTACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/VĚTNÁ SEGMENTACE (poslední přístup: 13. 6. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka