PRAŽSKÝ ZÁVISLOSTNÍ KORPUS  (Prague Dependency Treebank, PDT)

Základní

První počítačový korpus češtiny komplexně syntakticky anotovaný na základě závislostní gramatiky. Byl vytvořen v letech 1995–2013 (ve verzích 1.0, 2.0, 2.5, 3.0). Jeho celkové schéma bylo popsáno v ✍Hajič (1998), ✍Hajič ad. (2014). Obsahuje anotaci textů vybraných z ↗ČNK (žánrově jde o texty žurnalistické, ekonomické zprávy, texty z oboru počítačových technologií a vědecko‑populární články) na třech úrovních popisu (morfologické, analytické), odpovídající zhruba povrchové syntaxi (AR), a tektogramatické rovině (TR); viz ↗tektogramatika. Ve verzi 3.0 je anotováno na všech 3 úrovních 3165 dokumentů obsahujících 49 431 vět s 833 tisíci uzly (výskytů autosémantických slov). Rozsah morfologicky anotovaných textů je větší – obsahuje téměř 2 miliony slovních výskytů, z nich bylo na analytické rovině anotováno 1,5 milionu slovních tvarů (✍Hajič ad., 2006; ✍Bejček & Panevová ad., 2012; ✍Bejček & Hajič ad., 2013).

Výsledkem tektogramatické anotace jsou závislostní stromy vstupních vět s uzly ohodnocenými lemmaty, funktory (typy sémantických vztahů), subfunktory, morfologickými gramatémy a symboly pro postavení v hloubkovém slovosledu. Na základě anotovaných dat byl vytvořen valenční slovník PDT‑Vallex (✍Urešová, 2011).

Rozšiřující

Korpus PDT je koncepčně založen na přístupu ↗FGP. Tento přístup je dodržován v anotacích na TR, anotování analytické roviny bylo omezeno několika koncepčními zjednodušeními souvisejícími s technickými možnostmi v první etapě anotování: Na AR má každý výskyt povrchové jednotky (včetně předložek, spojek, interpunkčních znaků apod.) v závislostním stromě samostatný uzel; repertoár syntaktických funkcí je omezen na subjekt (Sb), predikát (Pred), objekt (Obj), příslovečné určení (Adv), atribut (Atr), predikát nominální (Pnom), doplněk (Atv, AtvV) a na několik dalších víceméně technických hodnot. Na druhé straně žádný na povrchu nepřítomný element se na AR nedoplňuje. Koordinace, apozice a parenteze vyžadují speciální ošetření jak na AR, tak na TR.

Lingvistické problémy, otázky mezianotátorské shody a výsledky vytěžené z anotovaných dat jsou uveřejněny v řadě studií (např. ✍Böhmová & Hajič ad., 1999; ✍Böhmová & Hajič ad., 2003; ✍Razímová & Žabokrtský, 2006; ✍Hajičová & Pajas ad., 2002; ✍Zikánová, 2008).

Anotovaný korpus slouží jako vhodná materiálová základna pro lingvistické studie, v které může uživatel na rozdíl od subkorpusů ↗ČNK (SYN2000, SYN2005 atd.) využívat dat syntakticky strukturovaných a manuálně lingvisticky vyhodnocených (MSoČ 2, 2014).

Anotovaný korpus se též využívá pro různé úlohy při automatickém zpracování jazyka s použitím statistických metod a strojového učení, např. pro strojový překlad (pro tyto účely jsou anotovaná data dělena na trénovací a testovací).

Na základě PDT je vytvářena jeho další verze PDiT (Prague Discourse Treebank), obohacená o zachycení jemně klasifikovaných typů textové koreference a další druhy diskurzních vztahů (např. o zachycení textových konektorů). Do rodiny pražských závislostních korpusů patří také dokončený česko-anglický korpus (PCEDT 2.0) a korpus mluveného jazyka (PDTSC, zatím ve verzi 1.0). Všechny jsou založeny na stejné koncepci, v každém z nich bylo nutno přijmout některá omezení (✍Mikulová, 2013). Všechny zmiňované korpusy byly vytvořeny v Ústavu formální a aplikované lingvistiky na MFF UK.

Níže zobrazená stromová struktura zachycuje (co do údajů u jednotlivých uzlů trochu zjednodušenou) anotaci věty Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější  na tektogramatické rovině.

Literatura
  • Bejček, E. & J. Panevová ad. Prague Dependency Treebank 2.5. Data/software, 2012 (http://ufal.mff.cuni.cz/pdt2.5/).
  • Bejček, E. & J. Hajič ad. Prague Dependency Treebank 3.0. Data/software, 2013 (http://ufal.mff.cuni.cz/pdt3.0/).
  • Böhmová, A. & J. Hajič ad. Morphological and Syntactic Tagging of the Prague Dependency Treebank. In Proceedings of ATALA Workshop, 1999, 21–29.
  • Böhmová, A. & J. Hajič ad. The Prague Dependency Treebank: A Three-Level Annotation Scenario. In Abeillé, A. (ed.), Treebanks: Building and Using Syntactically Annotated Corpora, 2003, 103128.
  • Cinková, S. & J. Toman ad. Tectogrammatical Annotation of the Wall Street Journal. PBML 92, 2009, 85–104.
  • Hajič, J. Building a Syntactically Annotated Corpus. The Prague Dependency Treebank. In Hajičová, E. (ed.), Issues of Valency and Meaning. Studies in Honour of J. Panevová, 1998, 106132.
  • Hajič, J. ad. Prague Dependency Treebank 2.0. Data/Software, Linguistic Data Consortium, 2006.
  • Hajič, J. & E. Hajičová ad. Prague Dependency Treebank. In Ide, N. & J. Pustejovsky (eds.), Handbook of Linguistic Annotation. Text, Speech and Language Technology, 2014, 145–187.
  • Hajičová, E. What We Learned From Complex Annotation of Topic-Focus Articulation in a Large Czech Corpus. In Radimský, J. (ed.), Écho des Études romanes 8, 2012, 5164.
  • Hajičová, E. & P. Pajas ad. Corpus Annotation on the Tectogrammatical Level: Summarizing the First Stages of Evaluation. PBML 77, 2002, 5–18.
  • Mikulová, M. Anotace na tektogramatické rovině. Dodatek k anotátorské příručce (s ohledem na anotování PDTSC a PCEDT), Technická zpráva TR-2013-51, ÚFAL MFF UK, 2013.
  • Mikulová, M. & A. Bémová ad. Anotace na tektogramatické rovině Pražského závislostního korpusu. Referenční příručka. Technical report no. 2006/31, ÚFAL MFF UK, 2006.
  • MSoČ 2, 2014.
  • Razímová, M. & Z. Žabokrtský. Annotation of Grammatemes in the Prague Dependency Treebank 2.0. In Atwell, E. & N. Ide (eds.), Proceedings of the LREC Workshop on Annotation Science, 2006, 1219.
  • Urešová, Z. Valence sloves v Pražském závislostním korpusu, 2011.
  • Zikánová, Š. Problematické syntaktické struktury: k rozborům aktuálního členění v Pražském závislostním korpusu. In Polách, V. (ed.), Svět za slovy a jejich tvary, svět za spojením slov, 2008, 233240.
Citace
Jarmila Panevová (2017): PRAŽSKÝ ZÁVISLOSTNÍ KORPUS. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/PRAŽSKÝ ZÁVISLOSTNÍ KORPUS (poslední přístup: 25. 4. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka