Morfologické značkování složených slovesných tvarů v korpusu

Variantní název
Morphological tagging of tne compound forms in corpus
Zdrojový dokument: Sborník prací Filozofické fakulty brněnské univerzity. A, Řada jazykovědná. 1999, roč. 48, č. A47, s. [33]-50
Rozsah
[33]-50
  • ISSN
    0231-7567
Type: Článek
Jazyk
česky
Licence: Neurčená licence
Abstrakt(y)
V našem článku se budeme zabývat dvěma okruhy problémů. V první části se dotkneme otázek souvisejících s obtížemi, jež přináší formalizace pravidel postavení jednotlivých komponent českých složených slovesných tvarů. Pokusíme se formulovat pravidla pro automatickou analýzu složených slovesných tvarů v české větě. Ve druhé části ukážeme na základě analýzy materiálu subkorpusu ČNK. ČNK - Český národní korpus se buduje od roku 1993 za podpory GAČR. Od roku 1996 je práce na něm koncentrována na samostatném pracovišti ÚČNK na FF UK v Praze. V současné době zahrnuje cca 100 000 000 slovních tvarů. DESAM je anotovaným subkorpusem ČNK a zahrnuje cca 1 milion označkovaných slovních tvarů. DESAM sleduje, jak se jednotlivé slovosledné typy uplatňují v textech. Na závěr srovnáme frekvenční zastoupení jednotlivých tvarů a jejich variant a ukážeme, jaký mají tato fakta význam pro automatické morfologické značkování složených slovesných tvarů.
Jazyk shrnutí
Document