CG sõltuvussüntaktiliselt analüüsitud korpus

 

Failis s6ltuvussyntaktiliselt_yhestatud_korpus_jaanuar_2013.tar.gz on käsitsi sõltuvussüntaktiliselt analüüsitud tekstid, kokku ligi 170 000 sõna 11 773 lauses (jaanuaris 2013). Tekstid on pärit eesti keele Tasakaalus korpusest ja jagunevad ilukirjanduse, ajakirjanduse ja teaduse tekstiklasside vahel. Tekstid on esmalt analüüsitud reeglipõhise, kitsenduste grammatikal põhineva sõltuvussüntaktilise analüsaatoriga; automaatselt analüüsitud faile on parandatud käsitsi, järgides pindsüntaktilise märgendamise juhendit ja sõltuvussüntaktilise märgendamise juhendit, mis sisaldub pakitud kataloogis. Korpuse täpsema kirjelduse leiate samuti pakitud kataloogist. Kooditabel on utf8.