Süntaktiliselt ühestatud korpus
Pindsüntaktiliselt märgendatud eesti keele korpus
Korpus on ligi 500000-sõnaline, koosneb eesti ilukirjanduse, tõlkekirjanduse, ajakirjanduse, seaduse ja suulise keele tekstidest. Osade tekstide märgendus on veel ühtlustamta.
Dokumentatsioon märgenduse kohta:
-
ülevaatlik:morfoloogilised, süntaktilised
Küsimused, kommentaarid, mõtted saatke
kaili ät ut.ee
Hetkel on kättesaadavad järgmised tekstid:
1. Ühtlustatud ilukirjanduskorpus.
2. Tõlkekorpus (G. Orwelli "1984")
3. Fragmendid suulise keele korpusest
4. H. Rätsepa lihtlausete korpus
5. murdekorpus
Nimekiri täieneb.