Süntaktiliselt ühestatud korpus

Pindsüntaktiliselt märgendatud eesti keele korpus

Korpus on ligi 500000-sõnaline, koosneb eesti ilukirjanduse, tõlkekirjanduse, ajakirjanduse, seaduse ja suulise keele tekstidest. Osade tekstide märgendus on veel ühtlustamta.

Dokumentatsioon märgenduse kohta:

Küsimused, kommentaarid, mõtted saatke

kaili ät ut.ee

 

Hetkel on kättesaadavad järgmised tekstid:

1. Ühtlustatud ilukirjanduskorpus.

2. Tõlkekorpus (G. Orwelli "1984")

3. Fragmendid suulise keele korpusest

4. H. Rätsepa lihtlausete korpus

5. murdekorpus

Nimekiri täieneb.