Tekstikorpused
Eesti Keele Instituudi tekstikorpus
Tekstikorpus on koostatud juhuslikult kogutud materjalist (10,4 miljonit sõnavormi; u 80% ulatuses ajalehetekstid) ja pole seega representatiivne. Ka ei ole korpus märgendatud, sobides eelkõige leksikaalse materjali otsinguks.
Eesti piiblitõlke ajalooline konkordants
Andmebaasi eesmärk on pakkuda ülevaadet vaimuliku eesti keele kujunemisloost 17. sajandil ja 18. sajandi alguses. Andmebaas sisaldab tõlketekste ja nende põhjal koostatud sõnastikku ning võimaldab (valminud osades) otsinguid a) autorite või tekstide kaupa, b) kindla piiblikoha järgi ning c) tänapäevastatud märksõna järgi.
Valentsikorpus koosneb ajalehe Postimees artiklite ortograafilistest lõikudest, mille emotsionaalsuse (positiivne, negatiivne, vastuoluline, neutraalne) on määranud lugejad. Kasutatud on domineeriva arvamuse meetodit (Pennebaker et al. 1997). Valentsikorpus on mõeldud eeskätt statistiliste mudelite treenimiseks, kuid seda saab kasutada ka muudel eesmärkidel. Päringuid on võimalik teha nii rubriike („Arvamus“, „Eesti“, „Kultuur“, „Sport“, „Välismaa“, „Krimi“) kui ka emotsionaalsust (positiivne, negatiivne, vastuoluline, neutraalne) arvesse võttes.
EKI eesti murrete ja soome-ugri keelte arhiiv (EMSUKA)
Eesti Keele Instituudi eesti murrete ja soome-ugri keelte arhiiv on maailma suurim eesti murdekeelt kajastav kogu. Arhiivis leidub nii salvestatud kui ka kirja pandud materjale eesti murrete, soome-ugri keelte ja väliseesti keele kohta.
Eesti Keele Instituudi kõnesünteesi korpus
Eestikeelse tekst-kõne sünteesi häälemudelite loomiseks kasutatud sisseloetud tekstid.
Eesti Keele Instituudi mõisteline sõnavarakartoteek
Mõistelise sõnavarakartoteegi idee pärineb Andrus Saarestelt. Kogumistöö algas 1920ndatel ja kestis 1930ndate keskpaigani. Mõistelises kogus on sõnavara jaotatud mitte kihelkondade, vaid mõistete järgi. Materjali on kogutud järgmiste valdkondade kohta: abielu, aeg, aiandus, armuelu, ehitused, heinategu, ilmastik, inimene, kalandus, karjandus, keha, kehakatted, käsitöö, liiklus, linatöö, loomastik, maapõuevarad, maastik, merelinnud, merendus, mesindus, metsandus, mõõdud, mängimine, märk, nõidus, nõud, puutöö, põllundus, suguvõsa, sõidukid, taevalaotus, tahtmine, taimestik, tervis, toitlus, tuli, tundeelu, tunnetamine, töö, usund, veekogud, veesõidukid, viin, vill, värv, õigus ja ühiskond.
Eesti keele A1-C1 õpikute sisu korpus 2017 (2017) UUS!
Sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute materjali. Korpuses on u 500 000 sõnet ning korpuses on märgendatud tekstiüksused <text> (enamasti eristatakse harjutust, sõnavaraplokki ja suuremat seotud teksti), tekstilõigud <paragraph> (ühel real asuv tekst), laused <sentence> ja osalaused <clause>. Korpus on morfoloogiliselt märgendatud. Korpuses on kaheksa õpikut:
1. Pesti, M., Ahi, H. (2015). E nagu Eesti: eesti keele õpik algajatele. Tallinn: Kiri-Mari Kirjastus.
2. Kitsnik, M., Kingisepp, L. (2002). Avatud uksed: eesti keele õppekomplekt kesk- ja kõrgtasemele: õpperaamat. Tallinn: TEA Kirjastus.
3. Kitsnik, M. (2012). Eesti keele õpik: B1, B2. Tallinn: M. Kitsnik.
4. Pesti, M., Ahi, H. (2015). Eesti keele õpik A1. Tallinn: Justiitsministeerium.
5. Pesti, M., Ahi, H. (2012). Eesti keele õpik A2. Tallinn: M. Pesti.
6. Pesti, M., Ahi, H. (2015). Eesti keele õpik B1. Tallinn: Justiitsministeerium.
7. Sooneste, M. (2007). Eesti keele õpik: vene õppekeelega gümnaasium: kesk- ja kõrgtase. Tallinn: Varrak.
8. Rammo, S., Teral, M., Klaas-Lang, B., Allik, M. (2012). Keel selgeks!: eesti keele õpik täiskasvanutele. Tallinn: Avita.
Eesti keele A1-C1 õpikute korpus 2017 (2017) UUS!
Sisaldab korpusest „Eesti keele õpikute korpus A1–C1" eraldatud täislauseid. Korpus koosneb u 200 000 sõnest ja 24 000 lausest. Korpuses on märgendatud tekstistruktuuri üksused lause <sentence> ja osalause <clause>. Laused on morfoloogiliselt märgendatud. Kõik korpuse laused on keeletaseme piirides unikaalsed.
- Eesti Kirjakeele Korpus 1890-1990 (10 alamkorpust)
http://www.cl.ut.ee/korpused/baaskorpus
- Eesti keele koondkorpus
http://www.keeletehnoloogia.ee/projektid/koondkorpus
- Tasakaalus korpus
http://www.cl.ut.ee/korpused/grammatikakorpus
- Segakorpus: uus meedia
http://www.cl.ut.ee/korpused/segakorpus/uusmeedia
- Morfoloogiliselt ühestatud korpus
http://www.cl.ut.ee/korpused/morfkorpus
- Ühestatud sõnatähenduste korpus
http://www.cl.ut.ee/korpused/semkorpus
- Õppijakeelekorpuse paralleelkorpus
http://www.keeletehnoloogia.ee/projektid/veebipohine-keeleope/vead.zip
- Õppijakeelekorpus
http://www.murre.ut.ee/flee-korpused/#10-6ppija
- Emakeeleõppija korpus
http://www.murre.ut.ee/flee-korpused/#11-kooli
https://korpused.keeleressursid.ee/emma/
- Eesti dialoogikorpus EDiK
http://math.ut.ee/~koit/Dialoog/EDiC.html
- Vana kirjakeele korpus (VAKK)
http://www.murre.ut.ee/vakkur/Korpused/korpused.htm
- Pindsüntaktiliselt märgendatud eesti keele korpus
http://math.ut.ee/~kaili/Korpus/pindmine
- Inglise-eesti ja eesti-inglise paralleelkorpus
http://www.cl.ut.ee/korpused/paralleel
- Eesti keele puudepank
http://www.ut.ee/~kaili/Korpus/puud
- Eesti vahekeele korpus
http://evkk.tlu.ee