Tekstikorpused

EKI logoEesti Keele Instituudi tekstikorpus ressurss META-SHARE'is

Tekstikorpus on koostatud juhuslikult kogutud materjalist (10,4 miljonit sõnavormi; u 80% ulatuses ajalehetekstid) ja pole seega representatiivne. Ka ei ole korpus märgendatud, sobides eelkõige leksikaalse materjali otsinguks.

EKI logoEesti piiblitõlke ajalooline konkordantsressurss META-SHARE'is

Andmebaasi eesmärk on pakkuda ülevaadet vaimuliku eesti keele kujunemisloost 17. sajandil ja 18. sajandi alguses. Andmebaas sisaldab tõlketekste ja nende põhjal koostatud sõnastikku ning võimaldab (valminud osades) otsinguid a) autorite või tekstide kaupa, b) kindla piiblikoha järgi ning c) tänapäevastatud märksõna järgi.

EKI logo Valentsikorpus ressurss META-SHARE'is

Valentsikorpus koosneb ajalehe Postimees artiklite ortograafilistest lõikudest, mille emotsionaalsuse (positiivne, negatiivne, vastuoluline, neutraalne) on määranud lugejad. Kasutatud on domineeriva arvamuse meetodit (Pennebaker et al. 1997). Valentsikorpus on mõeldud eeskätt statistiliste mudelite treenimiseks, kuid seda saab kasutada ka muudel eesmärkidel. Päringuid on võimalik teha nii rubriike („Arvamus, Eesti, Kultuur, Sport, Välismaa, Krimi“) kui ka emotsionaalsust (positiivne, negatiivne, vastuoluline, neutraalne) arvesse võttes.

EKI logo EKI eesti murrete ja soome-ugri keelte arhiiv (EMSUKA) ressurss META-SHARE'is

Eesti Keele Instituudi eesti murrete ja soome-ugri keelte arhiiv on maailma suurim eesti murdekeelt kajastav kogu. Arhiivis leidub nii salvestatud kui ka kirja pandud materjale eesti murrete, soome-ugri keelte ja väliseesti keele kohta.

EKI logoEesti Keele Instituudi kõnesünteesi korpus ressurss META-SHARE'is

Eestikeelse tekst-kõne sünteesi häälemudelite loomiseks kasutatud sisseloetud tekstid.

EKI logoEesti Keele Instituudi mõisteline sõnavarakartoteek ressurss META-SHARE'is

Mõistelise sõnavarakartoteegi idee pärineb Andrus Saarestelt. Kogumistöö algas 1920ndatel ja kestis 1930ndate keskpaigani. Mõistelises kogus on sõnavara jaotatud mitte kihelkondade, vaid mõistete järgi. Materjali on kogutud järgmiste valdkondade kohta: abielu, aeg, aiandus, armuelu, ehitused, heinategu, ilmastik, inimene, kalandus, karjandus, keha, kehakatted, käsitöö, liiklus, linatöö, loomastik, maapõuevarad, maastik, merelinnud, merendus, mesindus, metsandus, mõõdud, mängimine, märk, nõidus, nõud, puutöö, põllundus, suguvõsa, sõidukid, taevalaotus, tahtmine, taimestik, tervis, toitlus, tuli, tundeelu, tunnetamine, töö, usund, veekogud, veesõidukid, viin, vill, värv, õigus ja ühiskond.

EKI logoEesti keele A1-C1 õpikute sisu korpus 2017 (2017) ressurss META-SHARE'is UUS!

Sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute materjali. Korpuses  on u 500 000 sõnet ning korpuses on märgendatud tekstiüksused <text> (enamasti eristatakse harjutust, sõnavaraplokki ja suuremat seotud teksti), tekstilõigud <paragraph> (ühel real asuv tekst), laused <sentence> ja osalaused <clause>. Korpus on morfoloogiliselt märgendatud. Korpuses on kaheksa õpikut:

1. Pesti, M., Ahi, H. (2015). E nagu Eesti: eesti keele õpik algajatele. Tallinn: Kiri-Mari Kirjastus.
2. Kitsnik, M., Kingisepp, L. (2002). Avatud uksed: eesti keele õppekomplekt kesk- ja kõrgtasemele: õpperaamat. Tallinn: TEA Kirjastus.
3. Kitsnik, M. (2012). Eesti keele õpik: B1, B2. Tallinn: M. Kitsnik.
4. Pesti, M., Ahi, H. (2015). Eesti keele õpik A1. Tallinn: Justiitsministeerium.
5. Pesti, M., Ahi, H. (2012). Eesti keele õpik A2. Tallinn: M. Pesti.
6. Pesti, M., Ahi, H. (2015). Eesti keele õpik B1. Tallinn: Justiitsministeerium.
7. Sooneste, M. (2007). Eesti keele õpik: vene õppekeelega gümnaasium: kesk- ja kõrgtase. Tallinn: Varrak.
8. Rammo, S., Teral, M., Klaas-Lang, B., Allik, M. (2012). Keel selgeks!: eesti keele õpik täiskasvanutele. Tallinn: Avita.

EKI logo Eesti keele A1-C1 õpikute korpus 2017 (2017) ressurss META-SHARE'is UUS!

Sisaldab korpusest „Eesti keele õpikute korpus A1–C1" eraldatud täislauseid. Korpus koosneb u 200 000 sõnest ja 24 000 lausest. Korpuses on märgendatud tekstistruktuuri üksused lause <sentence> ja osalause <clause>. Laused on morfoloogiliselt märgendatud. Kõik korpuse laused on keeletaseme piirides unikaalsed.

 

  • Eesti-läti ehitustekstide paralleelkorpus ressurss META-SHARE'is