Eesti keele koondkorpus

 

Eesti keele koondkorpus on praegu koostamisel olev suur eesti keele kirjalike tekstide kogu. Tööd on rahastanud:

Milleks meile selline korpus?

Tänapäeva arvutilingvistika (ega ka muu lingvistika) ei saa kuidagi hakkama tekstikorpusteta, st suurte süstemaatiliste struktureeritud tekstikogudeta. Arvutilingvistika vajadusteks ei piisa enam paarist miljonist sõnast koosnevatest korpustest, vaja läheb mitmekümnest miljonist, veel parem, mitmesajast miljonist sõnast koosnevaid korpusi. Koondkorpuse eesmärgiks ongi kasvada 200 miljoni sõna suuruseks. Kuni selle suuruse saavutamiseni on meie korpus pidevas muutumises.

Millest korpus koosneb?

Siin korpuses on ainult terviktekstid, mitte 2000-sõnalised tekstikatked, millest suures osas koosneb Eesti Kirjakeele Korpus 1890-1990 Kogume ainult kirjalikku keelt, suulise kõne korpust koostab suulise kõne uurimisrühm.

Praeguse seisuga on koondkorpuses järgmised allkorpused:

Segakorpuse tasakaalustatud alaosa on Tasakaalus korpus.

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kaks võimalust:

Allalaaditavate tekstideni pääseb iga allkorpuse kirjelduse juurest. Mõningaid kasutajaliidese kaudu kasutatavaid tekste ei saa endale terviktekstidena tõmmata.

Millisel kujul on Koondkorpuse tekstid?

Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine:

  • Iga korpusefail algab päisega <teiheader>. Päises on dokumenteeritud failis sisalduva teose või ajalehe/ajakirja pealkiri, ühe autoriga teksti puhul ka autor; sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.
  • Iga tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>. Tekstis on alati märgendatud pealkirjad <head>, lõigud <p> ja laused <s>. Muu märgendus on allkorpuseti erinev ja selle kohta saab lähemalt lugeda iga allkorpuse lehelt.
  • Korpuses on kirjavahemärgid neile eelnevatest sõnadest lahku tõstetud, s.o. kirjas tavaline lause
    Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
    on korpuses kujul
    Ma nägin , et ta tuleb , ja ütlesin : " Tere ! "

Kasutajaliidese kaudu kasutatavas versioonis rida = lause. TEI-märgendus on kustutatud, v.a. väljajäetud tekstiosi asendav märgend <gap type=’väljajäetud materjali kirjeldus’>
Kirjavahemärgid on ka kasutajaliidese kaudu kasutatavas versioonis sõnadest lahku tõstetud.

Kuidas me seda teeme?

Korpuse koostamise hõlbustamiseks kogume esmajoones neid tekste, mis on juba elektroonilistel kandjatel, lihtsaim viis on koguda internetis olevaid tekste. Enim on internetis muidugi ajakirjandust, kuid sel viisil on võimalik hankida ka nt seaduste tekste, teadustekste jms. Enim on probleeme ilukirjandusega - arusaadavalt autorikaitse põhjustel.

Eesmärgiks on vajalikud tööd võimalikult suurel määral automatiseerida. Esialgne idee oli kirjutada üks programm, mis tõmbaks võrgust vajalikud tekstid, konverteeriks need HTML kujult TEI kujule (TEI - Text Encoding Initiative, üks korpuste märgendamise standardeid), märgendaks teksti osad, nende osade pealkirjad ja allkirjad, lõigud ja laused ning kontrolliks tulemuse formaalset korrektsust so vastavust SGML standardile. Seejärel on võimalik tekstid morfoloogilise analüsaatori abil lemmatiseerida and ühestada. Lõppeesmärgiks on lausestatud tekst, millele on võimalik esitada päringuid nii sõna algvormi, sõnavormi kui ka suvalise stringi kohta. Praegu kasutajaliidese kaudu kasutatavad tekstid on lausestatud, kuid lemmatiseerimata.

Töö käigus aga selgus, et tekstide, eriti ajalehetekstide esitus internetis on niivõrd varieeruv, et ainult üks programm ei ole võimeline nendega toime tulema, iga uus väljaanne kujutab endast uut ülesannet.

Korpuslingvistikas räägitakse palju korpuse representatiivsusest, mis tähendab seda, et korpuses peaksid olema esindatud kõik (või valitud) tekstiklassid, mis antud kultuuris antud ajavahemikul olemas on ja korpuse tasakaalustatusest, mis tähendab seda, et nende tekstiklasside esindatus korpuses peab vastama nende esindatusele antud kultuuris. Tegelikult kaotavad representatiivsus and tasakaalustatus oma tähtsust sedamööda, kui korpused järjest mahukamaks muutuvad.
Tõeliselt suuri representatiivseid korpusi on maailmas koostatud suhteliselt vähe, üks tänapäevasemaid näiteid on briti inglise keele British National Corpus.

Suure koondkorpuse allosadest on koostatud väiksem, ent (rohkem) tasakaalus korpus, mille nimeks ongi Tasakaalus korpus. See sisaldab ajalehti, ilu- ja teaduskirjandust, igaühte 5 miljonit sõna.

Kuna Tasakaalus korpus on Koondkorpuse allosa, siis on ta kasutajaliideses esitatud eraldi päringuaknas (et vältida viga, mil päringule vastuseks saab kaks korda sama lause).