Morfoloogiliselt ühestatud korpus

 

Failis failid.zip on käsitsi ühestatud tekstid. Iga teksti on ühestanud teineteisest sõltumatult vähemalt 2 inimest; kolmas on tulemused hiljem ühtlustanud.

Sisu

Töö selle korpusega algas COPERNICUS-projektiga "Multext-East" (1995-1997), mil ühestati G. Orwelli "1984". Valdav osa korpusest, 400 000 sõna, ühestati 2002-2003 riikliku sihtprogrammi "Eesti keel ja rahvuskultuur" toel. Põhilised tegijad on olnud: Külli Habicht, Heiki-Jaan Kaalep, Neeme Kahusk, Kadri Muishnek, Heili Orav, Andriela Rääbis, Kadri Vider.

Kõik failid eraldi (128 tk) on kataloogis failid

Tekstid kuuluvad järgmistesse klassidesse (sõnade hulka ei ole arvestatud kirjavahemärke):

Liiksõnade arv
Ilukirjandus (eesti autorid) 104 000
G. Orwelli "1984" 75 500
Ajakirjandus 111 000
Seadused 121 000
Horisont 98 000
Info-tekstid 4 000
Suuline* 100 000
Kokku 613 000

* morfoloogiliselt analüüsitud suulise kõne tekste saab kasutada ainult kasutajaliidese kaudu.

Failinimed

algavad on 3-tähelise klassi-koodiga (ilu[kirjandus], sea[dus], aja[kirjandus], hor[isont], inf[o], 1984).)

Failide päritolu

Kõik ilukirjanduse failid, v.a. "1984", on eesti kirjakeele korpusest. Faili nimes sisalduv number on sama, mis originaalil, ainult faili alguses olnud stkt või tkt on asendatud 3-tähelise koodiga ilu.

Ajakirjanduse failid on pärit mitmest erinevast korpusest ja kuuluvad vahemikku 1995-1999. Faili nimi ütleb ära, mis ajalehega on tegu.

Seadusetekstid on pärit: esiteks ÕTK koduleheküljelt www.legaltext.ee seisuga aprill 2002 ja teiseks kuskilt mujalt... ÕTK-st pärit failinimed sisaldavad täpselt sama numbrit, mis originaalid. Mujalt saadud tekstide failinimed ütlevad ise ära, mis seadusega on tegu.

Horisondi artiklid on pärit koduleheküljelt www.horisont.ee seisuga 9. oktoober 2003 ja esindavad aastaid 1996-2003. Failinimed on samuti pärit Horisondi koduleheküljelt.

Info-tekstid on pärit eesti kirjakeele korpusest; inf_tht0002 on klassist hobid-harrastused ja inf_tnt0011 klassist entsüklopeediad.

Suulise kõne tekstid.

Faili sisu

Sõnad on analüüsitud ükshaaval, v.a. mõned mitmesõnalised pärisnimed nagu New York, kus analüüs on antud nimele tervikuna. Ühe sõna analüüsi tulemus on järgmine:

sõna     tüvi+lõpp // analüüs //

  • <sõna> on sõna sellisena, nagu ta algselt esines
  • <tüvi> on lemma e. algvormi tüvi: käändsõnadel ainsuse nimetav (kui seda ei ole olemas, siis mitmuse nimetav), pöördsõnadel ma-infinitiivi tüvi ilma (ma-lõputa)
  • <lõpp> on sõna lõpp, kusjuures mitmuse tunnus on temaga liitunud (nagu seda on käsitletud ka Ülle Viksi "Väikeses vormisõnastikus"); partikkel GI/KI, kui ta esineb, on lihtsalt lõppu "kleepunud"; ka juhul, kui sõnal ei saagi lõppu olla (nt. hüüdsõnal), pannakse sõnale lõpp - nn. null-lõpp
  • <analüüs> on üks variantidest, mis on kõik esitatud morfoloogiliste kategooriate tabelis.

Kui on tegemist liitsõna või tuletisega, siis:

  • Tüvi on eristatud eelnevast komponendist '_' märgiga;
  • Lõpp on eristatud eelnevast komponendist '+' märgiga; nn. null-lõpp ongi '+0'
  • Sufiks on eristatud eelnevast komponendist '=' märgiga. Sufiksite märkimine ei ole järjekindel: märgitakse ainult teatud hulka produktiivseid sufikseid.
  • Lemmatüvi leitakse ainult viimase parempoolse komponendi alusel

Mitmesõnalised nimed on sellisel kujul:

New Yorgis New York+s //_S_ prop sg in //

Omaette ridadel asuvad märgendid <s> ja </s> tähistavad lause või pealkirja algust ja lõppu; mõnedes failides esinevad <p> ja </p> tähistavad lõigu algust ja lõppu.

Tähed ja märgid

Peale tähtede ja numbrite on korpuses kasutatud järgmisi märke: ,;.:<>()!?%&"'*+-/=@_~

Täpitähed on sgml-kujul olemitena. Kõik korpuses kasutatud olemid on üles loetud olemite tabelis.

Mõttekriips on - või -- ja tema analüüs alati &mdash; (erinevalt etmrf | fs2kym väljundist, mille puhul väljundiks ongi -). Loetelu alguseks tekstis võib olla -. ja see on sel juhul analüüsitud kui &mdash;.

Jutumärgid on nii, nagu nad algtekstides olid tähistatud, ehk järgmiselt:

"  alustav või lõpetav kahekordne jutumärk
'  alustav või lõpetav ühekordne jutumärk
&ldquo;  alustav kahekordne jutumärk
&rdquo;  lõpetav kahekordne jutumärk
&lsquo;  alustav ühekordne jutumärk
&rsquo;  lõpetav ühekordne jutumärk

Teadaolevad probleemid

Umbes 0,3% analüüsidest võib olla vaieldav või lausa vale.

Ebaühtlaselt on märgendatud 14.09.2004 seisuga nt järgmised sõnad: näiteks siis varem vähem taoline n-ö igalt/ühelt+poolt ligi von van de

Kui sõna lõpus on algselt '-' siis on analüüs ebaühtlane; lõppu pole plussiga märgitud.

Kirjandust

  1. H.-J. Kaalep, K. Muischnek, K. Müürisep, A. Rääbis, K. Habicht. Kas tegelik tekst allub eesti keele morfoloogilistele kirjeldustele? Eesti kirjakeele testkorpuse morfosüntaktilise märgendamise kogemusest. Keel ja Kirjandus 9/2000, lk. 623-633 doc fail, pdf fail, postscript fail
  2. K. Muischnek, K. Vider. Sõnaliigituse kitsaskohad eesti keele arvutianalüüsis esitatud avaldamiseks Rakenduslingvistika konverentsi 2004 kogumikus doc fail pdf fail