Koondkorpus: Eesti ilukirjandus 1990-
Sisu ja maht
Selles allkorpuses on eesti algupärased ilukirjandustekstid, kokku ca 5,8 miljonit sõna. Valdav enamus tekstidest on avaldatud pärast 1990. aastat. Täpse info korpuses sisalduvate tekstide kohta leiate siit tabelist.
NB! Suur osa nendest ilukirjandustekstidest kuulub ka Tasakaalus korpuse koosseisu!
Kuidas seda kasutada saab
Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:
- esitada korpusele päringuid meie kasutajaliidese kaudu
- laadida endale alla pakitud tekstid HTML TEI P3 kujul (ASCII + täpitähed olemitena) või XML TEI P5 kujul (UTF-8).
- lemmade e algvormide ja grammatiliste kategooriate järgi saab korpusele päringuid esitada Keeleveebi korpusepäringus
Märgendus
Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi.
Allalaaditavate korpuseversioonide struktuur on järgmine:
- XML-kujul korpusel on kolme tasandi päised (header): iga faili kohta käiv info on selle faili alguses, ilukirjanduse allkorpuse kui terviku kohta käiv info failis header_ilu.xml ja kogu Koondkorpuse kui terviku kohta käiv info failis koondkorpus_main_header.xml
- Korpusefaili päises on dokumenteeritud failis sisalduva ilukirjandusteose autor ja pealkiri, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv
- HTML-kujul failidel on kogu see info, mis XML-failidel on esitatud kolmetasandilises päises, esitatud iga faili alguses olevas päises.
- Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>. Tekstides on kasutatud järgmisi märgendeid:
- Tervikteksti ja selle osade märgendamiseks: terviktekst: <div0 type='tervikteos'>; selle 1. astme allosa <div1 type='alaosa’> ja div1 allosa omakorda: <div2 type=’alaosa’>
- Pealkirjade märgendamiseks <head>
- Autorite märgndamiseks <bibl><author>
- Lõikude märgendamiseks <p>
- Lausete märgendamiseks <s>
- Värsiridade märgendamiseks <l>
- Tervikvärsi märgendamiseks <lg>
- Originaaltekstist väljajäetud materjal on asendatud märgendiga <gap>, millel on atribuut 'rend' (HTML-failides 'desc'), mille väärtus kirjeldab väljajäetud materjali. Näiteks <gap drend='ilmumisandmed'>, <gap rend='saksakeelne luuletus'>
Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.
Olemid
HTML-failides esinevad olemid on kirjas selles tabelis