Koondkorpus: Eesti Päevaleht

 

Sisu ja maht

Selles allkorpuses on Eesti Päevalehe lehenumbrid 18.10.1995 - 31.10.2007, (4065 numbrit 366862 artikliga), kokku 87,9 miljonit sõna 6,6 miljonis lauses.

aastanumbridartiklidlausedsõnad
1995 61 1876 58493 738037
1996 292 10867 305755 3946465
1997 286 13169 303103 4013049
1998 331 14546 338472 4377783
1999 310 18481 418157 5455466
2000 329 51070 934380 12329581
2001 338 63777 1065952 14246608
2002 356 35666 629646 8643510
2003 364 29366 584089 7937521
2004 364 28296 565734 7656749
2005 365 28977 561782 7586399
2006 365 36987 523889 7132934
2007 304 33784 273143 3836326
Kokku:4065366862656259587900428

Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keele keeletehnoloogiline tugi“ projekti „Koondkorpus“ kaudu.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal

Tekstid on pärit Eesti Päevalehe internetiarhiivist.

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Katrin Tsepelina.

Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid). Välja on jäetud ka valuutakursside tabelid, pankadevahelise rahaturu intressimäärade tabelid, saatekavad, edetabelid, sünnipäevaliste nimekirjad, rubriik "НаРусском", ilmateade ja horoskoop.

Märgendus

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

  • XML-kujul korpusel on kolme tasandi päised (header): iga faili kohta käiv info on selle faili alguses, Eesti Päevalehe allkorpuse kui terviku kohta käiv info failis header_aja_EPL.xml ja kogu Koondkorpuse kui terviku kohta käiv info failis koondkorpus_main_header.xml
  • HTML-kujul failidel on kogu see info, mis XML-failidel on esitatud kolmetasandilises päises, esitatud iga faili alguses olevas päises.
  • Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>.

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Kasutatud on järgmisi märgendeid:

  • Terviklehenumber <div1>
  • Rubriik <div2>
  • Artikkel <div3>
  • Pealkiri <head>
  • Autor <bibl><author>; autorit iseloomustav tekst on samade märgendite vahel (nt. toimetaja)
  • Lõik <p>
  • Lause <s>
  • Väljajäetud materjal, nt hüperlingid, <gap>
  • <lb> tähistab autorit iseloomustavas tekstis vm. olnud kujunduslikku reavahetust.
  • <list> tähistab loetelu algust.
  • <item> loetelu ühte elementi.

Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule, kui tervet loendi üksust <item>, siis sellele. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:

hi rend="rasvane", rend="kaldkiri", rend="rasvane_kaldkiri", rend="allajoonitud", rend="väike", rend="väike_värviline", rend="värviline", rend="värviline_allajoonitud", rend="alaindeks", rend="ülaindeks"

item rend="hüperlink", rend="kaldkiri", rend="rasvane", rend="vahepealkiri", rend="värviline"

p rend="allajoonitud", rend="hüperlink", rend="kaldkiri", rend="keskel_rasvane", rend="rasvane", rend="rasvane_allajoonitud", rend="rasvane_kaldkiri", "rasvane_värviline", rend="suur", rend="suur_hüperlink", rend="suur_kaldkiri", rend="suur_rasvane", rend="tekst_pildi_all", rend="vahepealkiri", rend="väike", rend="värviline"

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.

Olemid

HTML-failides esinevad olemid on kirjas selles tabelis