Koondkorpus: Maaleht

Sisu ja maht

Siin korpuses on ajaleht "Maaleht" alates 2001 aasta numbrist 20 kuni 2004. aasta numbrini 20, kokku umbes 4,3 miljonit sõna. Kuidas need sõnad ajalehenumbrite vahel jaotuvad, saab vaadata järgnevast tabelist:

AastaSõnu
2001 850 176
2002 1 369 809
2003 1 477 490
2004 577 756

Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keel ja rahvuskultuur“.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal

Tekstid on pärit "Maalehe" koduleheküljelt www.maaleht.ee

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas ja teisendused tegi Øivind Rangøy.

Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid, koomiksid). Välja on jäetud ka igasugune reklaam ja kuulutused. Ajalehearhiivis esinenud topelt artiklid on samuti välja jäetud.

Märgendus

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

  • XML-kujul korpusel on kolme tasandi päised (header): iga faili kohta käiv info on selle faili alguses, Maalehe allkorpuse kui terviku kohta käiv info on failis header_aja_maaleht.xml ja kogu Koondkorpuse kui terviku kohta käiv info failis koondkorpus_main_header.xml
  • HTML-kujul failidel on kogu see info, mis XML-failidel on esitatud kolmetasandilises päises, esitatud iga faili alguses olevas päises.
  • Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>.

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Tekstides on kasutatud järgmisi märgendeid:

  • Terviklehenumber <div1>
  • Rubriik <div2>
  • Artikkel <div3>
  • Pealkiri <head>
  • Autor <bibl><author>; autorit iseloomustav tekst on samade märgendite vahel (nt. toimetaja)
  • Lõik <p>
  • Lause <s>
  • Väljajäetud materjal, nt hüperlingid, <gap>

Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:

<hi rend="rasvane", rend="kaldkiri" <p rend="rasvane"

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.

Olemid

HTML-failides esinevad olemid on kirjas selles tabelis

 

OlemMärkSeletus
Aacute Á ladina suur A akuudiga
Aring Å ladina suur A ülasõõriga
Auml Ä ladina suur A täppidega
Ccaron Č ladina suur C haagiga
Ccirc Ĉ ###
Eacute É ladina suur E akuudiga
Ncedil Ņ ladina suur N sediiga
Omacr Ō ladina suur O ülakriipsuga
Oslash Ø ladina suur O läbiva kaldkriipsuga
Otilde Õ ladina suur O tildega
Ouml Ö ladina suur O täppidega
Scaron Š ladina suur S haagiga
Umacr Ū ladina suur U ülakriipsuga
Uuml Ü ladina suur U täppidega
Zcaron Ž ladina suur Z haagiga
aacute á ladina väike A akuudiga
acirc â ladina väike A katusega
aelig æ ladina väike AE
agrave à ladina väike A graavisega
amacr ā ladina väike A ülakriipsuga
amp & ja-märk (ampersand)
aring å ladina väike A ülasõõriga
atilde ã ladina väike A tildega
auml ä ladina väike A täppidega
bull ###
cacute ć ladina väike C akuudiga
ccaron č ladina väike C haagiga
ccedil ç ladina väike C sediiga
curren ¤ ###
dagger ###
deg ° kraadimärk
eacute é ladina väike E akuudiga
egrave è ladina väike E graavisega
emacr ē ladina väike E ülakriipsuga
eogon ę ladina väike E pöördsediiga
euml ë ladina väike E täppidega
euro euro
frac12 ½ murd 1/2
frac14 ¼ murd 1/4
frac34 ¾ murd 3/4
gt > suurem-kui-märk
iacute í ladina väike I akuudiga
imacr ī ladina väike I ülakriipsuga
kcedil ķ ladina väike K sediiga
lcedil ļ ladina väike L sediiga
ldquo vasak kahekordne jutumärk ( „ või «)
lt < väiksem-kui-märk
micro µ ###
middot · selline keskmine punkt
nacute ń ladina väike N akuudiga
ncaron ň ladina väike N haagiga
ncedil ņ ladina väike N sediiga
ntilde ñ ladina väike N tildega
oacute ó ladina väike O akuudiga
ograve ò ladina väike O graavisega
ohm ###
omacr ō ladina väike O ülakriipsuga
oslash ø ladina väike O läbiva kaldkriipsuga
otilde õ ladina väike O tildega
ouml ö ladina väike O täppidega
permil promilli märk
plusmn ± pluss-miinus
pound £ naelsterling
rarr ###
rcaron ř ladina väike R haagiga
rcedil ŗ ladina väike R sediiga
rdquo parempoolne kahekordne jutumärk (“ või »)
reg ® ###
sacute ś ladina väike S akuudiga
scaron š ladina väike S haagiga
sect § paragrahvimärk
sup1 ¹ ###
sup2 ² ülaindeks 2
sup3 ³ ülaindeks 3
szlig ß ladina väike SZ
times × korrutusmärk
trade ###
uacute ú ladina väike U akuudiga
ucirc û ladina väike U katusega
ugrave ù ladina väike U graavisega
umacr ū ladina väike U ülakriipsuga
uuml ü ladina väike U täppidega
yacute ý ladina väike Y akuudiga
zcaron ž ladina väike Z haagiga