Koondkorpus: Maaleht
Sisu ja maht
Siin korpuses on ajaleht "Maaleht" alates 2001 aasta numbrist 20 kuni 2004. aasta numbrini 20, kokku umbes 4,3 miljonit sõna. Kuidas need sõnad ajalehenumbrite vahel jaotuvad, saab vaadata järgnevast tabelist:
Aasta | Sõnu |
---|---|
2001 | 850 176 |
2002 | 1 369 809 |
2003 | 1 477 490 |
2004 | 577 756 |
Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keel ja rahvuskultuur“.
NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!
Kuidas seda kasutada saab?
Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:
- esitada korpusele päringuid meie kasutajaliidese kaudu
- laadida endale alla pakitud tekstid HTML TEI P3 (ASCII+olemid) või XML TEI P5 (utf8) kujul.
- lemmade e algvormide ja grammatiliste kategooriate järgi saab otsida Keeleveebi korpusepäringus
Allikmaterjal
Tekstid on pärit "Maalehe" koduleheküljelt www.maaleht.ee
Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas ja teisendused tegi Øivind Rangøy.
Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid, karikatuurid, koomiksid). Välja on jäetud ka igasugune reklaam ja kuulutused. Ajalehearhiivis esinenud topelt artiklid on samuti välja jäetud.
Märgendus
Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi.
Allalaaditavate korpuseversioonide struktuur on järgmine:
- XML-kujul korpusel on kolme tasandi päised (header): iga faili kohta käiv info on selle faili alguses, Maalehe allkorpuse kui terviku kohta käiv info on failis header_aja_maaleht.xml ja kogu Koondkorpuse kui terviku kohta käiv info failis koondkorpus_main_header.xml
- HTML-kujul failidel on kogu see info, mis XML-failidel on esitatud kolmetasandilises päises, esitatud iga faili alguses olevas päises.
- Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>.
Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.
Tekstides parandusi pole tehtud, sõnu ei poolitata.
Tekstides on kasutatud järgmisi märgendeid:
- Terviklehenumber <div1>
- Rubriik <div2>
- Artikkel <div3>
- Pealkiri <head>
- Autor <bibl><author>; autorit iseloomustav tekst on samade märgendite vahel (nt. toimetaja)
- Lõik <p>
- Lause <s>
- Väljajäetud materjal, nt hüperlingid, <gap>
Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:
<hi rend="rasvane", rend="kaldkiri" <p rend="rasvane"
Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.
Olemid
HTML-failides esinevad olemid on kirjas selles tabelis
Olem | Märk | Seletus |
---|---|---|
Aacute | Á | ladina suur A akuudiga |
Aring | Å | ladina suur A ülasõõriga |
Auml | Ä | ladina suur A täppidega |
Ccaron | Č | ladina suur C haagiga |
Ccirc | Ĉ | ### |
Eacute | É | ladina suur E akuudiga |
Ncedil | Ņ | ladina suur N sediiga |
Omacr | Ō | ladina suur O ülakriipsuga |
Oslash | Ø | ladina suur O läbiva kaldkriipsuga |
Otilde | Õ | ladina suur O tildega |
Ouml | Ö | ladina suur O täppidega |
Scaron | Š | ladina suur S haagiga |
Umacr | Ū | ladina suur U ülakriipsuga |
Uuml | Ü | ladina suur U täppidega |
Zcaron | Ž | ladina suur Z haagiga |
aacute | á | ladina väike A akuudiga |
acirc | â | ladina väike A katusega |
aelig | æ | ladina väike AE |
agrave | à | ladina väike A graavisega |
amacr | ā | ladina väike A ülakriipsuga |
amp | & | ja-märk (ampersand) |
aring | å | ladina väike A ülasõõriga |
atilde | ã | ladina väike A tildega |
auml | ä | ladina väike A täppidega |
bull | • | ### |
cacute | ć | ladina väike C akuudiga |
ccaron | č | ladina väike C haagiga |
ccedil | ç | ladina väike C sediiga |
curren | ¤ | ### |
dagger | † | ### |
deg | ° | kraadimärk |
eacute | é | ladina väike E akuudiga |
egrave | è | ladina väike E graavisega |
emacr | ē | ladina väike E ülakriipsuga |
eogon | ę | ladina väike E pöördsediiga |
euml | ë | ladina väike E täppidega |
euro | € | euro |
frac12 | ½ | murd 1/2 |
frac14 | ¼ | murd 1/4 |
frac34 | ¾ | murd 3/4 |
gt | > | suurem-kui-märk |
iacute | í | ladina väike I akuudiga |
imacr | ī | ladina väike I ülakriipsuga |
kcedil | ķ | ladina väike K sediiga |
lcedil | ļ | ladina väike L sediiga |
ldquo | “ | vasak kahekordne jutumärk ( või «) |
lt | < | väiksem-kui-märk |
micro | µ | ### |
middot | · | selline keskmine punkt |
nacute | ń | ladina väike N akuudiga |
ncaron | ň | ladina väike N haagiga |
ncedil | ņ | ladina väike N sediiga |
ntilde | ñ | ladina väike N tildega |
oacute | ó | ladina väike O akuudiga |
ograve | ò | ladina väike O graavisega |
ohm | Ω | ### |
omacr | ō | ladina väike O ülakriipsuga |
oslash | ø | ladina väike O läbiva kaldkriipsuga |
otilde | õ | ladina väike O tildega |
ouml | ö | ladina väike O täppidega |
permil | ‰ | promilli märk |
plusmn | ± | pluss-miinus |
pound | £ | naelsterling |
rarr | → | ### |
rcaron | ř | ladina väike R haagiga |
rcedil | ŗ | ladina väike R sediiga |
rdquo | ” | parempoolne kahekordne jutumärk ( või ») |
reg | ® | ### |
sacute | ś | ladina väike S akuudiga |
scaron | š | ladina väike S haagiga |
sect | § | paragrahvimärk |
sup1 | ¹ | ### |
sup2 | ² | ülaindeks 2 |
sup3 | ³ | ülaindeks 3 |
szlig | ß | ladina väike SZ |
times | × | korrutusmärk |
trade | ™ | ### |
uacute | ú | ladina väike U akuudiga |
ucirc | û | ladina väike U katusega |
ugrave | ù | ladina väike U graavisega |
umacr | ū | ladina väike U ülakriipsuga |
uuml | ü | ladina väike U täppidega |
yacute | ý | ladina väike Y akuudiga |
zcaron | ž | ladina väike Z haagiga |