Segakorpus: Eesti Ekspress
Sisu ja maht
Selles allkorpuses on ajalehe 'Eesti Ekspress' numbrid alates 09. 08. 1996 kuni 29. 11. 2001.
Need tekstid on osa eesti keele Koondkorpusest. Korpuse loomist on toetanud riiklik programm „Eesti keele keeletehnoloogiline tugi“ projektiga „Eesti keele koondkorpus“.
NB! Osa nendest tekstidest kuulub ka Tasakaalus korpuse koosseisu!
Kuidas seda kasutada saab?
Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:
- esitada korpusele päringuid meie kasutajaliidese kaudu
- laadida endale alla pakitud tekstid HTML TEI P3 (ASCII+olemid) või XML TEI P5 (utf8) kujul.
- lemmade e algvormide ja grammatiliste kategooriate järgi saab otsida Keeleveebi korpusepäringus
Eesti Ekspressi korpuses on kokku 7,2 miljonit sõna, aastate kaupa täpsemalt:
AASTA
|
SÕNU
|
---|---|
1996
|
293886 |
1997
|
890856 |
1998
|
1263175 |
1999
|
1628341 |
2000
|
1625561 |
2001
|
1458048 |
KOKKU
|
7159867 |
Allikmaterjal
Tekstid pärinevad Eesti ekspressi internetiarhiivist, nad on automaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Kaarel Kaljurand, lausestas ja valideeris Heiki-Jaan Kaalep.
Ühes failis on üks lehenumber. Välja on jäetud mitte-tekstiline materjal so fotod, illustratsioonid, karikatuurid, koomiksid.
Märgendus
Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi.
Allalaaditavate korpuseversioonide struktuur on järgmine:
- XML-kujul korpusel on kolme tasandi päised (header): iga faili kohta käiv info on selle faili alguses, Eesti Ekspressi allkorpuse kui terviku kohta käiv info failis header_aja_EE.xml ja kogu Koondkorpuse kui terviku kohta käiv info failis koondkorpus_main_header.xml
- HTML-kujul failidel on kogu see info, mis XML-failidel on esitatud kolmetasandilises päises, esitatud iga faili alguses olevas päises.
- Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>.
Fail so üks lehenumber on tüüpiliselt jagatud järgmisteks üksusteks:
- <div1> on terve lehenumber, nt <div1 type='ajalehenumber'><head>Eesti Ekspress</head>
- <div2> on lehe A-osa või Areen, nt <div2 type='alaosa'><head>AOSA</head>
- <div3> on rubriik, nt <div3 type='rubriik'><head>MAGNET</head>
- <div4> moodustavad ühes failis paiknenud artiklid. Neid võib olla üks või mitu ja sellel alajaotusel võib olla pealkiri või ka mitte. Juhul, kui pealkiri puudub, on selle asemel kirje CT_FILENAME, nt <div4 type='alamrubriik'><head>CT_FILENAME</head>
- <div5> on artikkel, nt <div5 type='artikkel'><head>Sõbrakäsi idast</head>
- <div5> võib tähistada ka artikli pealkirjast eespool paiknenud osa, siis on märgendil atribuut pealkirja_eelne.
Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Tekstides parandusi pole tehtud, sõnu ei poolitata. Artiklite pealkirjad ja autorid on märgendatud. Nii pealkiri kui autor võib artiklil ka puududa. Nii lausestuses kui ka autorite märgenduses võib esineda vigu.
Tekstides on lisaks eespoolnimetatutele kasutatud järgmisi märgendeid:
- Lõik <p>
- Lause <s>
- Väljajäetud materjal, nt hüperlingid, <gap>
- Pealkiri <head>
- Autor <bibl><author>; autorit iseloomustav tekst on samade märgendite vahel (nt. toimetaja)
<div3> ja <div4> pealkirjades ning autorite märgendamises võib esineda vigu.
Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms
Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:
<hi rend='rasvane'>, <hi rend='kaldkiri'>, <hi rend='ülaindeks'>, <hi rend='alaindeks'> <p rend='rasvane'>, <p rend='kaldkiri'>
Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. väljajätet näitav märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info ajaleheartikli autori ja pealkirja, rubriigi ja lehenumbri kohta.
Olemid
HTML-failides esinevad olemid on kirjas selles tabelis