Koondkorpus: Horisont
Sisu ja maht
Selles allkorpuses on populaarteadusliku ajakirja «Horisont» numbrid aastatest 1996 - 2003, (230 artiklit 7 failis), 260 000 sõna, mis jaotuvad aastati järgmiselt:
aasta | sõnu |
---|---|
1996 | 6 729 |
1997 | 19 973 |
1998 | 44 982 |
1999 | 38 230 |
2000 | 52 017 |
2001 | 36 060 |
2002 | 42 480 |
2003 | 18 595 |
Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keel ja rahvuskultuur“.
NB! Osa nendest tekstidest kuulub ka Tasakaalus korpusekoosseisu!
Kuidas seda kasutada saab?
Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:
- esitada korpusele päringuid meie kasutajaliidese kaudu
- laadida endale alla pakitud tekstid HTML TEI P3 (ASCII+olemid) või XML TEI P5 (utf8) kujul.
- lemmade e algvormide ja grammatiliste kategooriate järgi saab otsida Keeleveebi korpusepäringus
Allikmaterjal
Tekstid on pärit koduleheküljelt http://www.horisont.ee seisuga 9. oktoober 2003
Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Heiki-Jaan Kaalep
Ühes failis on ühe aasta artiklid. Välja on jäetud mitte-tekstiline materjal, so pildid.
Märgendus
Algselt oli tekst kujundatud tabelina; seda ta enam pole. Kui ühes algfailis oli mitu erinevat artiklit, siis märgendus on ikkagi selline nagu oleks seal üks artikkel.
Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi.
Allalaaditavate korpuseversioonide struktuur on järgmine:
- XML-kujul korpusel on kolme tasandi päised (header): iga faili kohta käiv info on selle faili alguses, Horisondi allkorpuse kui terviku kohta käiv info failis header_aja_horisont.xml ja kogu Koondkorpuse kui terviku kohta käiv info failis koondkorpus_main_header.xml
- HTML-kujul failidel on kogu see info, mis XML-failidel on esitatud kolmetasandilises päises, esitatud iga faili alguses olevas päises.
- Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>.
Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Tabelites ja pealkirjades olev tekst on lausestatud ainult juhul, kui <cell> või <head> väljas oli punktiga eraldatud lauseid. Pealkirjad ja autorid on märgendatud. Autori märgenduseks on <bibl> <author>; autorit iseloomustav tekst on samas sees (nt. toimetaja). Märgend <lb> tähistab tabelites vm. olnud kujunduslikku reavahetust. Muidu pole teksti struktuur märgendatud: märgendamata on alapealkirjad, joonealused viited, fotoallkirjad, intervjuude küsimused jpm.
Tekstides on kasutatud järgmisi märgendeid:
- Ajakirjanumber <div1>
- Artikkel <div2>
- Pealkiri <head>
- Autor <bibl><author>; autorit iseloomustav tekst on samade märgendite vahel (nt. toimetaja)
- Lõik <p>
- Lause <s>
- Väljajäetud materjal, nt hüperlingid, <gap>
- tabel <tabel>
- tabeli lahter <cell>
- tabeli rida <row>
Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:
<hi rend="rasvane", rend="kaldkiri", rend="ülaindeks", rend="alaindeks"
Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.
Olemid
HTML-failides esinevad olemid on kirjas selles tabelis