Koondkorpus: Horisont

 

Sisu ja maht

Selles allkorpuses on populaarteadusliku ajakirja «Horisont» numbrid aastatest 1996 - 2003, (230 artiklit 7 failis), 260 000 sõna, mis jaotuvad aastati järgmiselt:

aastasõnu
1996 6 729
1997 19 973
1998 44 982
1999 38 230
2000 52 017
2001 36 060
2002 42 480
2003 18 595

Need tekstid on osa eesti keele Koondkorpusest. Korpuse koostamist on finantseeritud riiklikust programmist „Eesti keel ja rahvuskultuur“.

NB! Osa nendest tekstidest kuulub ka Tasakaalus korpusekoosseisu!

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal

Tekstid on pärit koduleheküljelt http://www.horisont.ee seisuga 9. oktoober 2003

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Heiki-Jaan Kaalep

Ühes failis on ühe aasta artiklid. Välja on jäetud mitte-tekstiline materjal, so pildid.

Märgendus

Algselt oli tekst kujundatud tabelina; seda ta enam pole. Kui ühes algfailis oli mitu erinevat artiklit, siis märgendus on ikkagi selline nagu oleks seal üks artikkel.

Nii allalaaditavates failides kui ka kasutajaliidese kaudu kasutatavates failides on kirjavahemärgid sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi.

Allalaaditavate korpuseversioonide struktuur on järgmine:

  • XML-kujul korpusel on kolme tasandi päised (header): iga faili kohta käiv info on selle faili alguses, Horisondi allkorpuse kui terviku kohta käiv info failis header_aja_horisont.xml ja kogu Koondkorpuse kui terviku kohta käiv info failis koondkorpus_main_header.xml
  • HTML-kujul failidel on kogu see info, mis XML-failidel on esitatud kolmetasandilises päises, esitatud iga faili alguses olevas päises.
  • Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>.

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Tabelites ja pealkirjades olev tekst on lausestatud ainult juhul, kui <cell> või <head> väljas oli punktiga eraldatud lauseid. Pealkirjad ja autorid on märgendatud. Autori märgenduseks on <bibl> <author>; autorit iseloomustav tekst on samas sees (nt. toimetaja). Märgend <lb> tähistab tabelites vm. olnud kujunduslikku reavahetust. Muidu pole teksti struktuur märgendatud: märgendamata on alapealkirjad, joonealused viited, fotoallkirjad, intervjuude küsimused jpm.

Tekstides on kasutatud järgmisi märgendeid:

  • Ajakirjanumber <div1>
  • Artikkel <div2>
  • Pealkiri <head>
  • Autor <bibl><author>; autorit iseloomustav tekst on samade märgendite vahel (nt. toimetaja)
  • Lõik <p>
  • Lause <s>
  • Väljajäetud materjal, nt hüperlingid, <gap>
  • tabel <tabel>
  • tabeli lahter <cell>
  • tabeli rida <row>

Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina märgendatud, kasutades atribuuti rend. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:

<hi rend="rasvane", rend="kaldkiri", rend="ülaindeks", rend="alaindeks"

Kasutajaliideste kaudu kasutatavates korpuseversioonides lause = rida. Märgendus on kustutatud, v.a. märgend <gap ...>. Iga lause algab allikaviitega, kus kirjas info teose autori ja pealkirja kohta.

Olemid

HTML-failides esinevad olemid on kirjas selles tabelis