Koondkorpus: Kroonika

 

Sisu

Selles korpuses on nädalakirja Kroonika numbrid alates jaanuar 2001 kuni aprill 2003, (114 numbrit 1000 artikliga), kokku 0,6 miljonit sõna 55 tuhandes lauses.

Need tekstid on osa tulevasest korpusest töönimega 'Eesti keele segakorpus'. Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist 'Eesti keel ja rahvuskultuur'.

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal ja märgendus

Tekstid on pärit koduleheküljelt www.kroonika.ee.

Tekstid on internetist salvestatud ja teisendatud HTML-kujult SGML kujule. Vajalikud programmid kirjutas Katrin Tsepelina.

Ühes failis on üks ajakirja number. Välja on jäetud mitte-tekstiline materjal, so fotod. UNICODE-olemid kujul &#number; on teisendatud SGML-olemiteks. Alustav jutumärk on “ (“) lõpetav jutumärk on ” (”). Ühekordne jutumärk (ja apostroof) on '.

Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina sgml-märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:

<hi rend='bold'>, <hi rend='italic'>, <p rend='bold'>, <p rend='italic'>, <p rend='italic_bold'> <div0> tähistab tervet ajakirja numbrit, <div1> tähistab rubriiki (rubriigid on Juhtkiri, Nupud, Pikad Lood ja Välismaa), <div2> tähistab artiklit, <div3> tähistab artikli osa, mis algab vahepealkirjaga.

Tekst on automaatselt lausestatud. Selle tulemusel on kirjavahemärgid tõstetud sõnadest lahku (v.a. juhul, kui kirjavahemärk on sõne osa, nt. järgarvu punkt) ja laused on märgendatud <s> ja </s> abil. Pealkirjad, vahepealkirjad ja autorid on märgendatud. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees (nt. toimetaja).

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.

Maht

Kokku 0,6 miljonit sõna; aastate kaupa:

aastamilj. sõna
2001 0,27
2002 0,23
2003 0,08

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud olemeid ehk entiteete, mis on toodud Kroonika olemite tabelis.