Ajalehed tasakaalus korpuses
Tasakaalus korpuse ajalehtede allkorpus sisaldab kokku 5 miljonit sõna ajalehekeelt aastatest 1995-2007. Korpuses on u 1,5 miljonit sõna Postimehe tekste, 1,5 miljonit sõna Päevalehe tekste, 1 miljon sõna (SL)Õhtulehe tekste, 1 miljon sõna Eesti Ekspressi tekste ja 1 miljon sõna Maalehe tekste. Korpuse täpset koostist näeb siit tabelist.
Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine: Ühes failis on üks ajalehenumber.
Iga korpusefail algab päisega <teiheader>
. Päises on dokumenteeritud failis sisalduva ajalehe nimi ja kuupäev, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.
Ajalehe tekst ise algab märgenditega <text><body>
ja lõpeb märgendiga </body></text>
. Tekstides on märgendatud terviktekst (st lehenumber ja selle osad st rubriigid, võimalikud alamrubriigid ja artiklid).
- Pealkirjade märgendamiseks on kasutatud märgendit
<head>
- Autorite märgndamiseks
<bibl><author>
- Lõikude märgendamiseks
<p>
- Lausete märgendamiseks
<s>
Originaaltekstist väljajäetud materjal on asendatud märgendiga <gap>, millel on atribuut 'desc', mille väärtus kirjeldab väljajäetud materjali. Näiteks <gap desc='tabel'> või <gap desc='sisukord'>.
Kasutajaliidese kaudu kasutatavas korpuses on märgendus kustutatud, v.a. märgend <gap ...>.
Täpitähed jms on esitatud SGML-kujul. Kirjavahemärgid on sõnadest lahku tõstetud.
Võimalikud vead ja puudused:
- Pealkirjade ja allkirjade puhul võib lausestamine olla vigane, nt võib olla määratud üheks lauseks ja pandud siis ühele reale rubriigi pealkiri, artikli pealkiri ja artikli alapealkiri š ja ž esitamisel (peaks olema š ja ž) on tehtud mis vähegi teha annab, aga vead on siiski võimalikud...