Koondkorpus: Doktoritööd

 

Failide juurde

Sisu

Koondkorpuse doktoritööde allkorpus sisaldab Eestis eesti keeles kirjutatud doktoridissertatsioone. Korpuse maht on 2,3 miljonit sõna. Korpuses sisalduvate dissertatsioonide loendi leiate siit tabelist. Korpuse koostamist on toetanud riiklik programm „Eesti keele keeletehnoloogiline tugi“ projekti „Eesti keele koondkorpus“ kaudu.

NB! Needsamad doktoritööd kuuluvad ka Tasakaalus korpuse koosseisu!

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Võimalikud vead ja puudused: vahepealkirjade ja muude mittelauseliste tekstiüksuste (nt loendid) puhul võib lauseteks (so kasutajaliidese puhul ridadeks) jaotamine olla vigane.

Märgendus

Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine:

  • Iga korpusefail algab päisega <teiheader>. Päises on dokumenteeritud failis sisalduva ilukirjandusteose autor ja pealkiri, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.
  • Doktoritöö enda tekst algab märgenditega <text><body> ja lõpeb märgendiga </body></text>

Tekstides on kasutatud järgmisi märgendeid:

  • ervikteksti ja selle osade märgendamiseks: <div0 type='tervikteos'> või <div0 type='dissertatsioon'> ja <div1 type='alaosa'>.
  • Pealkirjade märgendamiseks <head>
  • Autorite märgndamiseks <bibl><author>
  • Lõikude märgendamiseks <p>
  • Lausete märgendamiseks <s>

Väljajäetud tekstiosad

Võõrkeelsed tekstiosad on välja jäetud ja asendatud märgendiga <gap desc='...'>. Enamus tabeleid (mis ei sisaldanud lauseid) on asendatud märgendiga <gap desc='tabel'>. Valemid on asendatud märgendiga <gap desc='valem'>, joonised märgendiga <gap desc=’joonis’>.

Kasutajaliidese kaudu kättesaadavas korpuses on kustutatud muu märgendus peale väljajäetud tekstiosi tähistavate <gap ...>

Erisümbolid

Mitte-ASCII sümbolid on asendatud SGML-olemitega, täpse olemite loendi leiate siit tabelist.