Koondkorpus: Riigikogu

 

Sisu

Selles korpuses on riigikogu stenogrammide toimetatud variandid, internetis saadaval aadressil http://www.riigikogu.ee/ems/plsql/ems.basdata

Need tekstid on osa tulevasest korpusest töönimega 'Eesti keele segakorpus'. Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist 'Eesti keel ja rahvuskultuur'.

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal ja märgendus

Tekstid on internetist automaatselt salvestatud ja teisendatud html-kujult sgml (tei) kujule. Vajalikud programmid kirjutas Kaarel Kaljurand, kasutatud programme on kirjeldatud http://psych.ut.ee/~kaarel/corpus_tools/.

Ühes failis on ühe kuu stenogrammid. Tekstides parandusi pole tehtud, sõnu ei poolitata. Šrifti muutuse algus on tähistatud märgendiga <hi rend='milline šrift'> ja lõpp märgendiga</hi>.

Iga faili alguses on päis <teiheader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms. Ühe kuu stenogramm on tähistatud märgendiga <div0>, ühe sistungjärgu stenogramm märgendiga <div1> ja üks päevakorrapunkt märgendiga <div2>.

Sõnavõtjad on tähistatud märgendiga <rs> ja on alati paksus kirjas <hi rend='bold'>.

Alustav jutumärk on olem &ldquo;; lõpetav jutumärk on olem &rdquo;.

Üks lõik so üksus märgendite <p> ja </p> vahel on üks rida. Lõigu sees on tekst lausestatud programmi estyhmm abil. Iga lause alguses on <s> ja lõpus </s>.

Sõnu kokku 1995. aasta märtsist kuni 2001. aasta lõpuni 13 miljonit

Aastate kaupa:

  • 1995 - 1,2 miljonit
  • 1996 - 1,8 miljonit
  • 1997 - 1,8 miljonit
  • 1998 - 1,9 miljonit
  • 1999 - 1,8 miljonit
  • 2000 - 2,2 miljonit
  • 2001 - 2,2 miljonit

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:

  • Aring - Å (ladina suur A ülasõõriga)
  • Auml - Ä
  • Ccaron - Č (ladina suur C haagiga)
  • Egrave - È (ladina suur E graavisega)
  • Otilde - Õ
  • Ouml - Ö
  • Scaron - Š
  • Uuml - Ü
  • Zcaron - Ž (ladina suur Z haagiga)
  • aacute - á (ladina väike A akuudiga)
  • agrave - à (ladina väike A graavisega)
  • amp - & (ampersand)
  • atilde - ã (ladina väike A tildega)
  • auml - ä
  • ccaron - č (ladina väike C haagiga)
  • ccedil - ç (ladina väike C sediiga)
  • deg - ° (kraadimärk)
  • eacute - é (ladina väike E akuudiga)
  • egrave - è (ladina väike E graavisega)
  • iacute - í (ladina väike I akuuduga)
  • ldquo - “ (vasakpoolne kahekordne jutumärk)
  • lstrok - ł (ladina väike L läbiva kaldkriipsuga)
  • ntilde - ñ (ladina väike N tildega)
  • oacute - ó (ladina väike O akuudiga)
  • oslash - ø (ladina väike O /-ga)
  • otilde - õ
  • ouml - ö
  • rdquo - ” (parempoolne kahekordne jutumärk)
  • scaron - š
  • sect - § (paragrahvimärk)
  • uacute - ú (ladina väike U akuudiga)
  • uuml - ü
  • zcaron - ž (ladina väike z haagiga)