Koondkorpus: Riigikogu
Sisu
Selles korpuses on riigikogu stenogrammide toimetatud variandid, internetis saadaval aadressil http://www.riigikogu.ee/ems/plsql/ems.basdata
Need tekstid on osa tulevasest korpusest töönimega 'Eesti keele segakorpus'. Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist 'Eesti keel ja rahvuskultuur'.
Kuidas seda kasutada saab?
Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:
- esitada korpusele päringuid meie kasutajaliidese kaudu
- laadida endale alla pakitud tekstid
- lemmade e algvormide ja grammatiliste kategooriate järgi saab otsida Keeleveebi korpusepäringus
Allikmaterjal ja märgendus
Tekstid on internetist automaatselt salvestatud ja teisendatud html-kujult sgml (tei) kujule. Vajalikud programmid kirjutas Kaarel Kaljurand, kasutatud programme on kirjeldatud http://psych.ut.ee/~kaarel/corpus_tools/.
Ühes failis on ühe kuu stenogrammid. Tekstides parandusi pole tehtud, sõnu ei poolitata. Šrifti muutuse algus on tähistatud märgendiga <hi rend='milline šrift'> ja lõpp märgendiga</hi>.
Iga faili alguses on päis <teiheader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms. Ühe kuu stenogramm on tähistatud märgendiga <div0>, ühe sistungjärgu stenogramm märgendiga <div1> ja üks päevakorrapunkt märgendiga <div2>.
Sõnavõtjad on tähistatud märgendiga <rs> ja on alati paksus kirjas <hi rend='bold'>.
Alustav jutumärk on olem “; lõpetav jutumärk on olem ”.
Üks lõik so üksus märgendite <p> ja </p> vahel on üks rida. Lõigu sees on tekst lausestatud programmi estyhmm abil. Iga lause alguses on <s> ja lõpus </s>.
Sõnu kokku 1995. aasta märtsist kuni 2001. aasta lõpuni 13 miljonit
Aastate kaupa:
- 1995 - 1,2 miljonit
- 1996 - 1,8 miljonit
- 1997 - 1,8 miljonit
- 1998 - 1,9 miljonit
- 1999 - 1,8 miljonit
- 2000 - 2,2 miljonit
- 2001 - 2,2 miljonit
Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:
- Aring - Å (ladina suur A ülasõõriga)
- Auml - Ä
- Ccaron - Č (ladina suur C haagiga)
- Egrave - È (ladina suur E graavisega)
- Otilde - Õ
- Ouml - Ö
- Scaron - Š
- Uuml - Ü
- Zcaron - Ž (ladina suur Z haagiga)
- aacute - á (ladina väike A akuudiga)
- agrave - à (ladina väike A graavisega)
- amp - & (ampersand)
- atilde - ã (ladina väike A tildega)
- auml - ä
- ccaron - č (ladina väike C haagiga)
- ccedil - ç (ladina väike C sediiga)
- deg - ° (kraadimärk)
- eacute - é (ladina väike E akuudiga)
- egrave - è (ladina väike E graavisega)
- iacute - í (ladina väike I akuuduga)
- ldquo - “ (vasakpoolne kahekordne jutumärk)
- lstrok - ł (ladina väike L läbiva kaldkriipsuga)
- ntilde - ñ (ladina väike N tildega)
- oacute - ó (ladina väike O akuudiga)
- oslash - ø (ladina väike O /-ga)
- otilde - õ
- ouml - ö
- rdquo - ” (parempoolne kahekordne jutumärk)
- scaron - š
- sect - § (paragrahvimärk)
- uacute - ú (ladina väike U akuudiga)
- uuml - ü
- zcaron - ž (ladina väike z haagiga)