Koondkorpus: Arvutiteadus ja Andmetöötlus

 

Failide juurde

Sisu

Selles korpuses on tekstid ajakirja "Arvutiteadus ja Andmetöötlus" internetiarhiivist (kokku ca 625 000 sõna). Korpuses on olemas ajakirja numbrid perioodist 1999 – 2005.

Need tekstid on osa tulevasest korpusest töönimega «Eesti keele segakorpus». Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist «Eesti keele keeletehnoloogiline tugi».

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal ja märgendus

Tekstid on teisendatud HTML-kujult TEI-kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.

Ühes failis on üks ajakirjanumber. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti tabelid ja kirjanduse loetelud.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Märgendus

Alustav jutumärk on &ldquo;, lõpetav jutumärk on &rdquo;. Ühekordne jutumärk on '. Šrifti muutuse algus on tähistatud märgendiga <hi rend='milline šrift'> ja lõpp märgendiga</hi> või, kui erineva šriftiga on terve lõik, siis algab lõik märgendiga <p rend='milline šrift'>.

<div0> tähistab üht ajakirja numbrit ja <div1> tähistab artiklit või alaosa.

Tekst on jagatud lõikudeks nagu algne HTML-fail ja automaatselt lausestatud. Pealkirjad ja autorid on märgendatud. Autor võib mõnel alaosal ka puududa. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees.

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.

Maht

aastasõnu
1999 70 083
2000 87 141
2001 87 854
2002 102 722
2003 88 670
2004 94 880
2005 93 570
Kokku 624 920

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:

 • &Auml; -Ä
 • &Aacute; - Á (ladina suur A akuudiga)
 • &Acirc; - Â (ladina suur A tsirkumfleksiga)
 • &Aring; - Å (ladina suur A ülasõõriga)
 • &Agrave; - À (ladina suur A graavisega)
 • &Auml; - Ä
 • &Eacute; - É (ladina suur E akuudiga)
 • &Ecirc; - Ê (ladina suur E tsirkumfleksiga)
 • &Egrave; - È (ladina suur E graavisega)
 • &ETH; - Ð
 • &Euml; - Ë (ladina suur E umlaudiga)
 • &Iacute; - Í (ladina suur I akuudiga)
 • &Igrave; - Ì (ladina suur I graavisega)
 • &Iuml; - Ï (ladina suur I umlaudiga)
 • &Nacute; - Ń (ladina suur N akuudiga)
 • &Ntilde; - Ñ (ladina suur N tildega)
 • &Oacute; - Ó (ladina suur O akuudiga)
 • &Ocirc; - Ô (ladina suur O tsirkumfleksiga)
 • &Ograve; - Ò (ladina suur O graavisega)
 • &Oslash; - Ø (ladina suur O kaldkriipsuga)
 • &Otilde; - Õ
 • &Ouml; - Ö
 • &Scaron; - Š
 • &THORN; - Þ
 • &Uuml; - Ü
 • &Zcaron; - Ž
 • &Yacute; - Ý (ladina suur Y akuudiga)
 • &aacute; - á (ladina väike a akuudiga)
 • &acirc; - â (ladina väike a tsirkumfleksiga)
 • &aelig; - æ (ae ligatuur)
 • &agrave; - à (väike ladina a graavisega)
 • &amp; - & (ampersand)
 • &aogon; - ą
 • &aring; - å (ladina väike a ülasõõriga)
 • &ast; - *
 • &atilde; - ã (ladina väike a tildega)
 • &auml; - ä
 • &ccaron; - č (ladina väike c haagiga)
 • &ccedil; - ç (ladina väike c alakomaga)
 • &commat; - @
 • &copy; - © (autoriõiguse märk)
 • &deg; - º (kraadimärk)
 • &divide; - ÷ (jagamismärk)
 • &dollar; - º (dollarimärk)
 • &eacute; - é (ladina väike e akuudiga)
 • &ecirc; - ê (ladina väike e tsirkumfleksiga)
 • &egrave; - è (ladina väike e graavisega)
 • &eth; - ð
 • &euml; - ë (ladina väike e umlaudiga)
 • &frac34; -¾ (murd 3/4)
 • &frac14; -¼ (murd 1/4)
 • &frac12; -½ (murd 1/2)
 • &gt; - >
 • &ge; - ≥
 • &half; - > ½ (murd 1/2)
 • &iacute; - í (ladina väike i akuudiga)
 • &icirc; - î (ladina väike i tsirkumfleksiga)
 • &igrave; - ì (ladina väike i graavisega)
 • &iuml; - ï (ladina väike i umlaudiga)
 • &le; - ≤
 • &lt; - <
 • &micro; - µ
 • &middot; - ·
 • &nacute; - ń (ladina väike n akuudiga)
 • &ntilde; - ñ
 • &oacute; - ó (ladina väike o akuudiga)
 • &ocirc; - ô (ladina väike o tsirkumfleksiga)
 • &ograve; - ò (ladina väike o graavisega)
 • &otilde; - õ
 • &ouml; - ö
 • &plus; - +
 • &quot; - " (jutumärk)
 • &rarr; - → (paremale suunatud nool)
 • &reg; - ® (registreeritud kaubamärk)
 • &scaron; - š
 • &sect; - § (paragrahvi märk)
 • &times; - × (korrutusmärk)
 • &thorn; - þ
 • &tilde; - ~ (tilde)
 • &ucirc; - û (ladina väike u tsirkumfleksiga)
 • &ugrave; - ù (ladina väike u graavisega)
 • &uuml; - ü
 • &verbar; - |
 • &yuml; - ÿ (ladina väike y umlaudiga)