Koondkorpus: teadusartiklid

 

Sisu

Selles allkorpuses on 1,3 miljonit sõna teadusartikleid. Suuremad artiklikogumikud korpuses on Eesti Matemaatika Seltsi aastaraamatud 1997 ja 2001, Emakeele Seltsi aastaraamatud nr 44-45 (1999), 49 (2003) ja 50 (2004) ning Eesti Sotsiaalteaduste V (2005) ja VI (2006) aastakonverentside kogumikud. Täpse korpuses olevate tekstide loetelu leiab siit tabelist.

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Märgendus

Kirjavahemärgid on sõnadest lahku tõstetud. s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine:

  • Iga korpusefail algab päisega <teiheader>. Päises on dokumenteeritud failis sisalduva ilukirjandusteose autor ja pealkiri, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.
  • Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>. Tekstides on kasutatud järgmisi märgendeid:
    • Tervikteksti (artiklikogumiku) ja selle osade märgendamiseks: terviktekst: <div0 type='teose_tüüp'>; selle 1. astme allosa <div1 type='allosa_tüüp> ja div1 allosa: <div2 type=’allosa_tüüp’>
    • Pealkirjade märgendamiseks <head>
    • Autorite märgndamiseks <bibl><author>
    • Lõikude märgendamiseks <p>
    • Lausete märgendamiseks <s>
    • Šrifti muutused <hi rend=’šrift’>

Originaaltekstist väljajäetud materjal on asendatud märgendiga <gap>, millel on atribuut 'desc', mille väärtus kirjeldab väljajäetud materjali.

Näiteks <gap desc='abstract'> (võõrkeelne kokkuvõte), <gap desc='foreign'> (muu võõrkeelne tekstiosa), <gap desc='joonis'>, <gap desc='tabel'>, <gap desc='valem'>, <gap desc='viited'>.

Kasutajaliidese kaudu kasutatavas korpuses on märgendus kustutatud, v.a. märgend <gap ...>.

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:

&AElig; Æ AE ligatuur
&Aacute; Á ladina suur A akuudiga
&Aring; Å ladina suur A ülasõõriga
&Auml; Ä  
&Ccaron; Č ladina suur C haagiga
&Eacute; É ladina suur E akuudiga
&Egrave; È ladina suur E graavisega
&Euml; Ë ladina suur E umlautiga
&Iuml; Ï ladina suur I umlautiga
&Oacute; Ó ladina suur O akuudiga
&Ograve; Ò ladina suur O graavisega
&Oslash; Ø ladina suur O läbiva kaldkriipsuga
&Otilde; Õ  
&Ouml; Ö  
&Scaron; Š  
&Ucirc; Û ladina suur U tsirkumfleksiga e. katusega
&Uuml; Ü  
&Zcaron; Ž  
&aacute; á    ladina väike a akuudiga
&acirc; â ladina väike a tsirkumfleksiga e. katusega
&aelig; æ (ae ligatuur )
&agr;   kreeka väike alfa
&agrave; à ladina väike a graavisega
&amacron; ā ladina väike a ülakriipsuga
&amp; & ampersand
&aring; å ladina väike a ülasõõriga
&ast; * asteriks
&atilde; ã ladina väike a tildega
&auml; ä  
&bgr;   kreeka väike beeta
&brvbar; ¦ katkendlik püstjoon
&ccedil; ç ladina väike c sediiga
&commat; @ ätt-märk
&copy; © autoriõiguse märk
&dgr;   kreeka väike delta
&eacute; é ladina väike e akuudiga
&ecirc; ê ladina väike e tsirkumfleksiga e. katusega
&egr;   kreeka väike epsilon
&egrave; è ladina väike e graavisega
&emacron; ē ladina väike e ulakriipsuga
&euml; ë ladina väike e umlautiga
&frac12; ½ murd 1/2
&frac14; ¼    murd 1/4
&frac34; ¾ murd 3/4
&ggr;   kreeka väike gamma
&gt; suurem-kui-märk
&iacute; í ladina väike i akuudiga
&icirc; î ladina väike i tsirkumfleksiga e. katusega
&igr;   kreeka väike ioota
&igrave; ì ladina väike i graavisega
&imacron; ī ladina väike i ülakriipsuga
&iquest; ¿ tagurpidi küsimärk
&iuml; ï ladina väike i umlautiga
&khgr;   kreeka väike hii
&ldquo;   vasak kahekordne jutumärk
&lgr;   kreeka väike lambda
&lstrok;   ladina väike l läbiva kriipsuga
&lt; vaiksem-kui-märk
&mgr;   kreeka väike müü
&middot; · keskmine punkt
&nacute; ń ladina väike n akuudiga
&ntilde; ñ ladina väike n tildega
&oacute; ó ladina väike o akuudiga
&ocirc; ô ladina väike o tsirkumfleksiga e. katusega
&oelig; œ (oe ligatuur)
&ordm; º järgarvu märk (Nº)
&oslash; ø ladina väike o labiva kaldkriipsuga
&otilde; õ  
&ouml; ö  
&plus;   plussmärk
&plusmn; ± pluss-miinus
&quot; " jutumärgid (nn tollimärgid)
&rcaron; ř ladina väike r haagiga
&rdquo;   parempoolne kahekordne jutumärk (“ või »)
&rgr;   kreeka väike roo
&scaron; š  
&sect; § paragrahvi märk
&sgr;   kreeka väike sigma
&shy; - pehme poolitus
&szlig; ß ladina väike sz
&times; × korrutusmärk
&ugr;   kreeka väike u
&ugrave; ù ladina väike u graavisega
&uuml; ü  
&yacute; ý ladina väike y akuudiga
&zcaron; ž