Koondkorpus: teadusartiklid
Sisu
Selles allkorpuses on 1,3 miljonit sõna teadusartikleid. Suuremad artiklikogumikud korpuses on Eesti Matemaatika Seltsi aastaraamatud 1997 ja 2001, Emakeele Seltsi aastaraamatud nr 44-45 (1999), 49 (2003) ja 50 (2004) ning Eesti Sotsiaalteaduste V (2005) ja VI (2006) aastakonverentside kogumikud. Täpse korpuses olevate tekstide loetelu leiab siit tabelist.
Kuidas seda kasutada saab?
Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:
- esitada korpusele päringuid meie kasutajaliidese kaudu
- laadida endale alla pakitud tekstid
- lemmade e algvormide ja grammatiliste kategooriate järgi saab otsida Keeleveebi korpusepäringus
Märgendus
Kirjavahemärgid on sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine:
- Iga korpusefail algab päisega <teiheader>. Päises on dokumenteeritud failis sisalduva ilukirjandusteose autor ja pealkiri, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.
- Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>. Tekstides on kasutatud järgmisi märgendeid:
- Tervikteksti (artiklikogumiku) ja selle osade märgendamiseks: terviktekst: <div0 type='teose_tüüp'>; selle 1. astme allosa <div1 type='allosa_tüüp> ja div1 allosa: <div2 type=’allosa_tüüp’>
- Pealkirjade märgendamiseks <head>
- Autorite märgndamiseks <bibl><author>
- Lõikude märgendamiseks <p>
- Lausete märgendamiseks <s>
- Šrifti muutused <hi rend=’šrift’>
Originaaltekstist väljajäetud materjal on asendatud märgendiga <gap>, millel on atribuut 'desc', mille väärtus kirjeldab väljajäetud materjali.
Näiteks <gap desc='abstract'> (võõrkeelne kokkuvõte), <gap desc='foreign'> (muu võõrkeelne tekstiosa), <gap desc='joonis'>, <gap desc='tabel'>, <gap desc='valem'>, <gap desc='viited'>.
Kasutajaliidese kaudu kasutatavas korpuses on märgendus kustutatud, v.a. märgend <gap ...>.
Erisümbolid
Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:
Æ | Æ | AE ligatuur |
Á | Á | ladina suur A akuudiga |
Å | Å | ladina suur A ülasõõriga |
Ä | Ä | |
Č | Č | ladina suur C haagiga |
É | É | ladina suur E akuudiga |
È | È | ladina suur E graavisega |
Ë | Ë | ladina suur E umlautiga |
Ï | Ï | ladina suur I umlautiga |
Ó | Ó | ladina suur O akuudiga |
Ò | Ò | ladina suur O graavisega |
Ø | Ø | ladina suur O läbiva kaldkriipsuga |
Õ | Õ | |
Ö | Ö | |
Š | Š | |
Û | Û | ladina suur U tsirkumfleksiga e. katusega |
Ü | Ü | |
Ž | Ž | |
á | á | ladina väike a akuudiga |
â | â | ladina väike a tsirkumfleksiga e. katusega |
æ | æ | (ae ligatuur ) |
&agr; | kreeka väike alfa | |
à | à | ladina väike a graavisega |
&amacron; | ā | ladina väike a ülakriipsuga |
& | & | ampersand |
å | å | ladina väike a ülasõõriga |
* | * | asteriks |
ã | ã | ladina väike a tildega |
ä | ä | |
&bgr; | kreeka väike beeta | |
¦ | ¦ | katkendlik püstjoon |
ç | ç | ladina väike c sediiga |
@ | @ | ätt-märk |
© | © | autoriõiguse märk |
&dgr; | kreeka väike delta | |
é | é | ladina väike e akuudiga |
ê | ê | ladina väike e tsirkumfleksiga e. katusega |
&egr; | kreeka väike epsilon | |
è | è | ladina väike e graavisega |
&emacron; | ē | ladina väike e ulakriipsuga |
ë | ë | ladina väike e umlautiga |
½ | ½ | murd 1/2 |
¼ | ¼ | murd 1/4 |
¾ | ¾ | murd 3/4 |
&ggr; | kreeka väike gamma | |
> | > | suurem-kui-märk |
í | í | ladina väike i akuudiga |
î | î | ladina väike i tsirkumfleksiga e. katusega |
&igr; | kreeka väike ioota | |
ì | ì | ladina väike i graavisega |
&imacron; | ī | ladina väike i ülakriipsuga |
¿ | ¿ | tagurpidi küsimärk |
ï | ï | ladina väike i umlautiga |
&khgr; | kreeka väike hii | |
“ | vasak kahekordne jutumärk | |
&lgr; | kreeka väike lambda | |
ł | ladina väike l läbiva kriipsuga | |
< | < | vaiksem-kui-märk |
&mgr; | kreeka väike müü | |
· | · | keskmine punkt |
ń | ń | ladina väike n akuudiga |
ñ | ñ | ladina väike n tildega |
ó | ó | ladina väike o akuudiga |
ô | ô | ladina väike o tsirkumfleksiga e. katusega |
œ | œ | (oe ligatuur) |
º | º | järgarvu märk (Nº) |
ø | ø | ladina väike o labiva kaldkriipsuga |
õ | õ | |
ö | ö | |
+ | plussmärk | |
± | ± | pluss-miinus |
" | " | jutumärgid (nn tollimärgid) |
ř | ř | ladina väike r haagiga |
” | parempoolne kahekordne jutumärk (“ või ») | |
&rgr; | kreeka väike roo | |
š | š | |
§ | § | paragrahvi märk |
&sgr; | kreeka väike sigma | |
­ | - | pehme poolitus |
ß | ß | ladina väike sz |
× | × | korrutusmärk |
&ugr; | kreeka väike u | |
ù | ù | ladina väike u graavisega |
ü | ü | |
ý | ý | ladina väike y akuudiga |
ž | ž |