Koondkorpus: teadusartiklid
Sisu
Selles allkorpuses on 1,3 miljonit sõna teadusartikleid. Suuremad artiklikogumikud korpuses on Eesti Matemaatika Seltsi aastaraamatud 1997 ja 2001, Emakeele Seltsi aastaraamatud nr 44-45 (1999), 49 (2003) ja 50 (2004) ning Eesti Sotsiaalteaduste V (2005) ja VI (2006) aastakonverentside kogumikud. Täpse korpuses olevate tekstide loetelu leiab siit tabelist.
Kuidas seda kasutada saab?
Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:
- esitada korpusele päringuid meie kasutajaliidese kaudu
- laadida endale alla pakitud tekstid
- lemmade e algvormide ja grammatiliste kategooriate järgi saab otsida Keeleveebi korpusepäringus
Märgendus
Kirjavahemärgid on sõnadest lahku tõstetud. s.o. kirjas tavaline lause
Ma nägin, et ta tuleb, ja ütlesin: "Tere!"
on korpuses kujul
Ma nägin , et ta tuleb , ja ütlesin : " Tere !"
Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine:
- Iga korpusefail algab päisega <teiheader>. Päises on dokumenteeritud failis sisalduva ilukirjandusteose autor ja pealkiri, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.
- Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>. Tekstides on kasutatud järgmisi märgendeid:
- Tervikteksti (artiklikogumiku) ja selle osade märgendamiseks: terviktekst: <div0 type='teose_tüüp'>; selle 1. astme allosa <div1 type='allosa_tüüp> ja div1 allosa: <div2 type=’allosa_tüüp’>
- Pealkirjade märgendamiseks <head>
- Autorite märgndamiseks <bibl><author>
- Lõikude märgendamiseks <p>
- Lausete märgendamiseks <s>
- Šrifti muutused <hi rend=’šrift’>
Originaaltekstist väljajäetud materjal on asendatud märgendiga <gap>, millel on atribuut 'desc', mille väärtus kirjeldab väljajäetud materjali.
Näiteks <gap desc='abstract'> (võõrkeelne kokkuvõte), <gap desc='foreign'> (muu võõrkeelne tekstiosa), <gap desc='joonis'>, <gap desc='tabel'>, <gap desc='valem'>, <gap desc='viited'>.
Kasutajaliidese kaudu kasutatavas korpuses on märgendus kustutatud, v.a. märgend <gap ...>.
Erisümbolid
Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:
| Æ | Æ | AE ligatuur |
| Á | Á | ladina suur A akuudiga |
| Å | Å | ladina suur A ülasõõriga |
| Ä | Ä | |
| Č | Č | ladina suur C haagiga |
| É | É | ladina suur E akuudiga |
| È | È | ladina suur E graavisega |
| Ë | Ë | ladina suur E umlautiga |
| Ï | Ï | ladina suur I umlautiga |
| Ó | Ó | ladina suur O akuudiga |
| Ò | Ò | ladina suur O graavisega |
| Ø | Ø | ladina suur O läbiva kaldkriipsuga |
| Õ | Õ | |
| Ö | Ö | |
| Š | Š | |
| Û | Û | ladina suur U tsirkumfleksiga e. katusega |
| Ü | Ü | |
| Ž | Ž | |
| á | á | ladina väike a akuudiga |
| â | â | ladina väike a tsirkumfleksiga e. katusega |
| æ | æ | (ae ligatuur ) |
| &agr; | kreeka väike alfa | |
| à | à | ladina väike a graavisega |
| &amacron; | ā | ladina väike a ülakriipsuga |
| & | & | ampersand |
| å | å | ladina väike a ülasõõriga |
| * | * | asteriks |
| ã | ã | ladina väike a tildega |
| ä | ä | |
| &bgr; | kreeka väike beeta | |
| ¦ | ¦ | katkendlik püstjoon |
| ç | ç | ladina väike c sediiga |
| @ | @ | ätt-märk |
| © | © | autoriõiguse märk |
| &dgr; | kreeka väike delta | |
| é | é | ladina väike e akuudiga |
| ê | ê | ladina väike e tsirkumfleksiga e. katusega |
| &egr; | kreeka väike epsilon | |
| è | è | ladina väike e graavisega |
| &emacron; | ē | ladina väike e ulakriipsuga |
| ë | ë | ladina väike e umlautiga |
| ½ | ½ | murd 1/2 |
| ¼ | ¼ | murd 1/4 |
| ¾ | ¾ | murd 3/4 |
| &ggr; | kreeka väike gamma | |
| > | > | suurem-kui-märk |
| í | í | ladina väike i akuudiga |
| î | î | ladina väike i tsirkumfleksiga e. katusega |
| &igr; | kreeka väike ioota | |
| ì | ì | ladina väike i graavisega |
| &imacron; | ī | ladina väike i ülakriipsuga |
| ¿ | ¿ | tagurpidi küsimärk |
| ï | ï | ladina väike i umlautiga |
| &khgr; | kreeka väike hii | |
| “ | vasak kahekordne jutumärk | |
| &lgr; | kreeka väike lambda | |
| ł | ladina väike l läbiva kriipsuga | |
| < | < | vaiksem-kui-märk |
| &mgr; | kreeka väike müü | |
| · | · | keskmine punkt |
| ń | ń | ladina väike n akuudiga |
| ñ | ñ | ladina väike n tildega |
| ó | ó | ladina väike o akuudiga |
| ô | ô | ladina väike o tsirkumfleksiga e. katusega |
| œ | œ | (oe ligatuur) |
| º | º | järgarvu märk (Nº) |
| ø | ø | ladina väike o labiva kaldkriipsuga |
| õ | õ | |
| ö | ö | |
| + | plussmärk | |
| ± | ± | pluss-miinus |
| " | " | jutumärgid (nn tollimärgid) |
| ř | ř | ladina väike r haagiga |
| ” | parempoolne kahekordne jutumärk (“ või ») | |
| &rgr; | kreeka väike roo | |
| š | š | |
| § | § | paragrahvi märk |
| &sgr; | kreeka väike sigma | |
| ­ | - | pehme poolitus |
| ß | ß | ladina väike sz |
| × | × | korrutusmärk |
| &ugr; | kreeka väike u | |
| ù | ù | ladina väike u graavisega |
| ü | ü | |
| ý | ý | ladina väike y akuudiga |
| ž | ž |