Koondkorpus: Eesti Arst
Failide juurde
Sisu
Selles korpuses on tekstid meditsiiniajakirja 'Eesti Arst' internetiarhiivist http://www.eestiarst.ee/et/arhiiv/index.html (kokku ca 712 000 sõna). Korpuses on olemas kõik ajakirja numbrid perioodist 2002 – 2004, välja arvatud 2004. a nr 3, mis korpuse koostamise ajal ei olnud ajakirja kodulehelt saadaval.
Need tekstid on osa tulevasest korpusest töönimega «Eesti keele segakorpus». Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist «Eesti keel ja rahvuskultuur».
Allikmaterjal ja märgendus
Tekstid on teisendatud PDF-kujult TEI kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.
Ühes failis on ühe aasta kõik ajakirjanumbrid. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti tabelid ja ingliskeelsed sisukokkuvõtted ning kirjanduse loetelud.
Tekstides parandusi pole tehtud, sõnu ei poolitata. Alustav jutumärk on “, lõpetav jutumärk on ”. Ühekordne jutumärk on '. Šrifti muutusi pole TEI kujul olevas tekstis märgenditega tähistatud, välja arvatud juhud, kui šrifti muutus hõlmab tervet lõiku. Lõigu esiletõstmise võimalused selles korpuses on järgmised:
<p rend='esirida'> - artikli esimene lõik
<p rend='toc'> - numbri sisukord
<p rend='teesid'> - ettekannete teesid, mille šrift on artiklitest veidi väiksem
<p rend='bold'> - rasvane kiri
<p rend='table_heading’> - tabelit iseloomustav tekst
<p rend='figure_heading’> - joonist iseloomustav tekst
<p rend='abstract'> - rasvases kirjas artikli kokkuvõttev osa
<p rend='keywords'> - artiklit iseloomustavad märksõnad algselt värvilisel taustal
<p rend='H6'>, <p rend='H5'>, <p rend='H4'>, <p rend='H3'>, <p rend='H2'>,
<p rend='H1'> - erineva suurusega (ala)pealkirjad
<div0> tähistab ühe aasta numbreid, <div1> tähistab numbrit ja <div2> tähistab artiklit või muud alaosa.
Tekst on jagatud lõikudeks nagu algne PDF-fail ja automaatselt lausestatud. Pealkirjad ja autorid on märgendatud. Autor võib mõnel alaosal ka puududa. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees. Lõigumärgendite osas võib ette tulla ebaühtlust (omavahel šriftilt sarnased, kuid ülejäänud tekstist eristuvad lõigud võivad omada atribuuti rend, kuid võivad olla esitatud ka tavaliste lõikudena). See ebaühtlus ja reavahetusega seotud vead on tingitud PDF-formaadi teisendamise raskustest ja samuti originaalfailide vormistuse ebaühtlusest.
Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.
Maht
aasta | sõnu |
---|---|
2002 | 249 784 |
2003 | 244 343 |
2004 | 217 697 |
Kokku | 711 824 |
Erisümbolid
Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:
- Ä - Ä
- É - É (ladina suur E akuudiga)
- Õ - Õ
- Ö - Ö
- Š - Š
- Ü - Ü
- Ž - Ž
- á - á (ladina väike a akuudiga)
- à -à (väike ladina a graavisega)
- & - & (ampersand)
- å - å (ladina väike a ülasõõriga)
- ä - ä
- č - č (ladina väike c haagiga)
- © - © (autoriõiguse märk)
- é - é (ladina väike e akuudiga)
- è - è (ladina väike e graavisega)
- ó - ó (ladina väike o akuudiga)
- õ - õ
- ö - ö
- š - š
- § - § (paragrahvi märk)
- ü - ü