Koondkorpus: Eesti Arst

Failide juurde

Sisu

Selles korpuses on tekstid meditsiiniajakirja 'Eesti Arst' internetiarhiivist http://www.eestiarst.ee/et/arhiiv/index.html (kokku ca 712 000 sõna). Korpuses on olemas kõik ajakirja numbrid perioodist 2002 – 2004, välja arvatud 2004. a nr 3, mis korpuse koostamise ajal ei olnud ajakirja kodulehelt saadaval.

Need tekstid on osa tulevasest korpusest töönimega «Eesti keele segakorpus». Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist «Eesti keel ja rahvuskultuur».

Allikmaterjal ja märgendus

Tekstid on teisendatud PDF-kujult TEI kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.

Ühes failis on ühe aasta kõik ajakirjanumbrid. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti tabelid ja ingliskeelsed sisukokkuvõtted ning kirjanduse loetelud.

Tekstides parandusi pole tehtud, sõnu ei poolitata. Alustav jutumärk on “, lõpetav jutumärk on ”. Ühekordne jutumärk on '. Šrifti muutusi pole TEI kujul olevas tekstis märgenditega tähistatud, välja arvatud juhud, kui šrifti muutus hõlmab tervet lõiku. Lõigu esiletõstmise võimalused selles korpuses on järgmised:

<p rend='esirida'> - artikli esimene lõik
<p rend='toc'> - numbri sisukord
<p rend='teesid'> - ettekannete teesid, mille šrift on artiklitest veidi väiksem
<p rend='bold'> - rasvane kiri
<p rend='table_heading’> - tabelit iseloomustav tekst
<p rend='figure_heading’> - joonist iseloomustav tekst
<p rend='abstract'> - rasvases kirjas artikli kokkuvõttev osa
<p rend='keywords'> - artiklit iseloomustavad märksõnad algselt värvilisel taustal
<p rend='H6'>, <p rend='H5'>, <p rend='H4'>, <p rend='H3'>, <p rend='H2'>,
<p rend='H1'> - erineva suurusega (ala)pealkirjad

<div0> tähistab &uuml;he aasta numbreid, <div1> t&auml;histab numbrit ja <div2> t&auml;histab artiklit või muud alaosa.

Tekst on jagatud lõikudeks nagu algne PDF-fail ja automaatselt lausestatud. Pealkirjad ja autorid on märgendatud. Autor võib mõnel alaosal ka puududa. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees. Lõigumärgendite osas võib ette tulla ebaühtlust (omavahel šriftilt sarnased, kuid ülejäänud tekstist eristuvad lõigud võivad omada atribuuti rend, kuid võivad olla esitatud ka tavaliste lõikudena). See ebaühtlus ja reavahetusega seotud vead on tingitud PDF-formaadi teisendamise raskustest ja samuti originaalfailide vormistuse ebaühtlusest.

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.

Maht

aastasõnu
2002 249 784
2003 244 343
2004 217 697
Kokku 711 824

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:

  • &Auml; - Ä
  • &Eacute; - É (ladina suur E akuudiga)
  • &Otilde; - Õ
  • &Ouml; - Ö
  • &Scaron; - Š
  • &Uuml; - Ü
  • &Zcaron; - Ž
  • &aacute; - á (ladina väike a akuudiga)
  • &agrave; -à (väike ladina a graavisega)
  • &amp; - & (ampersand)
  • &aring; - å (ladina väike a ülasõõriga)
  • &auml; - ä
  • &ccaron; - č (ladina väike c haagiga)
  • &copy; - © (autoriõiguse märk)
  • &eacute; - é (ladina väike e akuudiga)
  • &egrave; - è (ladina väike e graavisega)
  • &oacute; - ó (ladina väike o akuudiga)
  • &otilde; - õ
  • &ouml; - ö
  • &scaron; - š
  • &sect; - § (paragrahvi märk)
  • &uuml; - ü