Koondkorpus: Agraarteadus

 

Failide juurde

Sisu

Selles korpuses on tekstid põllumajandusalase ajakirja 'Agraarteadus' internetiarhiivist www.eau.ee/~aps/index.pp?AGRAARTEADUS (kokku ca  298 000 sõna). Korpuses on ajakirja numbrid perioodist 2001 – 2006. Korpusest puuduvad 2002. a nr 1 A. Tsahkna, 2002. a nr 3 A. Viltrop jt, 2003. a nr 1 M. Vadi jt, 2003. a nr 2 M. Vadi jt, 2003. a nr 2 V. Viljasoo ja I. Tomson, 2003. a nr 3 E. Nahkur jt ja  2003. a nr 3 P. Padrik ja Ü. Jaakma artiklid. Puudumise põhjuseks on tehnilised raskused vastavate artiklite teisendamisel.

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal ja märgendus

Tekstid on teisendatud HTML-kujult TEI-kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.

Ühes failis on üks ajakirjanumber. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti tabelid ja kirjanduse loetelud.

Tekstides parandusi pole tehtud, sõnu ei poolitata.

Märgendus

Tekstid on teisendatud PDF-kujult TEI kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.

Ühes failis on ühe aasta kõik ajakirjanumbrid. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti valemid, tulbad, tabelid ja ingliskeelsed sisukokkuvõtted, kirjanduse loetelud, tabelite ja jooniste võõrkeelsed tõlked. Välja on jäänud ka üks venekeelne pealkiri.

Tekstides parandusi pole tehtud, sõnu ei poolitata. Alustav jutumärk on “ (“), « («)  lõpetav jutumärk on ” (”), » (»). Ühekordne alustav jutumärk on ‘ ja lõpetav jutumärk on ’. Šrifti muutusi pole TEI kujul olevas tekstis märgenditega tähistatud.

<div0> tähistab ühe aasta numbreid, <div1> tähistab ajakirja numbrit ja <div2> tähistab artiklit.

Tekst on jagatud artikliteks nagu algne PDF-fail ja automaatselt lausestatud. Pealkirjad ja autorid on märgendatud. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees (näiteks <bibl> <author> <s> J. Kuum </s> </author> </bibl>). Reavahetusega seotud vead on tingitud PDF-formaadi teisendamise raskustest.

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.

Maht

aastasõnu
2001 47 594
2002 85 374
2003 61 292
2004 58 559
2005 20 430
2006 25 125
Kokku 298 374

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:

  • &Acirc;           Â (ladina suur A katusega)
  • &Auml;            Ä
  • &Ccedil;          Ç (ladina suur C sediiga)
  • &Delta;            Δ (kreeka suur delta)
  • &KHcy;          Х (capital HA, Cyrillic)
  • &Lcy;              Л (capital EL, Cyrillic)
  • &Omega;         Ω (kreeka suur omega)
  • &Oslash;         Ø (ladina suur O läbiva kaldkriipsuga)
  • &Otilde;          Õ
  • &Ouml;           Ö
  • &Phi;               Φ (kreeka suur fii)
  • &Pi;                 Π (kreeka suur pii)
  • &Psi;               Ψ (kreeka suur psii)
  • &Scaron;         Š
  • &Sigma;          Σ (kreeka suur sigma)
  • &Tcy;              Т (kirillitsa suur T)
  • &Ucy;             У (kirillitsa suur U)
  • &Uuml;            Ü
  • &Zcaron;         Ž
  • &aacute;          á (ladina väike A akuudiga)
  • &acy;              а (kirillitsa väike A)
  • &agrave;          à (väike ladina a graavisega)
  • &alpha;            α (kreeka väika alfa)
  • &amp;            
  • &
  • &aring;            å (ladina väike A ülasõõriga)
  • &auml;             ä
  • &bcy;              б (kirillitsa väike B)
  • &beta;             β (kreeka väike beeta)
  • &bull;              • (kuul, loendi märk)
  • &cacute;          ć (ladina väike C akuudiga)
  • &ccaron;         č (ladina väike C haagiga)
  • &chi;               χ (kreeka väike hii)
  • &dcy;              д (kirillitsa väike D)
  • &deg;              ° (kraadimärk)
  • &delta;            δ (kreeka väike delta)
  • &eacute;          é (ladina väike E akuudiga)
  • &egrave;          è (ladina väike E graavisega)
  • &epsi;              ε (kreeka väike epsilon)
  • &female;          ♀ (emase märk)
  • &frac12;          ½
  • &frac34;          ¾
  • &gamma;         γ (kreeka väike gamma)
  • &ge;                ≥ (väiksem-või-võrdne märk)
  • &gt;                 > (väiksem-kui märk)
  • &hellip;            … (kolmpunkt)
  • &iacute;           í (ladina väike I akuudiga)
  • &icy;               и (kirillitsa väike I)
  • &iecy;              є (kirillitsa väike ie)
  • &jcy;               й (kirillitsa väike lühike I)
  • &kcy;              к (kirillitsa väike K)
  • &lambda;         λ (kreeka väike lambda)
  • &lcy;               л (kirillitsa väike L)
  • &le;                 ≤ (suurem-või-võrdne märk)
  • &lowast;          * (tärn)
  • &lt;                  < (suurem-kui märk)
  • &male;             ♂ (isase märk)
  • &mcy;             м (kirillitsa väike M)
  • &micro;           µ (mikro-)
  • &middot;         · (keskmine punkt)
  • &minus;           - (miinusmärk)
  • &mu;               μ (kreeka väike müü)
  • &ndash;           – (sidekriips)
  • &oacute;          ó (ladina väike O akuudiga)
  • &ocy;              о (kirillitsa väike O)
  • &omega;          ω (kreeka väike oomega)
  • &oslash;          ø (ladina väike O läbiva kaldkriipsuga)
  • &otilde;           õ
  • &ouml;            ö
  • &phi;               φ (kreeka väike fii)
  • &plusmn;         ± (pluss-miinus)
  • &prime;           ′ (primm)
  • &rcy;               р (kirillitsa väike R)
  • &reg;               ® (registreerimismärk)
  • &rho;               ρ (kreeka väike roo)
  • &scaron;          š
  • &scy;               с (kirillitsa väike S)
  • &sect;              § (paragrahvi märk)
  • &sigma;           σ (kreeka väike sigma)
  • &sim;               ~ (ligikaudsuse märk)
  • &sup2;            2 (ülaindeks 2)
  • &sup3;            3 (ülaindeks 3)
  • &tau;               τ (kreeka väike tau)
  • &tcy;               т (kirillitsa väike T)
  • &times;            × (korrutusmärk)
  • &trade;            ™ (kaubamärk)
  • &uarr;              ↑ (ülespoole näitav nool)
  • &umacr;          ū (ladina väike U ülakriipsuga)
  • &uuml;             ü
  • &vcy;              в (kirillitsa väike V)
  • &verbar;          | (püstkriips)
  • &yacy;             я (kirillitsa väike JA)
  • &zcaron;          ž