Koondkorpus: Agraarteadus
Failide juurde
Sisu
Selles korpuses on tekstid põllumajandusalase ajakirja 'Agraarteadus' internetiarhiivist www.eau.ee/~aps/index.pp?AGRAARTEADUS (kokku ca 298 000 sõna). Korpuses on ajakirja numbrid perioodist 2001 – 2006. Korpusest puuduvad 2002. a nr 1 A. Tsahkna, 2002. a nr 3 A. Viltrop jt, 2003. a nr 1 M. Vadi jt, 2003. a nr 2 M. Vadi jt, 2003. a nr 2 V. Viljasoo ja I. Tomson, 2003. a nr 3 E. Nahkur jt ja 2003. a nr 3 P. Padrik ja Ü. Jaakma artiklid. Puudumise põhjuseks on tehnilised raskused vastavate artiklite teisendamisel.
Kuidas seda kasutada saab?
Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:
- esitada korpusele päringuid meie kasutajaliidese kaudu
- laadida endale alla pakitud tekstid
- lemmade e algvormide ja grammatiliste kategooriate järgi saab otsida Keeleveebi korpusepäringus
Allikmaterjal ja märgendus
Tekstid on teisendatud HTML-kujult TEI-kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.
Ühes failis on üks ajakirjanumber. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti tabelid ja kirjanduse loetelud.
Tekstides parandusi pole tehtud, sõnu ei poolitata.
Märgendus
Tekstid on teisendatud PDF-kujult TEI kujule. Vajalikud programmid kirjutasid Kaarel Veskis ja Heiki-Jaan Kaalep.
Ühes failis on ühe aasta kõik ajakirjanumbrid. Välja on jäetud mitte-tekstiline materjal so illustratsioonid ja joonised, samuti valemid, tulbad, tabelid ja ingliskeelsed sisukokkuvõtted, kirjanduse loetelud, tabelite ja jooniste võõrkeelsed tõlked. Välja on jäänud ka üks venekeelne pealkiri.
Tekstides parandusi pole tehtud, sõnu ei poolitata. Alustav jutumärk on “ (“), « («) lõpetav jutumärk on ” (”), » (»). Ühekordne alustav jutumärk on ‘ ja lõpetav jutumärk on ’. Šrifti muutusi pole TEI kujul olevas tekstis märgenditega tähistatud.
<div0> tähistab ühe aasta numbreid, <div1> tähistab ajakirja numbrit ja <div2> tähistab artiklit.
Tekst on jagatud artikliteks nagu algne PDF-fail ja automaatselt lausestatud. Pealkirjad ja autorid on märgendatud. Autori märgenduseks on <bibl> <author> <s>; autorit iseloomustav tekst on samas sees (näiteks <bibl> <author> <s> J. Kuum </s> </author> </bibl>). Reavahetusega seotud vead on tingitud PDF-formaadi teisendamise raskustest.
Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms.
Maht
aasta | sõnu |
---|---|
2001 | 47 594 |
2002 | 85 374 |
2003 | 61 292 |
2004 | 58 559 |
2005 | 20 430 |
2006 | 25 125 |
Kokku | 298 374 |
Erisümbolid
Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud järgmisi olemeid ehk entiteete:
- Â Â (ladina suur A katusega)
- Ä Ä
- Ç Ç (ladina suur C sediiga)
- Δ Δ (kreeka suur delta)
- Х Х (capital HA, Cyrillic)
- Л Л (capital EL, Cyrillic)
- Ω Ω (kreeka suur omega)
- Ø Ø (ladina suur O läbiva kaldkriipsuga)
- Õ Õ
- Ö Ö
- Φ Φ (kreeka suur fii)
- Π Π (kreeka suur pii)
- Ψ Ψ (kreeka suur psii)
- Š Š
- Σ Σ (kreeka suur sigma)
- Т Т (kirillitsa suur T)
- У У (kirillitsa suur U)
- Ü Ü
- Ž Ž
- á á (ladina väike A akuudiga)
- а а (kirillitsa väike A)
- à à (väike ladina a graavisega)
- α α (kreeka väika alfa)
- &
- &
- å å (ladina väike A ülasõõriga)
- ä ä
- б б (kirillitsa väike B)
- β β (kreeka väike beeta)
- • • (kuul, loendi märk)
- ć ć (ladina väike C akuudiga)
- č č (ladina väike C haagiga)
- χ χ (kreeka väike hii)
- д д (kirillitsa väike D)
- ° ° (kraadimärk)
- δ δ (kreeka väike delta)
- é é (ladina väike E akuudiga)
- è è (ladina väike E graavisega)
- ε ε (kreeka väike epsilon)
- ♀ ♀ (emase märk)
- ½ ½
- ¾ ¾
- γ γ (kreeka väike gamma)
- ≥ ≥ (väiksem-või-võrdne märk)
- > > (väiksem-kui märk)
- … … (kolmpunkt)
- í í (ladina väike I akuudiga)
- и и (kirillitsa väike I)
- е є (kirillitsa väike ie)
- й й (kirillitsa väike lühike I)
- к к (kirillitsa väike K)
- λ λ (kreeka väike lambda)
- л л (kirillitsa väike L)
- ≤ ≤ (suurem-või-võrdne märk)
- ∗ * (tärn)
- < < (suurem-kui märk)
- ♂ ♂ (isase märk)
- м м (kirillitsa väike M)
- µ µ (mikro-)
- · · (keskmine punkt)
- − - (miinusmärk)
- μ μ (kreeka väike müü)
- – – (sidekriips)
- ó ó (ladina väike O akuudiga)
- о о (kirillitsa väike O)
- ω ω (kreeka väike oomega)
- ø ø (ladina väike O läbiva kaldkriipsuga)
- õ õ
- ö ö
- φ φ (kreeka väike fii)
- ± ± (pluss-miinus)
- ′ ′ (primm)
- р р (kirillitsa väike R)
- ® ® (registreerimismärk)
- ρ ρ (kreeka väike roo)
- š š
- с с (kirillitsa väike S)
- § § (paragrahvi märk)
- σ σ (kreeka väike sigma)
- ∼ ~ (ligikaudsuse märk)
- ² 2 (ülaindeks 2)
- ³ 3 (ülaindeks 3)
- τ τ (kreeka väike tau)
- т т (kirillitsa väike T)
- × × (korrutusmärk)
- ™ ™ (kaubamärk)
- ↑ ↑ (ülespoole näitav nool)
- ū ū (ladina väike U ülakriipsuga)
- ü ü
- в в (kirillitsa väike V)
- | | (püstkriips)
- я я (kirillitsa väike JA)
- ž ž