Koondkorpus: Luup
Sisu
Siin korpuses on ajakirja "Luup" tekstid, kokku ca 1,9 miljonit sõna.
Tekstid on pärit veebilehelt http://luup.postimees.ee/.
Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Katrin Tsepelina.
Korpus hõlmab "Luubi" väljaannete veebiversioone aastatest 1996 – 2002:
- 1996 - Nr. 10 – 31
- 1997 - Nr. 01 – 14, 16 – 26
- 1998 - Nr. 01 – 02, 05 – 26
- 1999 - Nr. 01 – 26
- 2000 - Nr. 01 – 18
- 2001 - Nr. 01 – 06, 08 – 12
- 2002 - Nr. 01 – 04
Kokku ca 1,9 miljonit sõna, 130 ajakirjanumbrit, 2298 artiklit.
Kuidas seda kasutada saab?
Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:
- esitada korpusele päringuid meie kasutajaliidese kaudu
- laadida endale alla pakitud tekstid
- lemmade e algvormide ja grammatiliste kategooriate järgi saab otsida Keeleveebi korpusepäringus
Allikmaterjal ja märgendus
Ühes failis on üks ajakirjanumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid). Välja on jäetud ka igasugused tabelid ja nimekirjad, millel polnud tekstilist väärtust.
Tekstides parandusi pole tehtud, sõnu ei poolitata. Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina sgml-märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:
<hi rend='a'>, <hi rend='a_bold'>, <hi rend='a_italic'>,
<hi rend='bold'>, <hi rend='bold_color'>, <hi
rend='bold_italic'>, <hi rend='color'>, <hi
rend='color_bold'>, <hi rend='color_italic'>, <hi
rend='italic'>, <hi rend='italic_a'>, <hi
rend='italic_color'>, <hi rend='large'>, <hi
rend='large_italic'>, <hi rend='small'>, <hi
rend='small_bold'>, <hi rend='small_italic'>, <hi
rend='sup'>, <p rend='a'>, <p rend='bold'>, <p
rend='bold_italic'>, <p rend='color'>, <p
rend='color_bold'>, <p rend='color_bold_italic'>, <p
rend='color_italic'>, <p rend='dd'>, <p rend='dd_bold'>,
<p rend='dd_bold_italic'>, <p rend='h2'>, <p
rend='h3_small_bold'>, <p rend='italic'>, <p
rend='large'>, <p rend='large_bold_italic'>, <p
rend='li'>, <p rend='li_bold'>, <p rend='li_italic'>,
<p rend='small'>, <p rend='small_bold'>, <p
rend='small_bold_italic'>, <p rend='small_italic'>, <p
rend='small_li'>
- 'sup' tähistab ülaindeksit;
- 'bold' rasvast kirja;
- 'italic' kaldkirja;
- 'a' hüperlingina esitatud teksti;
- 'small' tavatekstist väiksemat teksti;
- 'large' tavatekstist suuremat teksti;
- 'li' nimekirja punktina esitatud teksti;
- 'color' tavatekstist erineva värviga tekst;
- 'dd' definitsioonina märgendatud teksti (<dd>).
Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms
- <div0> on terve ajakirjanumber, nt
<div0 type='ajakirjanumber'><head>Luup Nr. 13 (122), 22. juuli 2000</head>
- <div1> on rubriik, nt
<div1 type='rubriik'><head>JUHTKIRI</head>
- <div2> on vastava rubriigi artiklid, nt
<div2 type='artikkel'><head>Kõige tähtsam raamat</head>
- <div3> on artikli alamosa, nt
<div3 type='alaosa'><head>Kui jäämäed hakkavad sulama</head>
(numbrites 1998 Nr. 14 – 2002 Nr. 04 võib artiklite alamosade eristuses esineda vigu).
Kasutajaliidese kaudu kasutatavas korpuses on kustutatud kõik märgendus, v.a. väljajätteid märkiv.
Tekstides esinevad järgmised olemid ehk entiteedid:
acirc | â | ladina väike a tsirkumfleksiga e. katusega |
agrave | à | ladina väike a graavisega |
Agrave | À | ladina suur A graavisega |
amp | & | ampersand |
Aring | Å | ladina suur A ülasõõriga |
aring | å | ladina väike a ülasõõriga |
auml | ä | ä |
Auml | Ä | ä |
bull | • | ### |
cacute | ć | ladina väike c akuudiga |
Cacute | Ć | ladina suur C akuudiga |
deg | ° | kraadimärk |
eacute | é | ladina väike e akuudiga |
Eacute | É | ladina suur E akuudiga |
egrave | è | ladina väike e graavisega |
euml | ë | ladina väike e umlaudiga |
frac14 | ¼ | murd 1/4 |
gt | > | suurem-kui-märk |
iacute | í | ladina väike i akuudiga |
laquo | « | vasak kahekordne jutumärk («) |
ldquo | “ | vasak kahekordne jutumärk (“) |
lt | < | väiksem-kui-märk |
micro | µ | ### |
middot | · | selline keskmine punkt |
nacute | ń | ladina väike n akuudiga |
Oacute | Ó | ladina suur O akuudiga |
oacute | ó | ladina väike o akuudiga |
ocirc | ô | ladina väike o tsirkumfleksiga e. katusega |
Oslash | Ø | ladina suur O läbiva kaldkriipsuga |
oslash | ø | ladina väike o läbiva kaldkriipsuga |
otilde | õ | õ |
Otilde | Õ | Õ |
ouml | ö | ö |
Ouml | Ö | Ö |
permil | ‰ | promilli märk |
plusmn | ± | pluss-miinus |
raquo | » | Parem kahekordne jutumärk (») |
rdquo | ” | parempoolne kahekordne jutumärk (”) |
scaron | š | š |
sect | § | paragrahvi märk |
sup1 | ¹ | ülaindeks 1 |
sup2 | ² | ülaindeks 2 |
sup3 | ³ | ülaindeks 3 |
szlig | ß | ladina väike SZ |
uacute | ú | ladina väike u akuudiga |
Uuml | Ü | Ü |
uuml | ü | ü |
zcaron | ž | ž |
Zcaron | Ž | Ž |