Koondkorpus: Luup

 

Sisu

Siin korpuses on ajakirja "Luup" tekstid, kokku ca 1,9 miljonit sõna.

Tekstid on pärit veebilehelt http://luup.postimees.ee/.

Tekstid on internetist poolautomaatselt salvestatud ja teisendatud HTML-kujult TEI kujule. Vajalikud programmid kirjutas Katrin Tsepelina.

Korpus hõlmab "Luubi" väljaannete veebiversioone aastatest 1996 – 2002:

  • 1996 - Nr. 10 – 31
  • 1997 - Nr. 01 – 14, 16 – 26
  • 1998 - Nr. 01 – 02, 05 – 26
  • 1999 - Nr. 01 – 26
  • 2000 - Nr. 01 – 18
  • 2001 - Nr. 01 – 06, 08 – 12
  • 2002 - Nr. 01 – 04

Kokku ca 1,9 miljonit sõna, 130 ajakirjanumbrit, 2298 artiklit.

Kuidas seda kasutada saab?

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kolm võimalust:

Allikmaterjal ja märgendus

Ühes failis on üks ajakirjanumber. Välja on jäetud mitte-tekstiline materjal, so pildid (fotod, illustratsioonid). Välja on jäetud ka igasugused tabelid ja nimekirjad, millel polnud tekstilist väärtust.

Tekstides parandusi pole tehtud, sõnu ei poolitata. Esiletõstmise eesmärgil tehtud šrifti muutused on reeglina sgml-märgendatud, kasutades atribuuti rend. Kui šrifti muutus hõlmab tervet lõiku, siis on atribuut rend antud lõigule. Šrifti abil esiletõstmise võimalikud väärtused on järgmised:

<hi rend='a'>, <hi rend='a_bold'>, <hi rend='a_italic'>, <hi rend='bold'>, <hi rend='bold_color'>, <hi rend='bold_italic'>, <hi rend='color'>, <hi rend='color_bold'>, <hi rend='color_italic'>, <hi rend='italic'>, <hi rend='italic_a'>, <hi rend='italic_color'>, <hi rend='large'>, <hi rend='large_italic'>, <hi rend='small'>, <hi rend='small_bold'>, <hi rend='small_italic'>, <hi rend='sup'>, <p rend='a'>, <p rend='bold'>, <p rend='bold_italic'>, <p rend='color'>, <p rend='color_bold'>, <p rend='color_bold_italic'>, <p rend='color_italic'>, <p rend='dd'>, <p rend='dd_bold'>, <p rend='dd_bold_italic'>, <p rend='h2'>, <p rend='h3_small_bold'>, <p rend='italic'>, <p rend='large'>, <p rend='large_bold_italic'>, <p rend='li'>, <p rend='li_bold'>, <p rend='li_italic'>, <p rend='small'>, <p rend='small_bold'>, <p rend='small_bold_italic'>, <p rend='small_italic'>, <p rend='small_li'>

  • 'sup' tähistab ülaindeksit;
  • 'bold' rasvast kirja;
  • 'italic' kaldkirja;
  • 'a' hüperlingina esitatud teksti;
  • 'small' tavatekstist väiksemat teksti;
  • 'large' tavatekstist suuremat teksti;
  • 'li' nimekirja punktina esitatud teksti;
  • 'color' tavatekstist erineva värviga tekst;
  • 'dd' definitsioonina märgendatud teksti (<dd>).

Iga faili alguses on päis <teiHeader>, kus on dokumenteeritud faili sisu, suurus, kasutatud märgendid jms

  • <div0> on terve ajakirjanumber, nt <div0 type='ajakirjanumber'><head>Luup Nr. 13 (122), 22. juuli 2000</head>
  • <div1> on rubriik, nt <div1 type='rubriik'><head>JUHTKIRI</head>
  • <div2> on vastava rubriigi artiklid, nt <div2 type='artikkel'><head>K&otilde;ige t&auml;htsam raamat</head>
  • <div3> on artikli alamosa, nt <div3 type='alaosa'><head>Kui j&auml;&auml;m&auml;ed hakkavad sulama</head> (numbrites 1998 Nr. 14 – 2002 Nr. 04 võib artiklite alamosade eristuses esineda vigu).

Kasutajaliidese kaudu kasutatavas korpuses on kustutatud kõik märgendus, v.a. väljajätteid märkiv.

Tekstides esinevad järgmised olemid ehk entiteedid:

acirc â ladina väike a tsirkumfleksiga e. katusega
agrave à ladina väike a graavisega
Agrave À ladina suur A graavisega
amp & ampersand
Aring Å ladina suur A ülasõõriga
aring å ladina väike a ülasõõriga
auml ä ä
Auml Ä ä
bull ###
cacute ć ladina väike c akuudiga
Cacute Ć ladina suur C akuudiga
deg ° kraadimärk
eacute é ladina väike e akuudiga
Eacute É ladina suur E akuudiga
egrave è ladina väike e graavisega
euml ë ladina väike e umlaudiga
frac14 ¼ murd 1/4
gt > suurem-kui-märk
iacute í ladina väike i akuudiga
laquo « vasak kahekordne jutumärk («)
ldquo vasak kahekordne jutumärk (“)
lt < väiksem-kui-märk
micro µ ###
middot · selline keskmine punkt
nacute ń ladina väike n akuudiga
Oacute Ó ladina suur O akuudiga
oacute ó ladina väike o akuudiga
ocirc ô ladina väike o tsirkumfleksiga e. katusega
Oslash Ø ladina suur O läbiva kaldkriipsuga
oslash ø ladina väike o läbiva kaldkriipsuga
otilde õ õ
Otilde Õ Õ
ouml ö ö
Ouml Ö Ö
permil promilli märk
plusmn ± pluss-miinus
raquo » Parem kahekordne jutumärk (»)
rdquo parempoolne kahekordne jutumärk (”)
scaron š š
sect § paragrahvi märk
sup1 ¹ ülaindeks 1
sup2 ² ülaindeks 2
sup3 ³ ülaindeks 3
szlig ß ladina väike SZ
uacute ú ladina väike u akuudiga
Uuml Ü Ü
uuml ü ü
zcaron ž ž
Zcaron Ž Ž