Ilukirjandus tasakaalustatud korpuses

 

Segakorpuse ilukirjanduse osa koosneb viiest miljonist sõnast. Korpus on lausestatud, s.o. vastuseks kasutajaliidese kaudu esitatud päringule saate otsitavat sõna või sõnaosa sisaldava lause. Iga rida algab allikaviitega, millele klõpsates saate lugeda, millisest teosest lause pärineb.

Kõik korpuses olevad teosed leiate siit tabelist.

Korpuses on kirjavahemärgid neile eelnevatest sõnadest lahku tõstetud, s.o. kirjas tavaline lause

Ma nägin, et ta tuleb, ja ütlesin: "Tere!"

on korpuses kujul

Ma nägin , et ta tuleb , ja ütlesin : " Tere !"

Allalaaditavad failid on märgendatud TEI põhimõtete järgi. Allalaaditava korpuseversiooni struktuur on järgmine:

  • Iga korpusefail algab päisega <teiheader>. Päises on dokumenteeritud failis sisalduva ilukirjandusteose autor ja pealkiri, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.
  • Ilukirjandustekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>. Tekstides on kasutatud järgmisi märgendeid:
  • Tervikteksti ja selle osade märgendamiseks: <div0 type='tervikteos'> ja <div1 type='alaosa'> või <div1 type='peatükk>
  • Pealkirjade märgendamiseks <head>
  • Autorite märgndamiseks <bibl><author>
  • Lõikude märgendamiseks <p>
  • Lausete märgendamiseks <s>
  • Luuletused on märgendatud <lg> ja selles sisalduvad luuleread <l>

Kasutajaliidese all olevas korpuses on luuleread võrdsustatud lausetega.

Originaaltekstist väljajäetud materjal on asendatud märgendiga <gap>, millel on atribuut 'desc', mille väärtus kirjeldab väljajäetud materjali.
Näiteks <gap desc='ladinakeelne salm'> või <gap desc='sisukord'>.

Kasutajaliidese kaudu kasutatavas korpuses on märgendus kustutatud, v.a. märgend <gap ...>.

Erisümbolid

&Aring;  Å
&Auml;  Ä
&Ccaron;  C
&Eacute;  É
&Otilde;  Õ
&Ouml;  Ö
&Scaron;  Š
&Uuml;  Ü
&Zcaron;  Ž
&aelig;  æ
&amacr;  a
&aring;  å
&at;  @
&auml;  Ä
&ccaron;  c
&deg;  °
&eacute;  é
&emacr;  e
&gt;
&hellip;  …
&ldquo;  “
&lstrok;  l
&lt;  <
&ndash;  –
&amp; &amp;
&oacute;  ó
&omacr;  o
&otilde;  õ
&ouml;  ö
&rdquo;  ”
&scaron;  š
&Dagger
&cacute; c
&ccedil; ç
&dollar; $
&ecirc; ê
&euml; ë
&euro;
&frac12; ½
&frac4; ¼
&iacute í
&iexcl; ¡
&imacr; i
&iogon; i
&iquest;  
&lcedil; l
&mdash; -
&nacute; n
&oslash; ø
&percnt; %
&pgr; π
&plus; +
&plusmn; ±
&sacute; s
&sect; §
&sup3; ³
&szlig; ß
&times; ×
&ucirc; û
&umacr; u
&ocirc; ô
&egrave; è
&eogon; e
&equals; =
&aacute; á
&aelig; æ
&amacr; a
&aogon; a
&atilde; ã
&Imacr; I
&Oslash Ø
&sup2;  ²
&uuml;  ü
&zcaron;  z