Uue meedia korpus: jututoad 2

 

Sisu

Selles korpuses on 162 + 1904 = 2066 jututoavestluse salvestust aastatest 2001 - 2004 ja 2007 - 2010.

Need tekstid on osa «Eesti keele koondkorpusest». Tekstide kogumist ja töötlemist on rahastatud riiklikust sihtprogrammist «Eesti keeletehnoloogia».

Kuidas seda kasutada saab?

Korpuse kasutusõiguse saamiseks kirjutage palun See e-posti aadress on spämmirobotite eest kaitstud. Selle nägemiseks peab su veebilehitsejas olema JavaSkript sisse lülitatud. ja kirjeldage lühidalt oma uurimiseesmärki.

Allikmaterjal

Tekstid on pärit kahest jututoast (Zoneforum ja Planetforum), kokku 4067458 kasutaja poolt toodetud või stage-märgendite vahel esinevat sõna 948299 repliigis. Jututoas Planetforum esineb 804 erinevat kasutajanime, jututoas Zoneforum esineb 3117 erinevat kasutajanime.

Märgendus

Failid on märgendatud TEI P5 (XML) http://www.tei-c.org/Guidelines/P5/ põhimõtete järgi. Kodeering on utf-8.

Märgendamine lähtus tõdemusest, et jututoa salvestus on nagu näidendi üleskirjutus: tegelased tulevad lavale, esitavad oma repliigid ja lahkuvad sealt. Kõigi sündmuste aeg on märgendatud <time> abil; kõneleja on <speaker>; repliikide välised sündmused on .

Ühe katkematu jututoavestluse märgendiks on <div1 type="jututoavestlus"> vestlus </div1>.

Päeva, kuupäeva, kuu ja aasta märgendiks on <date> päeva nimetus kuupäev.kuu.aasta </date>.

Postituste kellaaegade märgendiks on <time> 00:00 </time>.

Märgend <sp> tekst </sp> tähistab ühe kasutaja postitust koos kasutajanimega.

Märgend <stage> sündmus </stage> tähistab kõiki sündmusi, mis ei kujuta endast jututoa kasutajate juttu.

Märgend <speaker> kasutaja </speaker> tähistab kõnelema hakkavat jututoa kasutajat.

Märgend <foreign> võõrkeelne tekst </foreign> tähistab automaatselt tuvastatud võõrkeelset repliiki.

Ühe kasutaja repliik, st üks postitus on märgendatud üheks lõiguks <p> postitus </p>.

Hüperlingid on eemaldatud ja asendatud märgendiga <gap rend="hüperlink"/>.

Meiliaadressid on asendatud stringiga See e-posti aadress on spämmirobotite eest kaitstud. Selle nägemiseks peab su veebilehitsejas olema JavaSkript sisse lülitatud..

Sümbol < on asendatud &lt;, sümbol > on asendatud &gt; ja sümbol & on asendatud olemiga &amp;.

Võõrkeelne tekst, mida õnnestus automaatselt tuvastada, on märgendatud märgendiga <foreign> võõrkeelne tekst </foreign>.

Päised

  • Korpusel on kolme tasandi päised (header): iga faili kohta käiv info on selle faili alguses, Jututoad II allkorpuse kui terviku kohta käiv info failis header_jututoad_2.xml ja kogu Koondkorpuse kui terviku kohta käiv info failis koondkorpus_main_header.xml.
  • Korpusefaili päises on dokumenteeritud failis sisalduva ajalehenumbri ilmumise kuupäev, sõnade arv tekstis ja faili suurus baitides, samuti on päises loetletud selles failis kasutatud märgendid ja nende arv.
  • Tekst ise algab märgenditega <text><body> ja lõpeb märgendiga </body></text>.

Erisümbolid

Lisaks ASCII sümbolitele/koodidele (so täppideta tähed, numbrid ja kirjavahemärgid) on tekstides kasutatud olemeid ehk entiteete.