Uue meedia korpus: Foorumid, uudisgrupid ja kommentaarid

 

Failid:

 

  • Foorumid, uudisgrupid ja kommentaarid koos kordustega

 

 

 

Uue meedia korpuses sisalduvad järgmised alamkorpused:

 

  • Foorumite korpus
  • Uudisgruppide korpus,
  • Kommentaaride korpus,
  • Jututubade korpus.

 

Nendest kolm esimest on piisavalt sarnased selleks, et neid kirjeldada koos. Jututubade dokumentatsioon aga on eraldi failis.

Kuidas seda kasutada saab

Kogu korpus on vaba kasutamiseks mitteärilistel eesmärkidel. Kasutamiseks on kaks võimalust:

  • Korpusele saab esitada päringuid kasutajaliidese kaudu
  • Laadida endale alla pakitud tekstid siit

 

Korpuste allikad

Foorumid: Planet Foorumite (endise nimega Zone foorumid) salvestused lehelt http://forum.planet.ee/. Tekstid pärinevad erinevatest aastatest vahemikus 2000 kuni 2008.

Uudisgrupid: eesti uudisgruppide salvestused aastatest 2000 kuni 2004

Kommentaarid: Delfi kommentaarid ajavahemikust 26.01.2004 - 03.2004

Korpuste suurus

Foorumid: 20 faili, kordustega versioonis 10,8 miljonit sõna (ilma kirjavahemärkideta); ilma kordusteta 8,7 miljonit sõna.

Uudisgrupid: 64 faili, kordustega versioonis 7,3 miljonit sõna (ilma kirjavahemärkideta); ilma kordusteta 4,6 miljonit sõna.

Kommentaarid: 77 faili, kordustega versioonis 2 miljonit sõna (ilma kirjavahemärkideta); ilma kordusteta 1,9 miljonit sõna.

Korpuste ajalugu

Foorumid: 2008 internetist salvestatud, esialgses versioonis teisendatud TEI SGML kujule;

Uudisgrupid: 2004 internetist salvestatud; esialgses versioonis teisendatud TEI SGML kujule ja lausestatud;

Kommentaarid: 2004 internetist kogutud, esialgses versioonis teisendatud TEI SGML kujule ja lausestatud;

Kõik kolm: 2010 teisendatud XML-kujule ja uuendatud päised

Foorumid: 2011 märgendatud tsitaadid varasematest postitustest, emotikonid, pöördumised teiste postitajate poole ja võõrkeelsed tekstiosad; parandatud lausestust.

Uudisgrupid ja kommentaarid: 2013 märgendatud tsitaadid varasematest postitustest, emotikonid, pöördumised teiste postitajate poole ja võõrkeelsed tekstiosad, parandatud lausestust.

Eemaldatud vs eemaldamata kordused

Foorumite, uudisgruppide ja kommentaaride korpustest on tehtud kaks versiooni: eemaldatud ja eemaldamata kordustega. Korduste all on siin mõeldud asünkroonses internetisuhtluses sageli kasutatavat diskussiooni arendamise viisi, mille puhul postituse autor tsiteerib mõnda eelnevat postitust (tervikuna või osaliselt), millega tema postitus haakub. Veel mõne järgmise postituse autor võib tsiteerida nii seda postitust, millega tema postitus haakub kui koos sellega ka neid eelnevaid postitusi, mida tema tsiteeritav postitaja omakorda on tsiteerinud.

Neid korpusi kasutav uurija peaks ise otsustama, kas tema materjaliks sobivad paremini kordustega või kordusteta failid. Näiteks on kordustega failides paremini jälgitav diskussiooni areng, ilma kordusteta failid on jällegi parem materjal keelestatistika jaoks.

Korduste märgendamine

Foorumite korpuse kordustega versioonis on kordused märgendatud quote-märgendi abil, järgnevas näites tsiteerib autor Styrman kõigepealt autori nimega pitsa postitust, mis on quote-märgendite vahel ning selle järel on Styrmani enda postitus:

<div3 type="postitus"> <p> <name type="postitaja">Styrman</name> </p>

<p><time> 11-09-2003 , 22:50 </time></p>

<p> <hi rend="pealkiri"> <s> Re : !!! </s> <s> Skype !!! </s> </hi> </p>

<quote type="postitas_pitsa"> <p> <hi rend="rasvane"> <s> asi on siis nagu telefon : vaja mikrit ja kõlarit. </s> </hi> </p> <p> <hi rend="rasvane"> <s> 1) tasuta </s> </hi> </p> <p> <hi rend="rasvane"> <s> 2) parem helikvaliteet kui telefonil </s> </hi> </p> </quote>

<p> <s> Tasuta ? </s> <s> Minu teada küll mitte . </s> <s> Mingi demo või evaluation versioon pidi olema . </s> <s> Ja Eesti keelt kah minu teada seal ei olnud . </s> <s> Ja üldse mõttetu asi IMHO . </s> </p> </div3>

Foorumite korpuse kordusteta versioonis on tsitaat eemaldatud ja asendatud märgendiga <gap reason="tsitaat"/> , nt:

div3 type="postitus"> <p> <name type="postitaja">Styrman</name> </p>

<p><time> 11-09-2003 , 22:50 </time></p>

<p> <hi rend="pealkiri"> <s> Re : !!! </s> <s> Skype !!! </s> </hi> </p> <p> <gap reason="tsitaat"/> </p> <p> <s> Tasuta ? </s> <s> Minu teada küll mitte . </s> <s> Mingi demo või evaluation versioon pidi olema . </s> <s> Ja Eesti keelt kah minu teada seal ei olnud . </s> <s> Ja üldse , mõttetu asi IMHO . </s> </p> </div3>

Uudisgrupid ja kommentaarid on märgendatud järgnevalt: kordustega versioonides tähistab märgend

<seg type="viide_varasemale_postitusele"> automaatselt genereeritud viidet 'xxx kirjutas'. Märgend <quote type="koopia_varasemast_postitusest"> tähistab tsitaati, varasema postituse kopeeringut.

Kokku siis

<div2 type="postitus"> <head> Re : muru </head> <p> <name type="postitaja"> k </name> </p> <p><time> Tue , 06 Aug 2002 22:17:00 +0300 </time></p>

<p> <s> ja kui vargal koerahirmutamisvile kaasas ? siis pole algõpetusest kasu miskit ju või siis pipragaas Kert </s> </p> <p> <seg type="viide_varasemale_postitusele"> Ott O wrote : </seg> </p> <quote type="koopia_varasemast_postitusest"> <p> <s> Mart P wrote : indrek s wrote : Oleme ausad - ei suuda ka koer inimeste vastu saada . </s> <s> Aga ta suudab haukuma hakata , mille peale naabrikoerad haukuma hakkavad ja mõni naaber ikka vaatab mis toimub . </s> </p> </quote> </p> </div2>

Korpuste kordusteta versioonides on tsitaadid eemaldatud ja asendatud märgendiga <gap reason="tsitaat/> Tsitaadid on tuvastatud kui varempostitatud teksti kordused ja nende märgenduses võib olla vigu. Märgend <seg type="viide_varasemale_postitusele"> sisaldub ka eemaldatud kordustega korpuseversioonides.

Faili jagamine osadeks: div ehk alaosa, lõik, lause

Foorumite korpuses on ühes failis on ühe foorumi tekstid.

Uudisgruppide korpuses on ühes failis ühe uudisgrupi postitused.

Kommentaaride korpuses on ühes failis ühe artikli kommentaarid.

xml-fail on jagatud alaosadeks märgendi <divX > abil.

Foorumite korpuses on div1 on üks alamfoorum. Selles on alustava div1 märgendi järel head-märgendite vahel alamfoorumi pealkiri, näiteks

<div1 type="alamfoorum"> <head> Päevakajaline </head>

Märgend <div2 tähistab teemat. Alustava märgendi järel on teema (ja mitmes leht foorumi nummerduses) head-märgendite vahel, näiteks

<div2 type="teema"> <head> Kohtla-Järvel kaovad kanalisatsiooniluugid - 01. leht ( Planet Foorumid - Varia - Päevakajaline ) </head>

<div3 tähistab üht postitust. Alustava div3 järel on postituse autor <name> ja <p> märgendite vahel. Sellele järgnev märgend <time>, mis on samuti lõigumärgendite <p> vahel, tähistab postituse aega, märgendile <time> järgneb postituse tekst ise. Tekst on jagatud lõikudeks <p> ja lausestatud <s> ning segmenteeritud (st kahelt poolt eraldatud tühiku või reavahetusega) sõnad ning kirjavahemärgid, nt:

<div3 type="postitus"> <p> <name type="postitaja">kassrott</name> </p>

<p><time> 14-05-2007 , 09:46 </time></p>

<p> <s> See kõlab nii , et hommikul kodust väljudes tuleb arvutid välja lülitada , täiesti teostatav ju , muid voolutarbijaid päeval niikuinii eriti ei kasuta . </s> </p> </div3>

Foorumitekstide automaatsel lausestamisel (erinevalt uudisgruppide ja kommentaaride tekstidest) on arvestatud sellega, et lause võib, erinevalt normeeritud kirjakeelest, alata ka väikese algustähega, nt

<p> <s> failihalduri ? </s> <s> vot , seda ma vist otsingi . </s> <s> tahaksin nii et muudan windowsi välimust paremaks nii et ressurssi võtaks sama palju kui default theme . </s> <s> nagu muudaks seda default theme't vms ... </s> <s> ja mul windows 98 se . </s> <s> Äkki keegi oskab aidata ? </s> <s> tahaks nii et mingit proge vaja ei oleks .. </s> </p>

Uudisgruppide korpuses on ühe uudisgrupi postitusi sisaldav xml-fail jagatud alaosadeks märgendi <divX> abil.

<div1 on ühe uudisgrupi postitused, st tervikfail.

<div2 tähistab ühte postitust. Selles on alustava <div2 märgendi järel head-märgendite vahel postituse pealkiri, seejärel postituse autor name-märgendite vahel. Sellele järgnev märgend time tähistab postituse aega, time-ile järgneb postituse tekst ise. Tekst on jagatud lõikudeks <p> ja lausestatud <s> ning &lt/s>. Üks postitus moodustab tavaliselt ühe lõigu.

Näiteks:

<div2 type="postitus"> <head> bussi mäng </head> <p> <name type="postitaja"> Sam </name> </p>

<p><time> Sun , 8 Sep 2002 12:43:37 +0300 </time></p>

<p> <s> Poiss , 4a , on hirmus busside fänn ja tahaks talle mingit mängu kus saaks bussiga sõita/juhtida . </s> <s> Soovitage miskit , kui üldse midagi sellist olemas on . </s> <s> Praegu mängib Driverit ja seisab juube viisakalt iga punase tule taga ... </s> </p> </div2>

Uudisgruppide tekstide automaatsel lausestamisel on eeldatud, et lause algab suure algustähega ja lõpeb lauselõpumärgiga. Kui see nii ei ole, pole lausestamine õnnestunud. Näiteks:

<s> tere . on ehk mõni tark kes oskab seletada mis järgnevas koodis viga on ? olen algaja ja omaarust nagu peaks kõik ok olema , aga ei ole : / . ei oska nagu viga ka leida . ytleb et lõpus ootab ; aga on . kuid lõpus peab olema . seega on viga mujal , aga kus ? </s>

Kommentaaride korpuses on ühe artikli kommentaare sisaldav xml-fail jagatud alaosadeks märgendi <divX > abil. div1 on ühe artikli kommentaarid. Selles on alustava div1 märgendi järel head-märgendite vahel kommenteeritava artikli pealkiri, näiteks

em><div1 type="kommentaarid"> <head> Delfi kommentaarid 2004. Pensionärid nõuavad raha . </head>

Märgend <div2 tähistab üht postitust. Alustava märgendi järel on postituse pealkiri või autor head-märgendite vahel. Sellele järgnev märgend time tähistab postituse aega, time-ile järgneb postituse tekst ise, näiteks:

<div2 type="kommentaar"> <head> arvan </head>

<p><time> 23.09.2003 07:11 </time></p>

Tekst on jagatud lõikudeks <p> ja lausestatud <s> ning segmenteeritud (st kahelt poolt eraldatud tühiku või reavahetusega) sõnad ning kirjavahemärgid. Üks postitus moodustab tavaliselt ühe lõigu, nt

<div2 type="kommentaar"> <head> paljulapseline </head>

<p><time> 28.04.2003 17:09 </time></p>

<p> <s> Minu kadunud ema toetas oma 1800kr . pensionist lapselapsi . </s> <s> Maksis kinni nende muusikatunnid j.n.e. </s> <s> Ei hädaldanud kunagi , et raha vähe . </s> <s> Ja alati aitas .. Ei kogunud rohkem sukasäärde kui vaid matuste kulutuste katteks . </s> <s> Ilma tema toetuseta on meie perel palju raskem toimetulla . </s> <s> Ei saa lastele paljutki , mis nende arenguks tarviline enam lubada . </s> <s> Sotsiaalpoliitika vajaks eelkõige tasakaalustamist . </s> <s> Elatusraha ka lastele . </s> </p> </div2>

Kommentaaride tekstide automaatsel lausestamisel on eeldatud, et lause algab suure algustähega ja lõpeb lauselõpumärgiga. Kui see nii ei ole, pole lausestamine õnnestunud. Näiteks:

<p> <s> ah soo ! selge . </s> <s> Ma ütlesin , et võid ise defineerida , kuidas soovid . </s> </p>

<p> <s> on olnud võrratuid lugusid ja väljamõeldisi . kommid kuuluvad tingimusteta kingole . tahaksin olla ta sõber ka reaalelus . </s> </p>

Võõrkeelsed lõigud

Korpuste kordustega versioonidest on pikemad võõrkeelsed tükid välja visatud ja asendatud märgendiga <gap reason="võõrkeelne_tekst"/>, lühemad on automaatselt märgendatud märgendi <foreign> abil. Kordusteta versioonidest on eemaldatud ka need võõrkeelsed tekstiosad, mis kordustega osas olemas olid ja asendatud märgendiga <gap reason="foreign"/>

Näide kordustega failist:

<div3 type="postitus"> <p> <name type="postitaja">midfield</name> </p>

<p><time> 29-12-2005 , 19:34 </time></p>

<foreign> - hi , do you believe everything you read on the internet ? </foreign> </p> <p> <foreign> - yes . </foreign>

Sama tekstiosa kordusteta korpuseversioonis:

<div3 type="postitus"> <p> <name type="postitaja">midfield</name> </p>

<p><time> 29-12-2005 , 19:34 </time></p>

<p> <gap reason="foreign"/> </p> </div3>

Seega on korpuse kordusteta versioonis kaks märgendit eemaldatud võõrkeelsete tekstiosade jaoks.

Keel on tuvastatud automaatselt. Mida pikem tekst, seda täpsemini on selle keeletuvastus õnnestunud.

Võrreldes kommentaaride ja uudisgruppidega on foorumitekstides keeletuvastamine halvemini õnnestunud, sageli on ka eestikeelne lause muidu võõrkeelses lõigus määratud võõrkeelseks.

Samuti võib foorumitekstides olla kasutatud ühes lauses segamini mitut keelt ja sellised laused on märgendatud võõrkeelseteks, nt

<foreign> Paki lahti ja copy fail my documents/18 WoS Convoy/Mod </foreign>

Kommentaarides on ühe väga omapärase kirjaviisiga autori postitused samuti automaatselt liigitatud võõrkeelseteks ning märgendatud kui <foreign>

Väljajätted

Välja on jäetud pikemad võõrkeelsed osad (mida on õnnestunud automaatselt tuvastada), hüperlingid, pildid. Nende asemel on märgend <gap, nt

<gap reason="tsitaat"/>

<gap reason="hüperlink"/>

<gap reason="foreign"/>

<gap reason="pilt"/>

Emotikone esitavad märgijadad on automaatselt tuvastatud ja esitatud gap-märgendi sees, säilitades emotikoni algse kuju, nt <gap rend="emotikon :--)"/>

Foorumitekstides on kasutatud ka pildina esitatud emotikone, need on korpuses esitatud gap-märgendina koos kirjeldusega, nt <gap rend="lol_emotikon"/>.

Kujundus, kirjaviis, sümbolid, koodid

Failid on märgendatud TEI P5 (XML) põhimõtete järgi. Kodeering on utf-8. Unicode'i asendussümbol (U+FFFD) tähistab märke, mille kuju kohta informatsioon puudub.

Teksti kujundus (nt. reavahetused) on kaotatud, kuid algsete reavahetuste põhjal on määratud lõigu- ja/või lausepiirid, sõltuvalt postituse iseloomust. Kasutajate kirjaviis on säilitatud muutumatuna, s.h. numbrite kasutamine täpitähtede asemel, kuid puuduolevaid tühikuid on kirjavahemärkide ümbruses lisatud, et nende kasutus sarnaneks kirjakeelele. Nii näiteks peab punktile järgnema tühik, alustavale jutumärgile eelnema tühik. Lisaks sellele on kirjavahemärgid tõstetud sõnadest lahku, v.a. juhul, kui nad moodustavad sõnaga terviku, nt 17" monitor, 1.2. või hr.

Poolitusi ei ole muudetud.

Jutumärgid on teisendatud märkideks ?? ?? ?? ??, aga kui ei osanud määrata, kas tegemist on alustava või lõpetava jutumärgiga, siis on kasutatud märki ".

Poolitusmärk, mõttekriips jms, mis võivad olla esitatud eri koodidega on teisendatud miinusmärkideks -

Tühikud on kõik ühekordsed, st kui kõrvuti on olnud mitu tühikut, on need asendatud ühega.

Emotikonid

Emotikone esitavad märgijadad on automaatselt tuvastatud ja esitatud gap-märgendi sees, säilitades emotikoni algse kuju, nt <gap rend="emotikon :--)"/>

Foorumitekstides pildina esitatud emotikonid on esitatud gap-märgendina koos kirjeldusega, nt <gap rend="lol_emotikon"/>.

šriftierisused

on esitatud märgendiga hi ja selle atribuudiga rend, näiteks

...kui sellele noormehele tänu jääb <hi rend="kaldkiri">üks</hi> noor mõnuainetest eemale...

Võimalikud märgendid:

<hi rend="pealkiri">
<hi rend="rasvane">
<hi rend="kaldkiri">
<hi rend="tundmatu">
<hi rend="allajoonitud">
<hi rend="rasvane_kaldkiri">
<hi rend="kaldkiri_rasvane">
<hi rend="rasvane_allajoonitud">
<hi rend="allajoonitud_rasvane">
<hi rend="rasvane_kaldkiri_allajoonitud">
<hi rend="allajoonitud_kaldkiri_rasvane">
<hi rend="kaldkiri_allajoonitud">
<hi rend="allajoonitud_kaldkiri">
<hi rend="rasvane_rasvane">
<hi rend="allajoonitud_rasvane_kaldkiri">
<hi rend="rasvane_kaldkiri_kaldkiri_allajoonitud">
<hi rend="rasvane_allajoonitud_kaldkiri">
<hi rend="kaldkiri_rasvane_allajoonitud">