Home

Ajasemantiliste märgendustega tekstikorpus

Korpuse failid leiab repositooriumist https://github.com/soras/EstTimeMLCorpus.

Sisu

Korpus koosneb 80 ajaleheartiklist (u 22000 sõna), milles on märgendatud sündmused (sündmustele viitavad sõnad), ajaväljendid ning ajalised seosed sündmuste ja ajaväljendite vahel. Märgenduse aluseks on TimeML märgendusraamistik (Pustejovsky jt. 2003), millest lähtuvalt on loodud ka eestikeelsete tekstide märgendamise juhised. Kuna korpus moodustab ühe alamosa "Sõltuvussüntaktiliselt ühestatud korpusest", on korpuses olemas ka (käsitsi parandatud) morfoloogilised ning süntaktilised märgendid.

Märgendus

Aja- ja sündmusstruktuuri märgenduse näol on tegemist eksperimentaalse märgendusega, mis peaks eelkõige olema kasulik automaatsete info ekstraheerimise ja organiseerimise rakenduste arendamisel. Aga märgendusest võib potentsiaalselt olla abi ka mitmete lingvistiliste küsimuste uurimisel, nt võib uurida grammatiliste ajatunnuste mõju ajasemantika avaldumisele/märgendamisele.
Aja- ja sündmusstruktuuri märgenduste loomisel lähtuti järgmistest juhistest: sündmuste märgendusjuhised, ajaväljendite märgendusjuhised ja ajaseoste märgendusjuhised. Korpuse loomist ja märgenduse kooskõlalisuse hindamist on kirjeldatud artiklites (Orasmaa 2014a) ja (Orasmaa 2014b).
Sõltuvussüntaktilise korpuse ja selle märgendusformaadi kohta leiab detailsemat infot leheküljelt: http://keeleressursid.ee/et/keeleressursid-cl-ut/korpused/83-sample-data-articles/clutee-lehed/185-soltuvuskorpus (vana leht: http://www.cl.ut.ee/korpused/soltuvuskorpus/).

Korpuse märgenduste lugemine/vaatamine

Kuna tegemist on keeruka ja mitmekihilise märgendusega ning erinevate kihtide märgendused on paigutatud eraldi failidesse, pole märgendusfailide "käsitsi" lugemine ilmselt väga mõeldav. Praegune märgenduskuju eeldab, et märgenduse täiemahulisel kasutajal on programmeerimisoskused, mille abil ta saab võtta välja erinevaid ja huvipakkuvaid alamosi korpusest. Skriptis exported_corpus_reader.py on näide sellest, kuidas saab erinevatest märgenduskihtidest kokku panna märgendatud tekstid. Skripti väljundis on iga lause puhul välja toodud: 1) märgendatud sündmused, 2) märgendatud ajaväljendid, 3) märgendatud ajaseosed. Näide skripti väljundist: lõplik ajaseoste märgendus tekstifailina (NB! loetavuse huvides on sellest väljundist välja jäetud suur hulk korpuses olevat informatsiooni, nt morfoloogilised ja süntaktilised märgendid, sündmusviidete ja ajaväljenditega seotud detailne informatsioon jm).

Korpuse struktuur

Korpus koosneb alusmärgendusest (lauseteks ja sõnadeks tükeldatud ajaleheartiklid koos morfoloogiliste ja süntaktiliste märgendustega) ning selle peale ehitatud aja- ja sündmusstruktuuri märgenduskihtidest (ajaväljendite märgendus, sündmuste märgendus ja nendele märgendustele toetuvad ajaseoste märgendused). Iga märgenduskiht on eraldiseisvas failis. Märgenduskihtide järgi jaotub korpus järgmisteks failideks:

  • base-segmentation-morph-syntax
    Alusmärgendus, mis sisaldab kogu korpust sõnadeks tükeldatuna. Igal real on (TAB-idega eraldatult) ühe sõna andmed: 1) artikli (süntaksikorpuse faili) nimi, kus sõna esines, 2) lause järjekorranumber (loendamine alates 0-st), 3) sõna järjekorranumber lauses (loendamine alates 0-st), 4) sõna tekstikuju, 5) sõna morfoloogiline ja pindsüntaktiline analüüs, 6) sõna indeks süntaksipuus, 7) sõna ülema indeks süntaksipuus.
    Morfoloogiliste ja pindsüntaktiliste märgenduste kohta leiab rohkem informatsiooni veebilehekülgedelt:
    http://math.ut.ee/~kaili/thesis/pt3_2.html ja http://math.ut.ee/~kaili/thesis/pt3_4.html
  • article-metadata
    Artiklite metaandmed (autor, pealkiri, rubriik jms). Metaandmed pärinevad Eesti keele koondkorpuse märgendusest ning kuna need on internetilehekülgedelt automaatselt korjatud, võib seal esineda ka lünkasid.
    Igal real on ühe artikli (süntaksikorpuse faili) nimi, millele järgneb TAB-iga eraldatult allikaviide.
  • timex-annotation-dct
    Artiklite loomise kuupäevad. Kuna artiklite loomise kuupäevad mängivad olulist rolli ajastruktuuri märgenduses, on need (metaandmetest ja failinimedest) eraldiseisvalt välja toodud.
    Igal real on ühe artikli (süntaksikorpuse faili) nimi, millele järgneb TAB-iga artikli loomise kuupäev (ingl dct = document creation time).
  • event-annotation
    Sündmustele viitavad sõnad ja fraasid. Igal real on (TAB-idega eraldatult) ühe sündmusele viitava sõna andmed: 1,2,3) sõna asukoht korpuses (artikkel, lause järjekorranumber, sõna järjekorranumber), 4) sündmusviite sõna või fraas, 5) sündmuse märgendus (sündmuse TimeML klass, modaalsust või eituse olemasolu märkivad artibuudid ning märgendajate kommentaarid), 6) sündmuse unikaalne identifikaator (teksti piires);
    Kui on tegemist mitmesõnalise sündmusviitega, on märgenduse all multiword="true", ning sündmuse klass jms atribuudid on välja toodud vaid sõna juures, mis on süntaktiliselt domineeriv (ülem).
  • timex-annotation
    Ajaväljendite märgendus. Igal real on (TAB-idega eraldatult) ühe ajaväljendi koosseisu kuuluva sõna andmed: 1,2,3) sõna asukoht korpuses (artikkel, lause järjekorranumber, sõna järjekorranumber), 4) ajaväljendifraas, sõna või sõne, 5) ajaväljendi märgendus (ajaväljendi TimeML tüüp, kalendripõhine semantika, semantikat täpsustavad atribuudid ning märgendajate kommentaarid), 6) ajaväljendi unikaalne identifikaator (teksti piires);
    Kui on tegemist mitmesõnalise ajaväljendiga, on märgenduse all multiword="true", ning ajaväljendi tüüp jms atribuudid on välja toodud vaid fraasi esimese sõna juures.
    Kui ajaväljendi sõne piirid ei lange täpselt kokku teksti sõnadeks tükeldusega (nt ajavahemikule viitav fraas "22.-24. aprillil" tükeldatakse sõnadeks "22.-24." ja "aprillil" ning vahemiku esimesele otspunktile viitav sõne ("22.") on esimese sõna sees), antakse sellest märku atribuudiväärtusega tokenSubstring="true" märgenduse all;
  • tlink-event-timex
    Ajaseosed sündmuste ja ajaväljendite vahel lause sees. Igal real on (TAB-idega eraldatult) ühe ajaseose andmed: 1) artikkel (süntaksikorpuse faili nimi), 2) sündmuse identifikaator, 3) ajaseose tüüp, 4) ajaväljendi identifikaator, 5) kommentaar.
  • tlink-event-dct
    Ajaseosed sündmuste ja artikli loomise kuupäeva (nn "kõnehetke") vahel. Igal real on (TAB-idega eraldatult) ühe ajaseose andmed: 1) artikkel (süntaksikorpuse faili nimi), 2) sündmuse identifikaator, 3) ajaseose tüüp, 4) kommentaar.
  • tlink-main-events
    Ajaseosed kõrvuti paiknevate lausete peasündmuste vahel. Igal real on (TAB-idega eraldatult) ühe ajaseose andmed: 1) artikkel (süntaksikorpuse faili nimi), 2) esimese peasündmuse identifikaator, 3) ajaseose tüüp, 4) teise peasündmuse identifikaator, 5) kommentaar.
  • tlink-subordinate-events
    Ajaseosed lause sees, kahe sündmuse vahel. Igal real on (TAB-idega eraldatult) ühe ajaseose andmed: 1) artikkel (süntaksikorpuse faili nimi), 2) esimese sündmuse identifikaator, 3) ajaseose tüüp, 4) teise sündmuse identifikaator, 5) kommentaar.

Ajaseoste märgenduste puhul on lisaks lõplikule/ühtlustatud märgendusele olemas ka algsed märgendused, mis lisati korpusesse kolme märgendaja poolt (märgendaja A, märgendaja B ja märgendaja C). Need asuvad failides laienditega "ann-a", "ann-b" ja "ann-c". Iga artikkel märgendati algselt kahe märgendaja poolt ning vaadati siis üle hindaja poolt, kes langetas lõplikud märgendusotsused.


Viiteid

Orasmaa, Siim 2014a. Towards an Integration of Syntactic and Temporal Annotations in Estonian. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14).

Orasmaa, Siim 2014b. How Availability of Explicit Temporal Cues Affects Manual Temporal Relation Annotation. Human Language Technologies – The Baltic Perspective (215 - 218). IOS Press.

Pustejovsky, James; Castano, Jose; Ingria, Robert; Sauri, Roser; Gaizauskas, Robert; Setzer, Andrea ; Katz, Graham 2003.  TimeML: Robust specification of event and temporal expressions in text. In Fifth International Workshop on Computational  Semantics (IWCS-5).