Kollokatsioonide pingeread Tasakaalus korpuse põhjal
Loendite kohta lugemiseks kerige palun allapoole.
Loendid:
1. Lemma-lemma kollokatsioonid:
lemma-lemma omadussõna- nimisõna kollokatsioonid:
lemma- lemma AS Sag
lemma- lemma AS LL
lemma- lemma AS MI
lemma- lemma AS MS
lemma-lemma määrsõna- omadussõna kollokatsioonid:
lemma- lemma DA Sag
lemma- lemma DA LL
lemma- lemma DA MI
lemma- lemma DA MS
lemma-lemma nimisõna- määrsõna kollokatsioonid:
lemma- lemma SD Sag
lemma- lemma SD LL
lemma- lemma SD MI
lemma- lemma SD MS
lemma-lemma nimisõna- nimisõna kollokatsioonid:
lemma- lemma SS Sag
lemma- lemma SS LL
lemma- lemma SS MI
lemma- lemma SS MS
lemma-lemma tegusõna- omadussõna kollokatsioonid:
lemma- lemma VA Sag
lemma- lemma VA LL
lemma- lemma VA MI
lemma- lemma VA MS
lemma-lemma tegusõna- määrsõna kollokatsioonid:
lemma- lemma VD Sag
lemma- lemma VD LL
lemma- lemma VD MI
lemma- lemma VD MS
lemma-lemma tegusõna- nimisõna kollokatsioonid:
lemma- lemma VS Sag
lemma- lemma VS LL
lemma- lemma VS MI
lemma- lemma VS MS
lemma-lemma tegusõna- tegusõna kollokatsioonid:
lemma- lemma VV Sag
lemma- lemma VV LL
lemma- lemma VV MI
lemma- lemma VV MS
2. Lemma- sõnavorm kollokatsioonid:
lemma-sõnavorm määrsõna- omadussõna kollokatsioonid:
lemma- sõnavorm DA Sag
lemma- sõnavorm DA LL
lemma- sõnavorm DA MI
lemma- sõnavorm DA MS
lemma-sõnavorm omadussõna- määrsõna kollokatsioonid:
lemma- sõnavorm AD Sag
lemma- sõnavorm AD LL
lemma- sõnavorm AD MI
lemma- sõnavorm AD MS
lemma-sõnavorm omadussõna- nimisõna kollokatsioonid:
lemma- sõnavorm AS Sag
lemma- sõnavorm AS LL
lemma- sõnavorm AS MI
lemma- sõnavorm AS MS
lemma-sõnavorm nimisõna- omadussõna kollokatsioonid:
lemma- sõnavorm SA Sag
lemma- sõnavorm SA LL
lemma- sõnavorm SA MI
lemma- sõnavorm SA MS
lemma-sõnavorm tegusõna- omadussõna kollokatsioonid:
lemma- sõnavorm VA Sag
lemma- sõnavorm VA LL
lemma- sõnavorm VA MI
lemma- sõnavorm VA MS
lemma-sõnavorm omadussõna- tegusõna kollokatsioonid:
lemma- sõnavorm AV Sag
lemma- sõnavorm AV LL
lemma- sõnavorm AV MI
lemma- sõnavorm AV MS
lemma-sõnavorm tegusõna- määrsõna kollokatsioonid:
lemma- sõnavorm VD Sag
lemma- sõnavorm VD LL
lemma- sõnavorm VD MI
lemma- sõnavorm VD MS
lemma-sõnavorm määrsõna- tegusõna kollokatsioonid:
lemma- sõnavorm DV Sag
lemma- sõnavorm DV LL
lemma- sõnavorm DV MI
lemma- sõnavorm DV MS
lemma-sõnavorm nimisõna- määrsõna kollokatsioonid:
lemma- sõnavorm SD Sag
lemma- sõnavorm SD LL
lemma- sõnavorm SD MI
lemma- sõnavorm SD MS
lemma-sõnavorm määrsõna- nimisõna kollokatsioonid:
lemma- sõnavorm DS Sag
lemma- sõnavorm DS LL
lemma- sõnavorm DS MI
lemma- sõnavorm DS MS
lemma-sõnavorm nimisõna- nimisõna kollokatsioonid:
lemma- sõnavorm SS Sag
lemma- sõnavorm SS LL
lemma- sõnavorm SS MI
lemma- sõnavorm SS MS
lemma-sõnavorm tegusõna- nimisõna kollokatsioonid:
lemma- sõnavorm VS Sag
lemma- sõnavorm VS LL
lemma- sõnavorm VS MI
lemma- sõnavorm VS MS
lemma-sõnavorm nimisõna- tegusõna kollokatsioonid:
lemma- sõnavorm SV Sag
lemma- sõnavorm SV LL
lemma- sõnavorm SV MI
lemma- sõnavorm SV MS
lemma-sõnavorm tegusõna- tegusõna kollokatsioonid:
lemma- sõnavorm VV Sag
lemma- sõnavorm VV LL
lemma- sõnavorm VV MI
lemma- sõnavorm VV MS
3. Sõnavorm- sõnavorm kollokatsioonid:
sõnavorm-sõnavorm omadussõna- nimisõna kollokatsioonid:
Sõnavorm- sõnavorm AS Sag
Sõnavorm- sõnavorm AS LL
Sõnavorm- sõnavorm AS MI
Sõnavorm- sõnavorm AS MS
sõnavorm-sõnavorm määrsõna- omadussõna kollokatsioonid:
Sõnavorm- sõnavorm DA Sag
Sõnavorm- sõnavorm DA LL
Sõnavorm- sõnavorm DA MI
Sõnavorm- sõnavorm DA MS
sõnavorm-sõnavorm nimisõna- määrsõna kollokatsioonid:
Sõnavorm- sõnavorm SD Sag
Sõnavorm- sõnavorm SD LL
Sõnavorm- sõnavorm SD MI
Sõnavorm- sõnavorm SD MS
sõnavorm-sõnavorm nimisõna- nimisõna kollokatsioonid:
Sõnavorm- sõnavorm SS Sag
Sõnavorm- sõnavorm SS LL
Sõnavorm- sõnavorm SS MI
Sõnavorm- sõnavorm SS MS
sõnavorm-sõnavorm tegusõna- omadussõna kollokatsioonid:
Sõnavorm- sõnavorm VA Sag
Sõnavorm- sõnavorm VA LL
Sõnavorm- sõnavorm VA MI
Sõnavorm- sõnavorm VA MS
sõnavorm-sõnavorm tegusõna- määrsõna kollokatsioonid:
Sõnavorm- sõnavorm VD Sag
Sõnavorm- sõnavorm VD LL
Sõnavorm- sõnavorm VD MI
Sõnavorm- sõnavorm VD MS
sõnavorm-sõnavorm tegusõna- nimisõna kollokatsioonid:
Sõnavorm- sõnavorm VS Sag
Sõnavorm- sõnavorm VS LL
Sõnavorm- sõnavorm VS MI
Sõnavorm- sõnavorm VS MS
sõnavorm-sõnavorm tegusõna- tegusõna kollokatsioonid:
Sõnavorm- sõnavorm VV Sag
Sõnavorm- sõnavorm VV LL
Sõnavorm- sõnavorm VV MI
Sõnavorm- sõnavorm VV MS
Mis on kollokatsioon?
Kollokatsioon on sõnaühend, mida moodustavad sõnad esinevad tekstides koos sagedamini, kui võiks eeldada nende eraldi esinemise sagedustest. Kollokatsioonid võivad olla väga erinevad nii neid moodustavate sõnade arvu poolest kui ka nende sõnade süntaktiliste funktsioonide ja omavaheliste seoste poolest. Nendeks võivad olla nii idioomid (nt hambasse puhuma), mida sõnaraamatud esitavad põhjalikult, kuid mida tekstides harva esineb; ühend- ja väljendverbid, mida samuti sõnaraamatutes tüüpiliselt esitatakse (üle saama, õppust võtma); samuti mitmesugused nimisõnafraasid (nt rohelised mehikesed). Lisaks eelpoolnimetatutele on kollokatsioonid näiteks veel kinnistunud ühendid, mida moodustavad sõnad on ühendis oma tavatähenduses (nt puid lõhutakse, mitte ei tehta katki; kõnet peetakse, aga ei esitata, kuid ettekannet nii peetakse kui esitatakse), mis võõrkeeleõppijatele suurt peavalu valmistavad. Kollokatsioone moodustavad sõnad ei pruugi paikneda lauses vahetult üksteise järel, nt Kass ei saanud priske hiire kaotusest kuidagi üle.
Kollokatsioonide leidja
Eesti keele jaoks on olemas liides kollokatsioonide leidmiseks Tasakaalus korpusest, Koondkorpusest ja viimase allosadest. Selle liidese abil saab kollokatsioone otsida kolmel viisil:
- teatud lemma olulisi kollokaate sõnavormidena;
- teatud lemma olulisi kollokaate lemmadena;
- teatud sõnavormi olulisi kollokaate sõnavormidena.
Nii sisestava lemma või sõnavormi kui ka otsitavate kollokaatide ringi saab piirata nende sõnaliigilise kuuluvusega. Kollokatsioonide tuvastamiseks korpusest kasutatab kollokatsioonide leidja sõnadevahelise seose tugevuse mõõtmiseks kolme statistikut: log-tõepära funktsioon (Log-likelihood LL), vastastikuse informatsiooni väärtus (Mutual Information MI) ja minimaalne tundlikkus (Minimum Sensitivity MS); võrdluseks saab otsida ka lihtsalt esinemissageduse järgi järjestatud sõnapaare ( Sag).
Milleks on head siin esitatavad loendid?
Kollokatsioonide leidja abil saab leida vastavalt päringule üksikuid kollokatsioone, kuid selleks, et teada saada kollokatsioonide pingerida, ongi abiks siin esitatud sagedusloendid kollokatsioonide leidja alusmaterjalist. Tänu pingeridadele on võimalik vaadelda valitud statistiku või lihtsalt kollokatsioonipaari sageduse alusel järjestatud 5000 sagedasemat/olulisemat Tasakaalus korpuses leiduvat kollokatsioonipaari, mis esinesid korpuses kümme või enam korda. Esitatud on sarnaselt kollokatsioonide leidja pakutud võimalustega teatud sõnaliiki kuuluva lemma sagedasemad kollokatsioonid teise lemmaga, teatud sõnaliiki kuuluva sõnavormi sagedasemad kollokatsioonid teise sõnavormiga ja teatud sõnaliiki kuuluva lemma sagedasemad kollokatsioonid sõnavormiga. Sõnaliigipaaridest on järgmised:
- omadussõna- nimisõna (AS)
- määrsõna- omadussõna (DA)
- nimisõna- määrsõna (SD)
- nimisõna-nimisõna (SS)
- tegusõna- omadussõna (VA)
- tegusõna- määrsõna (VD)
- tegusõna- nimisõna (VS)
- tegusõna tegusõna (VV)
Lemma-lemma ja sõnavorm-sõnavorm paarid on sümmeetrilised, see tähendab, et sama tulemuse annavad nii paar lootma V abi S kui ka paar abi S lootma V. Lemma-sõnavorm paarid aga ei ole sümmeetrilised ja seega on nende puhul esitatud eraldi loenditena ka peegelpildis paarid (vrdl juriidiline A isiku S ja isik S juriidilise A), erandiks on nimisõna - nimisõna ja tegusõna- tegusõna lemma- sõnavormi loendid, milles on esitatud mõlemasuunalised paarid ühes loendis nt paarid ema S isa S ja isa S ema S. Seega lemma ja sõnavormi kollokatsioonide hulka lisanduvad veel järgmised „pöördpaarid“:
- omadussõna- määrsõna (AD)
- nimisõna- omadussõna (SA)
- omadussõna- verb (AV)
- määrsõna- nimisõna (DS)
- määrsõna- verb (DV)
- nimisõna- verb (SV)
Kõigist nimetatud kollokatsioonipaaridest on esitatud loendid 5000 sagedasemast/olulisemast korpuses vähemalt 10 korda esinevast paarist, järjestatuna korpuses esinemise sageduse (Sag) ja kolme erineva statistiku (Log-Likelihood (LL), Mutual Information (MI), Minimum Sensitivity (MS) ) järgi.
Kasutatud sõnaliigimärgendid:
_A_ omadussõna - algvõrre (adjektiiv - positiiv), nii käänduvad kui käändumatud, nt kallis või eht
_D_ määrsõna (adverb), nt kõrvuti
_S_ nimisõna (substantiiv), nt asi
_V_ tegusõna (verb), nt lugema