Lemmade ja sõnavormide mitmikute (n-grammide) sagedusloendid Tasakaalus korpuse põhjal
Loendite koostamispõhimõtete kohta lugemiseks kerige palun allapoole.
Loendid:
1. paarid e kaksikud e bigrammid:
sõnavormipaarid kogu Tasakaalus korpuses
lemmapaarid kogu Tasakaalus korpuses
sõnavormipaarid ilukirjanduses
lemmapaarid ilukirjanduses
sõnavormipaarid ajakirjanduses
lemmapaarid ajakirjanduses
sõnavormipaarid teaduses
lemmapaarid teaduses
2. kolmikud e trigrammid:
sõnavormide kolmikud kogu Tasakaalus korpuses
lemmade kolmikud kogu Tasakaalus korpusest
sõnavormide kolmikud ilukirjanduses
lemmade kolmikud ilukirjanduses
sõnavormide kolmikud ajakirjanduses
lemmade kolmikud ajakirjanduses
sõnavormide kolmikud teaduses
lemmade kolmikud teaduses
3. nelikud e tetragrammid:
sõnavormide nelikud kogu Tasakaalus korpuses
lemmade nelikud kogu Tasakaalus korpuses
sõnavormide nelikud ilukirjanduses
lemmade nelikud ilukirjanduses
sõnavormide nelikud ajakirjanduses
lemmade nelikud ajakirjanduses
sõnavormide nelikud teaduses
lemmade nelikud teaduses
Sagedusloendid on koostatud riikliku programmi "Eesti keele keeletehnoloogiline tugi" toel.
Mitmikute all on siinkohal mõeldud üksteisele vahetult järgnevate sõnade paare, kolmikuid või nelikuid. Mitmikud ja kollokatsioonid ei ole sünonüümsed mõisted, kollokatsioonide all mõeldakse kahe või enama sõna koosesinemist mingis kindlalt defineeritud naabruses (näiteks osalauses), kusjuures kollokatsiooni moodustavad sõnad ei pruugi (aga võivad) paikneda tekstis kõrvuti. Nii moodustavad sõnad ajas, pilli ja lõhki kollokatsiooni, aga mitte kolmiku lauses (1) ja nii kollokatsiooni kui ka kolmiku lauses (2).
(1) Siis aga ajas vihane herilane pilli hoopis lõhki.
(2) Vihane herilane ajas pilli lõhki.
Siin avaldatud mitmikute e n-grammide sagedusloendid on koostatud Tasakaalus korpuse põhjal, mis jaguneb kolmeks võrdseks 5 miljoni sõna suurusteks osaks aja-, -ilu ja teaduskirjanduse vahel. Loendid on koostatud nii Tasakaalus korpuse kui terviku kui ka iga allkorpuse kohta eraldi. Koostatud on nii sõnavormidest koosnevate mitmikute kui ka sõnade algvormidest e lemmadest koosnevate mitmikute sagedusloendid. Tekstisõna lemma tuvastatakse morfoloogilise analüüsi ning ühestamise käigus ja nii on sagedusloendite tegemisel kasutatud Tasakaalus korpuse morfoloogiliselt ühestatud versiooni. Kasutatud on nn Filosofti morfoloogiliste kategooriate süsteemi, ühestatud on statistilise, trigrammidel põhineva ühestajaga t3sta.
Sõnavormide mitmikute leidmisel on kõik tekstisõnad teisendatud läbivalt väiketähelisteks, st pärisnimesid ja üldnimesid ei saa eristada. Lemmade mitmikute sagedusloendites on suur- ja väiketähtede erinevus alles, st päris- ja üldnimesid saab eristada.
Mitmikud sisaldavad lisaks tekstisõnadele või lemmadele ka kirjavahemärke, millest sagedasim on koma, st sagedasimate sõnapaaride hulgas on ka , et ja kolmikute hulgas selleks , et. Kui kasutaja ei soovi kasutada kirjavahemärke sisaldavaid mitmikuid (või soovib just ainult kirjavahemärkidega mitmikuid), siis on kirjavahemärkidega töötamise lihtsustamiseks kirjavahemärkidele lisatud lühend #Z# lemmade loetelus ja lühend #z# sõnavormide loetelus. Tänu sellele on soovi korral võimalik kõik kirjavahemärke sisaldavad mitmikud hõlpsasti kustutada või siis vastupidi uurida ainult kirjavahemärke sisaldavaid ridu. Loendid ei sisalda kirjavahemärke '(' ja ')', sulud on mitmikute loenditest eemaldatud.
Mitmikute loendid sisaldavad ka numbriga kirjutatud arvsõnu ja lühendeid.
Siin avaldatud sagedusloenditesse on võetud ainult need mitmikud, mis esinesid vaatluse all olnud korpuses vähemalt 10 korda.
Mitmikute arvu piiramisega muutus sõnavormide ja lemmade mitmikute sagedusvahekord: unikaalseid sõnavormide mitmikuid esines korpuses rohkem kui unikaalseid lemmade mitmikuid, aga kui arvesse võeti ainult 10 ja rohkem kordi esinevad mitmikud, siis nende hulgas oli lemmade mitmikuid rohkem kui sõnavormide mitmikuid (võrdle tabeleid 1, 2, 3 tabelitega 4, 5, 6). Sõnavormide mitmikute loetelust välja jäävad vähem kui 10 korda esinevad sõnavormide kooslused koonduvad kokku lemmade koosluseks, mis esineb kümme või enam korda ja on nii esitatud lemmade mitmikute loendis.
Mitmikute koostamisel pole arvestatud sõnade ühtlast või ebaühtlast jaotumist Tasakaalus korpuse allkorpuste ja tekstide vahel. Võib esineda juhtumeid, kui mingi sõnajärjend on sage, kuid seda järjendit leidub ainult ühes Tasakaalus korpuse tekstis. Mõnevõrra aitab seda ebaühtlast jaotust tasakaalustada see, et loenditesse on sisse võetud vähemalt kümme korda esinevad mitmikud, nii jäävad loenditest välja väikese teksti piires esinevad mitmikud. Samas ei aita see juhtumite vastu, kus ühes tekstis on läbivalt kasutatud korduvat sõnajärjendit, mida teistes korpuse tekstides ei kasutata. Samas joonistub sagedaste mitmikute kaudu välja ka tekstiklassile iseloomulik sõnade järjend, nt teadustekstides esineb mitmik käesolevas töös on, mida teistes tekstiklassides ei kasutata.
Statistikat
Kokku on koostatud kolme erineva suurusega mitmikute loendid (paarid e kaksikud e bigrammid, kolmikud e trigrammid ja nelikud e tetragrammid) kogu Tasakaalus korpuse ja selle kolme allosa põhjal. Seega moodustub 3*4=12 loendit.
Loenditest on eemaldatud korpuse morfoloogiliselt analüüsitud versioonis esinevad lause alguse ja lõpu märgendid </s> ja <s> ; sulgusid sisaldavad kollokatsioonide read, näiteks jt (1998) ja read, mis sisaldavad kahte või enamat kirjavahemärki, näiteks ,viskama ja nurgadiivan ,. Loendid on sorteeritud ja järjestatud sageduse kahanemise järjekorras. Esitatud loendites on vähemalt 10 korda esinenud mitmikud.
Tabelites 1, 2 ja 3 on esitatud Tasakaalus korpuses vähemalt 10 korda esinenud sõnavormide ja lemmade mitmikute esinemise sagedused jaotatult kogu Tasakaalus korpuse ja selle kolme tekstiklassi vahel.
nelikud
td>td>td>
Tasakaalus korpus | sõnavormi mitmikute sagedus | lemma mitmikute sagedus |
kõik | 9076 | 16615 |
aja | 1500 | 2917 |
ilu | 3300 | 6749 |
tea | 2398 | 3615 |
Tabel 1. Rohkem kui 10 korda esinenud nelikute hulk Tasakaalus korpuses ja selle allosades
kolmikud
Tasakaalus korpus | sõnavormi mitmikute sagedus | lemma mitmikute sagedus |
kõik | 43670 | 65584 |
aja | 9637 | 14903 |
ilu | 17256 | 26853 |
tea | 10375 | 15173 |
Tabel 2. Rohkem kui 10 korda esinenud kolmikute hulk Tasakaalus korpuses ja selle allosades
kaksikud
Tasakaalus mitmikute korpus | sõnavormi mitmikute sagedus | lemma mitmikute sagedus |
kõik | 138544 | 155864 |
aja | 39497 | 50051 |
ilu | 50893 | 54762 |
tea | 41948 | 55309 |
Tabel 3. Rohkem kui 10 korda esinenud kaksikute hulk Tasakaalus korpuses ja selle allosades
Nagu näha, kõige rohkem leidub erinevaid vähemalt kümme korda esinevaid mitmikuid korpuse ilukirjanduse osas ning kõige vähem ajakirjanduse tekstides.
Sõnavarastatistikast on teada seaduspära, et üks kord esinevad sõnad moodustavad selle korpuse /teksti sõnavarast umbes poole. Võrreldes tabelit 1 tabeliga 4, tabelit 2 tabeliga 5 ja tabelit 3 tabeliga 6, näeme, et kõigist Tasakaalus korpuses esinenud sõnavormide nelikutest esinesid vaid 0,08% rohkem kui 10 korda ja tervelt 97% ainult ühe korra. Tasakaalus korpuse lemmade nelikutest esines ainult ühe korra 76% ja rohkem kui 10 korda 0,33%. Sõnavormide kaksikutest esinesid ainult ühe korra 81% ja 10 või rohkem korda 2%. Lemmade kaksikutest esinesid ainult ühe korra 76% ja 10 või rohkem korda 3%.
Alljärgnevates tabelites 4, 5 ja 6 on näha, kui palju esines korpuses kokku mitmikuid (st siin on esitatud mitmike sagedus arvestades ka korpuses alla kümne korra esinenud mitmikuid) ja kui suure osa neist moodustasid sõnade ühekordsed koosesinemised.
nelikud
Tasakaalus korpus | sõnavormi mitmikute sagedus | neist 1 kord | lemma mitmikute sagedus | neist 1 kord |
kõik | 11700325 | 11340636 | 11277113 | 10798089 |
aja | 3952982 | 3883418 | 3867422 | 3768283 |
ilu | 4131481 | 4025433 | 3942796 | 3786123 |
tea | 3719791 | 3564570 | 3642931 | 3458774 |
Tabel 4. Nelikute hulk Tasakaalus korpuses ja selle allosades
kolmikud
Tasakaalus korpus | sõnavormi mitmikute sagedus | neist 1 kord | lemma mitmikute sagedus | neist 1 kord |
kõik | 11352391 | 10510398 | 10112500 | 9077246 |
aja | 3964840 | 3756338 | 3661717 | 3384829 |
ilu | 3982505 | 3694934 | 3469303 | 3114081 |
tea | 3765643 | 3465735 | 3490457 | 3123692 |
Tabel 5. Kolmikute hulk Tasakaalus korpuses ja selle allosades
kaksikud
Tasakaalus korpus | sõnavormi mitmikutesagedus | neist 1 kord | lemma mitmikute sagedus | neist 1 kord |
kõik | 7091668 | 5760968 | 5000628 | 3784287 |
aja | 2761718 | 2326100 | 2064043 | 1623931 |
ilu | 2428911 | 1986740 | 1687784 | 1295874 |
tea | 2669528 | 2154197 | 1984012 | 1478192 |
Tabel 6. Kaksikute hulk Tasakaalus korpuses ja selle allosades