Sagedusloendid

Tasakaalus korpuse sagedusloendid:

Sagedusloendid allkorpuste kaupa (iga allkorpus sisaldab 5 miljonit sõna):

Koondloendid:

Sagedusloendite alus

Sagedusloend on koostatud statistilise ühestajaga t3mesta morfoloogiliselt ühestatud ning seejärel reeglipõhise meetodiga järelühestatud Tasakaalus korpuse põhjal. Korpuse koostisosadeks on: 5 miljonit sõna ajalehetekste, 5 miljonit sõna ilukirjandust, 5 miljonit sõna teadustekste. Järelühestamist oli vaja t3mesta-ga mitmeseks jäänud vormide ühestamiseks. Järelühestamise protsessi võib jagada kolme suuremasse ossa:

1) sama analüüsi saanud, aga erinevate lemmadega sõnavormide ühestamine - nt kas sõnavormi talvel lemma on talv või tali. Järelühestamise käigus leiti mitmeseks jäänud lemmadest sobilikum ning see läks ka sagedusloendisse. Sobilikumaks lemmaks peeti seda, mis ühese sõnavormina esines sagedamini samas tekstis või, juhul kui ühe teksti põhjal ei saanud midagi järeldada, siis samas allkorpuses.

2) nud- ja tud-partitsiipide, mis t3mesta väljundis jäävad mitmeseks verbi ja adjektiivi tõlgenduse vahel, ühestamine, nt kas sõnavorm laulnud lausetes Ta on laulnud ooperis või Ta ei ühinenud kiidulaulu laulnud kriitikute arvamusega kuulub verbide hulka ja tema lemma on laulma või adjektiivide hulka ja tema lemma on laulnud. nud- ja tud-partitsiibid saavad järelühestamise käigus alati verbi analüüsi, olenemata nende süntaktilisest funktsioonist lauses.

3) ülejäänud mitmesuste lahendamine.

Statistikat

Kokku esines korpuses sõnu 14438223 (ilma kirjavahemärkideta). Enne järelühestamist oli erinevaid analüüse 16610934, pärast järelühestamist 15000562. Kokku esines korpuses erinevaid sõnavorme 997934, neist 580805 esinesid korpuses vaid ühe korra. Erinevaid sõnavorme, mille analüüs jäi mitmeseks, esines järelühestatud tekstis 18996, nendest enamik said pärisnime märgendi (11940). Ülejäänud (7056) mitmeseks jäänud analüüsiga sõnade seas esines mitmuse ja ainsuse vahelist eristamatust (nt kas sõnavorm on on ainsuse või mitmuse vorm), määrsõna ja sidesõna vahelist eristamatust (nt nagu, kui), kirjavigu, võõrkeelseid sõnu ja muud, mis ei mõjutanud lemmade ja sõnavormide sagedusloendite usaldusväärsust.

Sagedusloendid

Siin on esitatud kolm loendit: lemmade-, sõnavormide- ja nende koondloend. Lemmade sagedusloendis on korpuses 10 või enam korda esinenud lemmad ning sõnavormide sagedusloendis on vähemalt 10 korda esinenud sõnavormid. Koondloendis on ühendatud lemmade ja sõnavormide loendid; on esitatud vähemalt 10 korda esinenud lemma kõik sõnavormid. Lemmade ja sõnavormide sagedusloendid on koostatud ka iga allkorpuse kohta eraldi: ajakirjanduse korpus (5 miljonit sõna), ilukirjanduse korpus (5 miljonit sõna) ja teaduskeele korpus (5 miljonit sõna). Kõigist loenditest on kaks versiooni:

1) sorteeritud sageduse kahanemise järjekorras.

2) sorteeritud tähestiku järjekorras.

Mis sagedusloendist välja jäid?

Lisaks eelnevalt kirjeldatud vähemalt kümne esinemiskorra piirile on sagedusloenditest välja jäetud kirjavahemärgid, lühendid, numbriga kirjutatud arvsõnad, rooma numbrid, pärisnimed, genitiivatribuudid (märgend G morfoloogilise analüsaatori väljundis) ning märgenditega 'kokkukleepunud' sõnad, st korpuse märgendusvead. Lisaks sellele on saadud loenditest hiljem käsitsi eemaldatud võõrkeelseid sõnu ning ka pärisnimesid, mis olid morfoloogiliselt analüsaatorilt saanud muu st mitte-pärisnime analüüsi.