Grammatilised kategooriad
Sõnaliikide sagedusloend ning käändsõna grammatiliste kategooriate sagedusloendid Tasakaalus korpuse põhjal
Tekstiklassid (tekstitüübid, tekstiliigid, registrid, žanrid) võivad erineda üksteisest nii oma sõnavara kui ka grammatika poolest. Sellealaste uuringute hõlbustamine ongi üks siin avaldatud sõnaliikide ja grammatiliste kategooriate sagedusloendite eesmärke. Siit lehelt leiate sõnaliikide ning käändsõnas avalduvate grammatiliste kategooriate sagedusloendid. Verbivormis avalduvate grammatiliste kategooriate sagedusloendid tulevad 2013. aastal. Siin avaldatud sagedusloendid on koostatud Tasakaalus korpuse põhjal, mis jaguneb kolmeks võrdseks 5 miljoni sõna suurusteks osaks aja-, -ilu ja teaduskirjanduse vahel. Sagedusloendite tegemisel on kasutatud Tasakaalus korpuse morfoloogiliselt ühestatud versiooni. Kasutatud on nn Filosofti morfoloogiliste kategooriate süsteemi, ühestatud on statistilise, trigrammidel põhineva ühestajaga t3sta. Sagedusloendid on koostatud riikliku programmi "Eesti keele keeletehnoloogiline tugi" toel.
Käändsõna grammatiliste kategooriate loendite koostamisel on arvestatud järgmiste sõnaliigi märgendi saanud sõnavormidega:
_A_ omadussõna - algvõrre (adjektiiv - positiiv), nii käänduvad kui käändumatud, nt kallis või eht,
_C_ omadussõna - keskvõrre (adjektiiv - komparatiiv), nt laiem,
_U_ omadussõna - ülivõrre (adjektiiv - superlatiiv), nt pikim,
_S_ nimisõna (substantiiv), nt asi,
_N_ põhiarvsõna (kardinaalnumeraal), nt kaks,
_O_ järgarvsõna (ordinaalnumeraal), nt teine.
_P_ asesõna (pronoomen), nt mina, see
Tabelis 2 on esitatud ka järgmiste sõnaliikide sagedused:
_V_ tegusõna (verb), nt tegema
_D_ määrsõna (adverb), nii täistähenduslikud, pro- kui ka afiksaaladverbid, nt kiiresti, siis, üle (jääma)
_J_ sidesõna (konjunktsioon), nt ja, kui
_K_ kaassõna (pre/postpositsioon), nt maja all, üle tee
_Y_ lühend, nt USA
Teatavasti paiknevad verbi partitsiibivormid verbi ja adjektiivi sõnaklassi piiril; mineviku partitsiibid võivad lauses funktsioneerida nii ühe kui teisena. Verbide partitsiibivormide automaatne morfoloogiline ühestamine ei ole sagedusloendite aluseks olevas korpuseversioonis eriti õnnestunud. Nii otsustati morfoloogilise ühestamise tulemusi siinkohal mitte usaldada ja omadussõna märgendi saanud mineviku partitsiipe (nud- ja tud-vorme) omadussõnade hulka ikkagi mitte arvata, st nud- ja tud-partitsiibid on alati loetud verbideks, hoolimata nende süntaktilisest funktsioonist. Oleviku, st v- ja tav-partitsiibid on alati saanud omadussõna sõnaliigilise märgendi. Arvsõnu võib tekstis kirjutada nii sõnade kui ka numbritega (2 või kaks, 2. või teine). Arvsõnade puhul on välja jäetud nii ainult numbriga kirjutatud (2) kui ka numbrit sisaldavad sõnavormid (2-aastane).
Loendites on kasutatud järgmisi sõnaliikide ja grammatiliste kategooriate lühendeid:
Tabel 1. Käändsõna grammatiliste kategooriate lühendid t3mesta väljundis
ababessiivilmaütlevablablatiivalaltütlevadadessiivalalütlevadtaditiivsuunduv (lühike sisseütlev)allallatiivalaleütlevelelatiivseestütlevesessiivolevggenitiivomastavillillatiivsisseütlevininessiivseesütlevkomkomitatiivkaasaütlevnnominatiivnimetavppartitiivosastavplpluuralmitmussgsingularainsusterterminatiivrajavtrtranslatiivsaav
Sõnaliikide sagedus
Tabelis 2 on esitatud erinevatesse sõnaliikidesse kuuluvate sõnade sagedused Tasakaalus korpuses tervikuna ja allkorpustes eraldi. Loendite tegemisel selgus huvitav tõsiasi, et kuigi Tasakaalus korpuses oli alustekste igas tekstiklassis (ajakirjandus, ilukirjandus, teadus) ühepalju, siis sisaldasid need ühesuurused tekstihulgad käändsõnu erineval hulgal. Nagu näha ka Tabelist 2, eristuvad käändsõnade ja verbide suhte alusel eriti selgelt teadustekstid ja ilukirjandustekstid, üllatav on adjektiivide suur hulk teadustekstides; ilmselt mängib siin olulist rolli asjaolu, et oleviku partitsiibid on loetud omadussõnade hulka.
Edasised sagedusloendid on jagatud nelja ossa, sõltuvalt sellest, millist infot (millist osa morfoloogilisest märgendist) on sageduste arvutamisel arvestatud.
ESIMESES osas on arvutatud täismärgendite (sõnaliik, arv, kääne) sagedused Tasakaalus korpuses tervikuna ning kolmes tekstiklassis eraldi.
TEISES osas on vaatluse all arv ja kääne, koostatud on 5 loendit: 1) käände ja arvu kombinatsioonide sagedus (kõigi käändsõnade kohta kokku, sõnaliiki ei ole arvestatud) Tasakaalus korpuses tervikuna ja kolme tekstiklassi kaupa eraldi (tabel 4); 2) kogu Tasakaalus korpuse käände ja arvu sagedus sõnaliikidevahelise võrdlusena (tabel 5); 3) ajakirjanduse kogu käände ja arvu sagedus jagatud tekstiklassi kaupa (tabel 6); 4) ilukirjanduse kogu käände ja arvu sagedus jagatud tekstiklassi kaupa (tabel 7); 5) teaduskirjanduse kogu käände ja arvu sagedus jagatud tekstiklassi kaupa (tabel 8).
KOLMANDAS osas on võetud vaatluse alla ainult kääne, sarnaselt teise osaga on koostatud 5 loendit: 1) kogu Tasakaalus korpuse käände sagedus jaotatud kolme tekstiklassi kaupa (tabel 9); 2) kogu Tasakaalus korpuse käände sagedus jagatud sõnaliikide kaupa (tabel 10); 3) ajakirjanduse kõik käänded jagatud tekstiklassi kaupa (tabel 11); 4) ilukirjanduse kõik käänded jagatud tekstiklassi kaupa (tabel 12); 5) teaduskirjanduse kõik käänded jagatud tekstiklassi kaupa (tabel 13).
NELJANDAS osas on esitatud arvukategooria sagedus Tasakaalus korpuses tervikuna ja kolmes tekstiklassis eraldi.