Eesti keele verbikesksete püsiühendite andmebaas
Failide juurde
Sisu
Mitmesõnalised üksused võivad oma süntaktiliselt struktuurilt olla nii noomenifraasid – Egiptuse nuhtlus, löök allapoole vööd, adverbifraasid – läbi ja lõhki, maani täis, adpositsioonifraasid - (kellegi) käe läbi, metsa poole kui ka verbi ja tema seotud laiendi püsivad ühendid – jalga laskma, läbi saama, kõnet pidama.
Meie uurimisrühmas on põhjalikumalt tegeldud just viimast tüüpi püsiühenditega. Oleme koostanud verbikesksete püsiühendite andmebaasi, mille praegune versioon sisaldab umbes 13 000 ühendit.
Mis siin on?
Andmebaas sisaldab verbist ja tema laienditest koosnevaid püsiühendeid. Täpsemalt: andmebaasis on
- ühendverbid (nt üle hüppama, alla käima, juurde võtma);
- verbi ja noomeni püsivad ühendid, sh väljendverbid (lokku lööma, meelde tuletama), tugiverbiühendid (tööd tegema, kõnet pidama) ja kollokatsioonid (selgeks tegema, avaldust esitama).
- ahelverbid ehk finiitse verbi ühendid infiniidiga (sai pidama, pani ajama) on andmebaasi kaasatud ebaregulaarselt.
Mida siin pole?
Verbi ja tema subjekti püsivaid ühendeid (nt asi susiseb) selles andmebaasis pole. Samuti on siit välja jäetud püsiühendid verbiga olema (nt arust ära olema).
Kasutamine
Andmebaasi saab zip-failina alla laadida siit või kasutada ka lihtsat otsingut.
Kuidas tehtud?
Andmebaas koondab 5 inimkasutajale mõeldud sõnastiku andmeid, Filosofti tesauruse materjale ja 20 miljonist sõnast koosnevast tekstikorpusest statistiliste meetoditega leitud püsiühendeid (seda eksperimenti on lähemalt kirjeldatud artiklis Heiki-Jaan Kaalep, Kadri Muischnek (2003). Püsiühendite leidmine suurtest tekstikorpustest. Eesti Keele Instituudi toimetised 12. Toimiv keel I Töid rakenduslingvistika alalt. Eesti Keele Sihtasutus Tallinn, lk. 101-118).
Andmebaasi aluseks on järgmised sõnaraamatud või sõnastikud:
- Sünonüümisõnastik Tallinn 1991
- Fraseoloogiasõnaraamat ETA KKI, Tallinn 1993
- Filosofti tesaurus (http://www.filosoft.ee)
- Partikkelverbide loend teosest Cornelius Hasselblatt "Das Estnische Partikelverb als Lehnübersetzung aus dem Deutschen" Wiesbaden 1990
- Eesti keele mõistelise sõnaraamatu indeks Finsk-ugriska institutsionen, Uppsala, 1979
- Eesti kirjakeele seletussõnaraamat (A - sentimeetririhm) ETA KKI, Tallinn, 1988 - 1999
Andmebaasis on 11 välja, mis on üksteisest koolonitega eraldatud. Väljad sisaldavad järgmist infot:
1. väli: väljend ise
2.väli: ühendi liik. Andmebaasi praeguses versioonis on eristatud järgmisi verbikeskse püsiühendi alaliike:
- yv – ühendverb
- nv – käändsõna ja verbi püsiv ühend. See kategooria sisaldab praegu nii väljendverbe kui ka kollokatsioone
- tv – tugiverbiühend
- av – ahelverb
3.-9. väli
Kas väljend sisaldub mingis kindlas sõnastikus või kas ta tuli statistiliste meetoditega välja korpusest. x tähendab jah, - tähendab ei.
3. väli: Fraseoloogiasõnaraamat
4. väli: Seletussõnaraamat
5. väli: Filosofti tesaurus
6. väli: Hasselblatti ühendverbide loend
7. väli: Mõistelise sõnaraamatu indeks
8 väli: Sünonüümisõnastik
9 väli: statistiliste meetoditega leitud väljendid
10. väli: kas see püsiühend esines 313 000-sõnalises püsiühendite suhtes märgendatud korpuses, arv sellel väljal näitab korpuses esinemiste arvu.
11. väli: väljendi morfoloogiline analüüs. Väli algab märgendiga <morf> ja lõpeb märgendiga </morf>. Eri sõnade analüüsid on üksteisest eraldatud sümboliga {
Väljendi iga sõna(vormi) kohta on antud järgmine info:
sõnavorm lemma+tunnused/lõpud // morfoloogilised kategooriad //
Morfoloogiliste kategooriate märgendite seletused leiate siit.
Näiteks on ühendverb alla võtma esitatud andmebaasis selliselt:
alla võtma:yv:-:x:x:x:-:x:x:1:<morf>{alla alla+0 //_D_ //{võtma võt+ma //_V_ main sup ps ill //{</morf>
Väljendverb ellu viima on esitatud järgmiselt:
ellu viima:nv:x:-:x:-:-:x:-:6:<morf>{ellu elu+0 //_S_ com sg adit //{viima vii+ma //_V_ main sup ps ill //{</morf>
Näites ellu viima on käändsõnalise komponendi morfoloogiline analüüs elu+0 //_S_ com sg adit // st substantiiv elu ainsuse lühikeses sisseütlevas e aditiivis.
Kui püsiühendi käändsõnaline komponent võib tekstis muutuda vastavalt objekti käändevahelduse reeglitele, siis on käändekategooriaks obj
Näiteks võib väljend aega maha võtma esineda tekstis kujul võttis aja maha või võta aeg maha ; see väljend on andmebaasis esitatud järgmiselt:
aega maha võtma:nv:x:x:-:-:-:-:-:0:<morf>{aega aeg+0 //_S_ com sg obj //{maha maha+0 //_D_ //{võtma võt+ma //_V_ main sup ps ill //{</morf>
Vead ja puudused
Tegemist on nö arendatava ressursiga, mistõttu andmebaasis võib olla vigu ja kirjeldusele mittevastavusi. Märgend obj on lisatud 300 000 – sõnalise korpuse andmete ja ühe inimese subjektiivse keeletaju põhjal, st kui väljendit korpuses ei esinenud, siis otsustas inimene.