Suulise eesti keele korpus
Tartu ülikooli suulise eesti keele korpust (SEKK) on kogutud alates 1997. aastast. Korpus on koostatud avatud universaalse korpusena. Selles ei ole ette määratud kogutava materjali hulka ega tekstiliikide mahulisi proportsioone.
Materjali kogumine lähtub suhtlussituatsioonidest, mitte kindlate keeleliste omadustega tekstidest. Korpus hõlmab erinevaid suhtlussituatsioone, et võimaldada uurida erinevaid keelevariante (argine ja institutsionaalne suhtlus), erinevaid suhtlusvaldkondi (argivestlus, teenindus, kauplus jms), erineva sotsiaalse taustaga inimeste keelekasutust (mehed ja naised, erinev vanus ja haridus jne).
Korpuses on spontaansed suulised tekstid, mitte päheõpitud ega paberilt maha loetud lood. Valdavalt on need dialoogid ja polüloogid, vähe on monolooge (jutlused, loengud, ettekanded jms).
Lühemad institutsionaalsed dialoogid on transkribeeritud tervikuna, pikemad institutsionaalsed dialoogid ja argivestlused on praegu transkribeeritud osaliselt, tüüpiliselt 5–15-minutiste lõikudena.
Nimed, telefoninumbrid, aadressid jm suhtlejate või vestluses ette tulevate inimeste identifitseerimist võimaldavad andmed on transkriptsioonides eetilistel põhjustel asendatud.
Korpuse osad:
- salvestised,
- transkriptsioonid,
- taustakirjeldused.
Korpuse materjal on korrastatud suhtluste kaupa, mis omakorda on süstematiseeritud kesksete keelekasutuse valikutega seotud situatsioonitunnuste põhjal:
- argine ja institutsionaalne (avalik) suhtlus;
- dialoogid ja monoloogid;
- vahetu (silmast silma), telefoni- ja meediasuhtlus.
Iga suhtlus kannab korpuses vastavat koodi (nt in_di_va_37 on institutsionaalne vahetu dialoog number 37). Number märgib teksti korpusesse jõudmise järjekorda.
100 000 sõna korpusest on aastail 2002-2003 märgendatud morfoloogiliselt.
Suulise keele korpusega on seotud Tartu ülikooli dialoogikorpus EDiK. See on koostatud eesmärgiga modelleerida inimese ja arvuti omavahelist suhtlust. Selle üheks osaks on suulise keele korpusest valitud institutsionaalsed infodialoogid, milles klient soovib saada ametnikult mingit infot (helistamine infotelefonile, polikliiniku registratuuri jms) ning argised argumenteerimisdialoogid. EDiK-i tekstid on märgendatud dialoogiaktide (=suhtlustegevuste) kaupa. Aktide liigitamiseks on kasutatud Tartu ülikooli suulise keele uurimisrühma loodud tüpoloogiat ning akti määramiseks vestlusanalüüsi meetodit robustsel kujul.
Korpuse kasutamiseks on oluline võimalus leida sealt sõnavorme ning variante. Selleks on loodud otsingumootor, mis lubab otsida sõnavormide variante seotuna kasutajate ja situatsioonide kesksete omadustega. Kuna korpus ei ole avalik, siis ei ole ka otsingumootor avalikult kasutatav. Otsingumootori demoversioon.