Keeleressursid

Sisene meie keeleressursside registrisse 

Keeleressurss on masinloetaval kujul keeleline andmekogum, mida kasutatakse arvutites loomuliku keele (sh. eesti keele) uurimiseks või keeletehnoloogia arendamiseks.

Siia mõiste alla loetakse ka teiste keeleressursside haldamiseks või töötlemiseks kasutatav tarkvara.

Parema ülevaate saamiseks on Keskuse kaudu kättesaadavad keeleressursid jagatud viide rühma.

  • Tekstikorpused - korpus on tekst, mis on struktureeritud ja arvutile kergemini töödeldavaks tehtud. Korpuseid on nii üldisi (nt. eesti keele baaskorpus) kui valdkonnapõhiseid (nt. jututubade tekstid); nii ühekeelseid kui paralleelkorpusi, mis sisaldavaid tõlkeid mitmes eri keeles. Lisaks algsele tekstile võib korpus sisaldada eri liiki (morfoloogia, süntaks, semantika, isikunimed...) märgendusi.
  • Kõneandmebaasid - kõnekorpused, mis sisaldavad helisalvestusi, vahel koos transkribeeritud tekstiga; kõne sünteesiks vajalikud andmebaasid vastava keele kõnesalvestustest jms.
  • Leksikaalsed ressursid - sõnastikud, terminoloogilised ressursid, mõistete andmebaasid, sagedusloendid jms.
  • Tekstitöötlusvahendid - tekstiliste andmete töötluseks ja haldamiseks mõeldud tarkvara: speller, morfoloogiline analüüs, sõnastike haldamise tarkvara, nimisõnafraaside märgendaja jms.
  • Kõnetöötlusvahendid - kõneandmete töötluseks ja haldamiseks mõeldud tarkvara: tekst-kõne-süntees, kõnetuvastustarkvara ning -rakendused jms.