next up previous contents naprej zakljucek navzgor racunalniske zbirke besedil nazaj procesiranje korpusov multext east v skupini za govor in jezik odseka za inteligentne sisteme na ijs sodelujemo v evropskem projektu multext east multilingual text tools and corpora for central and eastern european languages eipv projekt je podaljsek evropskega projekta multext v katerem so sodelovale institucije iz sestih drzav clanic evropske unije multext east je dvoletni projekt ki se je zacel maja v njem pa sodeluje poleg koordinatorja iz aix en provance in pridruzenega partnerja iz pise se sest skupin iz drzav srednje in vzhodne evrope in sicer bolgarije ceske estonije madzarske romunije in slovenije korpus eden od ciljev multext east je proizvesti standardiziran vecjezikovni korpus ki vsebuje priblizno dva milijona besed sestavljen pa je iz naslednjih delov vzporedni korpus ki vsebuje roman g orwella v originalu in prevode v sestih jezikih projekta priblizno tex html wrap inline besed primerljiv korpus sestavljen iz dveh nadaljnjih delov prvi vsebuje sest leposlovnih del avtorjev iz drzav clanic projekta drugi pa sest zbirk casopisnih clankov v jezikih teh drzav priblizno tex html wrap inline tex html wrap inline besed slovenski del primerljivega korpusa je sestavljen iz romana galjot d jancarja in ih clankov iz casopisa dnevnik govorjeni korpus sestavljen iz ih krajsih odlomkov iz evropskega projekta eurom prevedenih v sest jezikov projekta priblizno tex html wrap inline besed prebranih in digitaliziranih pri cemer bo ta govorjeni korpus poravnan s svojim ortografskim zapisom celoten korpus je oznacen po priporocilu ces poleg bibliografskih oznake vsebujejo strukturne informacije odstavki clanki naslovi premi govor itd ter dolocene ``posebne besede'' npr lastna imena in okrajsave kot primer kako taksne oznacbe izgledajo sta v sliki podana dva fragmenta iz slovenskega in ceskega prevoda figure slika slovenska in ceska fragmenta iz `` '' del korpusa bo tudi dodatno oznacen vsi prevodi bodo stavcno poravnani z originalom medtem ko bo del korpusa oznacen se z oblikoslovnimi oznakami oblikoslovje definicija slovar oznacevanje oblikoslovno oznacevanje je najzahtevnejsi del nadgradnje osnovnega ces korpusa da lahko pol avtomatsko oznacimo besedne oblike v korpusu z njihovimi oblikoslovnimi oznakami so potrebni naslednji koraki definirati je potrebno oblikoslovne kategorije nato izdelati slovar ki za vsako besedno obliko doloci njene mozne oznake sestavljene iz oblikoslovnih kategorij in z njegovo pomocjo polavtomatsko oznaciti besedila figure slika zacetek multext east tabele za glagol ker je projekt vecjezikovni je potrebno oblikoslovne oznake definirati v skupnem formatu za sest jezikov kot primer iz multext east 'slovnice' je v sliki podan zacetek tabele za glagole ta doloca da glagolsko besedo opisuje lastnosti najprej je podana besedna vrsta tj glagol v v tabeli pa vidimo definicijo prvih dveh lastnosti glagola za vsako lastnost je podano ime ter nabor njenih vrednosti imenu vrednosti sledi enocrkovna koda le te ter dolocitev katere jezike opisuje tako npr slovenscina loci glagolske oblike povednika velelnika pogojnika nedolocnika deleznika ter namenilnika ze iz zgornjega bo jasno da dolocitve multext east za oblikoslovje mestoma odstopajo od tradicionalnih kategorij v slovenskih slovnicah tako so npr glagolska delezja in glagolniki razvrsceni med prislove in samostalnike taksna odstopanja so v veliki meri posledica usklajevanja zapisov sestih med seboj zelo razlicnih jezikov posredno pa dvanajstih saj so tabele usklajene tudi z jeziki multext predstavljeni format ima to prednost da je neko oblikoslovno oznako mogoce zapisati v kompaktnem obenem pa se vedno berljivem zapisu tako npr niz vmip s doloca vrednosti verb main indicative present third singular oz povednik glavnega glagola v tretji osebi ednine naslednji korak je izdelava slovarjev ki v multext east vsebujejo gesel za vsakega od sestih jezikov projekta ti slovarji poleg samih korpusov predstavljajo tudi pomemben vir jezikovnih podatkov figure slika fragment multext east slovarja slovarji imajo preprosto pa vendar precej informativno strukturo vsak vnos je sestavljen iz besedne oblike njenega gesla ter njenih oblikoslovnih znacilnosti primer vnosov za besedno obliko beraci je podan v sliki s slovarjem je nato mogoce zaceti oznacevanje besed v korpusu glavni problem taksnega oznacevanja je seveda dvoumnost besednih oblik tako ima beraci stiri mozne interpretacije od katerih bo na dolocenen mestu v besedilu samo ena pravilna kot je bilo ze receno je za avtomatsko dolocanje pravilne oznake mogoce uporabiti statisticne oznacevalnike vendar pa ti potrebujejo rocno oznacen korpus za ucenje ker tak korpus za slovenski jezik pa tudi za ostale jezike projekta razen ceskega ne obstaja bo v okviru projekta potrebno rocno oznaciti del korpusa nato pa v zaporedju vec korakov izsolati oznacevalec rocno popraviti rezultate in postopek nato ponoviti na razsirjeni ucni mnozici ker oznacevalci potrebujejo velike ucne mnozice rocno pregledovanje pa je izredno zamudno delo bodo rezultati projekta tu samo pripravljalni verjetno bo rocno pregledan samo del korpusa ker pa je potrebna velikost ucne mnozice odvisna tudi od stevila moznih oznak bo stevilo oblikoslovnih oznak v besedilu zgosceno glede stevilo slovarskih oznak dostop do rezultatov projekta kot je bilo ze receno projekt se tece vendar je precejsnje stevilo vmesnih rezultatov ze dostopno ker uporaba zgrajenih virov pokaze na napake in pomanjkljivosti teh virov bodo rezultati dostopni v dokoncni obliki sele ob koncu projekta vmesni rezultati pa obsegajo zbran dokumentiran in bibliografsko ter strukturno oznacen korpus definirane oblikoslovne tabele in prvo verzijo slovarja v nadaljevanju projekta je potrebno izdelati se koncne verzije teh virov stavcno paralelizirati vzporedni korpus ter korpus oblikoslovno oznaciti s tem bo izdelanih nekaj osnovnih racunalniskih virov za slovenski jezik ki bodo usklajeni z mednarodnimi standardi in priporocili ter s petimi drugimi jeziki projekta kljub temu da so ti viri premajhni za marsikatero aplikacijo so vendarle pomembni saj bodo prvi tovrstni siroko dostopni viri slovenskega jezika rezultati projekta bodo namrec v neprofitne namene dostopni zastonj vsaj za naso skupino na ijs pa so verjetno bolj kot izdelava samih virov pomembne izkusnje ki smo jih pridobili na projektu saj predstavljajo osnovo na kateri bi bilo mogoce zgraditi referencni korpus slovenskega jezika za popularizacijo rezultatov projekta smo na ijs postavili www stran z naslovom http nl ijs si me ki vsebuje vse osnovne informacije o projektu primere iz korpusa ter slovarjev pa tudi vmesne rezultate projekta next up previous contents naprej zakljucek navzgor racunalniske zbirke besedil nazaj procesiranje korpusov tomaz erjavec