next up previous contents naprej multext east navzgor racunalniske zbirke besedil nazaj standardi in oznacevanje korpusov procesiranje korpusov poudarek prejsnjega poglavja je bil na standardih za opis jezikovnih podatkov seveda pa je programska oprema tista ki nam omogoci nek korpus narediti oziroma izkoriscati ta proces lahko razdelimo na stiri dele od katerih sta prva dva usmerejena v urejanje in eksplicitiranje jezikovne informacije druga dva pa v njeno izkoriscanje tak pristop premakne tezisce dela v izdelavo korpusa s cimer olajsa njegovo uporabo v izdelavi standardiziranega korpusa je dobljena besedila najprej potrebno urediti in strukturno oznaciti s cimer dobimo ekvivalent ces oz ces korpusa korpus lahko s pomocjo oznacevalcev se dodatno oznacimo z jezikovnimi podatki ta dva koraka zahtevata precejsen vlozek cloveskega dela saj je podatke tu potrebno rocno vnasati ali pa vsaj preverjati vendar pa tako pridobimo dokumentiran in standardiziran jezikovni vir ki je izmenljiv in ga lahko s siroko dostopnimi orodji uporabljamo v raznovrstne namene ker orodja za izkoriscanje korpusov dostikrat zahtevajo besedila v sebi lastnem formatu je korpus iz standardiziranega formata potrebno najprej pretvoriti v format orodja vendar pa je za razliko od procesa izdelovanja korpusa ta korak preprost in popolnoma avtomatski zadnji korak je seveda dejanska uporaba korpusa s pomocjo ustreznih programov v nadaljevanju poglavja najprej obravnavamo orodja ki imajo neposredno zvezo s sgml in nato jezikovne oznacevalnike in koncno pregledovalnike korpusov bolj natancen pregled orodij kot je podan tu pa je opisan v erj orodja sgml pri izgradnji korpusa je potrebno dobljene tekste najprej prevesti v sgml in tei ces tekste najprej ocistimo podatkov ki so odvecni namenu korpusa in korpus oznacimo s podatki ki so na enostaven nacin dosegljivi iz tipografskih vzorcev v besedilih ta pretvorba se tipicno izvede z adhoc programi napisanih v kateremu od programskih jezikov ki je mocan v iskanju in nadomescanju nizov za bolj pogoste formate zapisa besedil pa obstajajo tudi ze napisani programi ki dokument pretvorijo v osnoven zapis sgml v tej fazi je tudi potrebno poskrbeti za glave posameznih besedil in celotnega korpusa saj naj bi bil korpus bibliografsko pravno urednisko oznacen ko je korpus vsaj v minimalnem zapisu sgml je nad njim ze mogoce uporabljati orodja sgml programsko opremo ki se 'zaveda' standarda sgml je mogoce kupiti kar nekaj taksnih programov ali pa knjiznic pa je tudi prosto dostopnih osnovno orodje je razclenjevalnik sgml ki preveri ali je nek dokument v skladu s svojo definicijo tipa in definira vsak element glede na njegovo mesto v tej definiciji drugi programi omogocajo enostaven vnos dokumetov iskanje podatkov v dokumentih ali pa pretvorbo iz zapisa sgml v ciljni zapis npr za tiskanje ali prezentacijo na www ali pa v format ki ga pozna nase orodje za pregledovanje korpusov ker tei zapis vsebuje vec eksplicitne informacije kot pa originalni zapis je pretvorbo v tei zapis potrebno vloziti sorazmerno dosti dela cetudi so na voljo programi ki bi konverzijo avtomaticno opravljali ti niso nezmotljivi poleg tega pa prevod v rigorozni zapis sgml pogosto razkrije napake in nekonsistence v originalnih besedilih taksne napake lahko bodisi popravimo bodisi jih oznacnimo kot napake dodatno jezikovno oznacevanje se sicer tudi lahko ze dogaja v sgml vendar je poudarek tu ze na jezikovnem znanju teh orodij zato so obravnavana v naslednjem razdelku jezikovno oznacevanje ze za avtomatsko oznacevanje osnovnih jezikovnih informacij npr datumov ali pa stavkov je potrebno nekaj znanja o jeziku standardna oblika zapisa datumov se razlikuje od jezika do jezika lahko pa je datum ki ga hocemo kot takega oznaciti napisan tudi z besedami ali pa samo delno za taksna oznacevanja se tipicno uporablja adhoc programje ceprav so pocasi ze na voljo orodja ki ta proces vsaj do dolocene mere parametrizirajo glede na jezik korpusa kaj tocno hocemo v besedilu oznaciti je seveda odvisno od namembnosti korpusa tu bomo omenili dva programa ki sta se posebej zanimiva za jezikoslovne in slovaropisne obravnave prvi oblikoslovno oznaci besede v besedilu drugi pa stavcno poravna vzporedni korpus oba pa spadata v razred programov ki izkoriscajo statisticne lastnosti jezika kot je bilo ze omenjeno so taksni programi v zadnjem casu predmet velikega zanimanja cha saj so robustni in se lahko ucijo iz rocno oznacenimi besedili za oblikoslovno oznacevanje besed v korpusu je potrebno najprej imeti slovar ali pa program ki za besedne oblike doloci njihove mozne oblikoslovne oznacbe vendar pa ima neka besedna oblika ponavadi vec moznih interpretacij tako je npr beraci lahko glagol v velelniku ali povedniku ali samostalnik v imenovalniku ali orodniku v konkretnem besedilu pa bo besedna oblika imela seveda samo eno pravilno oznacbo naloga programov za oblikoslovno oznacevanje je izmed moznih oblikoslovnih oznacb neke besede glede na sobesedilo dolociti njeno pravo oznacbo izdelanih je bilo ze vec oznacevalnikov ki se lahko naucijo zakonitosti nekega jezika iz rocno oznacenih korpusov najbolj odmeven je bil verjetno t i oznacevalnik xerox ckps ki z uporabo t i skritih markovskih verig doloci najbolj verjetno zaporedje oblikoslovnih oznacb besed v nekem stavku program ne izvaja skladenjske analize pac pa izkorisca lokalni kontekst besede za dolocitev njene oznake za angleski jezik doseze ta in njemu podobni oznacevalci priblizno natancnost za slovanske jezike je kot kazejo preliminarni rezultati za ceski jezik hh ta natancnost verjetno manjsa in sicer priblizno povsem drug nacin oznacevanja pride v postev pri vzporednih korpusih tu je koristno dolociti kateri del originalnega besedila ustreza kateremu delu prevoda taksna paralelizacija je lahko bolj ali manj natanca dolocimo lahko npr samo povezave po poglavjih ali pa vse do povezav konkretnih besed v besedilu z njihovimi prevodi tudi tu je mogoce s statisticnimi metodami doseci zadovoljive rezultate eden bolj zanimivih taksnih programov je opisan v gc njegova odlika je predvsem enostavnost saj samo iz stevila znakov sklepa na najbolj verjetno povezavo med stavki originala in stavki prevoda tako z enostavnim orodjem dosezemo ze precej koristen nivo paralelizacije vsem programom za jezikovno oznacevanje je skupno da je njihova tocnost manj kot popolna za kvaliteten korpus je zato koristno da so dobljene oznake se rocno pregledane vendar pa to za velike korpuse postaja skorajda nemogoce po drugi strani pa tudi ljudje ne oznacujejo popolnoma tocno poleg enostavnih napak je problem tudi v tem da vsako oznacevanje predstavlja interpretacijo besedila ta pa se lahko od cloveka do cloveka razlikuje pregledovalniki nad oznacenim korpusom lahko uporabimo raznovrstne programe od katerih so najbolj zanimivi pregledovalniki ti morajo biti sposobni poiskati zeljene dele korpusa in informacijo ustrezno predstaviti najbolj znana oblika predstavitve informacij iz korpusa so konkordance predvsem v t i obliki kwic 'key word in context' tu so pojavitve izbrane besede ali sobesedja v korpusu poravnano izpisane skupaj s svojim sobesedilom figure slika primer kwic izpisa konkordanc kot primer konkordanc je v sliki podano nekaj pojavitev besede mulatjera korpus iz katerega je bila ta konkordanca narejena je racunalniska konferenca gore iz omrezja slon kot zanimivost se povejmo da te besede ne najdemo niti v verbincevem slovarju tujk niti v slovarju slovenskega knjiznega jezika bolj kot iskanje posameznih besed je zanimivo iskanje sobesedij te t i kolokacije namrec lahko razkrijejo vezave besed tako s skladenjskega kot s pomenskega stalisca nacin pregledovanja je podoben kot pri kwic obstajajo pa tudi programi ki avtomatsko izberejo sobesedaj ki so statisticno in zato verjetno tudi jezikovno signifikantne moznost iskanja kolokacij je toliko bolj zanimiva za oznacene korpuse saj tu lahko iscemo ne samo sopojavitve besed temvec tudi bolj abstraknih kategorij koncno je tu se paralelno prikazovanje vzporednih korpusov prikaz je tipicno v dveh poravnanih kwic oknih iskalni jezik orodij ki taksne korpuse podpirajo pa razsirjen tako da se lahko kriteriji za iskanje nanasajo na vec vzporednih besedil natancneje ko so korpusi povezani bolj podrobno je lahko taksno iskanje zanimivo je da so vzporedni korpusi primerni tudi za enojezikovne raziskave tako npr iskanje vseh pojavitev neke besede katere prevod se ne pojavi v prevodu stavka v katerem se beseda nahaja hitro pokaze na idiomatske uprabe te besede programe za prikazovanje korpusov je mozno kupiti nekateri so pa tudi prosto dostopni vendar je zagotovitev ustreznega pregledovalnika se vedno problematicna saj vsi ne tecejo na vseh racunalniskih platformah imajo nepopolno funkcionalnost ali pa ne delujejo pravilno za slovenski jezik glede na veliko razsirjenost tei za zapis korpusov se v zadnjem caso posebno pozornost posveca pregledovalnikom ki delujejo nad oznacenimi korpusi sgml taksni pregledovalniki imajo prednost da lahko izkoristijo vse oznake npr bibliografske in da so v precej vecji meri jezikovno neodvisni next up previous contents naprej multext east navzgor racunalniske zbirke besedil nazaj standardi in oznacevanje korpusov tomaz erjavec