next up previous contents naprej standardi in oznacevanje korpusov navzgor racunalniske zbirke besedil nazaj kazalo uvod korpus je zbirka besedil ki so izbrana tako da karakterizirajo stanje ali raznovrstnost nekega jezika uporaben je kot osnova na kateri gradimo opise jezika ali pa kot sredstvo za preverjanje hipotez o jeziku korpusi so dandanes ze standardno shranjeni na racunalnikih saj ti po eni strani omogocajo kompaktno in poceni hranjenje ter razpecevanje ogromnih kolicin besedil po drugi strani pa ta besedila lahko z njimi bolj ucinkovito izkoriscamo uporabnost nekega korpusa je odvisna od njegove velikosti pa tudi urejenosti tj kako podrobno je dokumentiran in oznacen ter standardiziranosti njegovega zapisa veja jezikoslovja ki je korpuse tradicionalno uporabljala je leksikografija pri izdelavi slovarjev metode introspekcije ne zadoscajo in se je nujno opreti na govor parole v formalnem in racunalniskem jezikoslovju ta pristop ni nujno edini nekaj zgodovine racunalniski korpusi in predvsem kvantitativne obravnave le teh so bile popularne ze v petdesetih in sestdesetih letih nato pa so dozivele zaton predvsem zaradi velikega vpliva teorij n chomskega pretvorbeno tvorbena slovnica in njene naslednice namrec jemljejo kot predmet preucevanja ``notranji jezik'' tj clovesko sposobnost produkcije jezika kriterij za ustreznost primerov ki jih ti pristopi obravnavajo je obcutek govorcev o njihovi pravilnosti zbirke jezika so tako manj zanimive saj vsebujejo napake in motece elemente po drugi strani pa relativno malo teoreticno zanimivih primerov ne samo v formalnem temvec tudi v racunalniskem jezikoslovju je od konca sestdesetih in priblizno do sredine osemdesetih let v ospredju zanimanje za formalizacije jezika ki temeljijo na pravilih in udejanjajo idealizirano znanje govorcev jezika faktorjev ki so v osemdesetih letih vplivali na ponovni prodor empiricno podprtega jezikoslovja je vec programi za skladenjsko analizo so sicer lahko minuciozno razclenili neki tocno dolocen stavek vendar pa so dosegali zelo slabe rezultate na odprtem besedilu razlog za to je bil predvsem v premajhnem pokritju njihovih slovarjev in pravil pri cemer pa je izdelava teh podatkov izredno zamudno pa tudi zahtevno delo ta problem t i ``knowledge acquisition bottleneck'' je tipicen ne samo za racunalnisko jezikoslovje pac pa za vecino podrocij umetne inteligence postalo je jasno da je za napredek tega podrocja potrebno zaceti zajemati vire informacij o domeni obravnave npr o onesnazenosti jezer ali diagnozah bolnikov in se na njihovi osnovi pol avtomatsko uciti zakonitosti ki v tej domeni vladajo v racunalniskem jezikoslovju so taksni jezikovni viri se posebej kompleksni in je njihovo zbiranje temu primerno tezje s cimer postane tudi rezultat toliko pomembnejsi zbiranje se je osredotocilo na bolj ali manj formalno zapisane racunalnisko berljive slovarje predvsem pa na korpuse kot osnovne vire jezika obenem je nova generacija programov ki temeljijo na statisticnih zakonitostih besedila pokazala obetavne rezultate ti programi so po svoji naravi sicer nepopolni so pa bolj robustni in imajo v povprecju precej vecje pokritje od simbolicnih pristopov poleg tega pa se lahko ucijo iz primerov lazje je rocno oznaciti neko besedilo na katerem se bo program ucil kot pa pisati pravila ki naj bi te oznacbe zagotovila poleg tega je rocno oznacen ali pregledan jezikovni vir lahko koristen tudi v druge namene rocno napisana pravila pa uporabna samo skupaj s programom za katerega so bila napisana to nas pripelje do pomembne razlike med racunalniskimi korpusi petdesetih let in sedanjimi korpusi v pedesetih letih so bila besedila tipicno zbrana za neki povsem dolocen namen in v formatu ki ga je podpirala programska oprema ki naj bi besedilo obdelala ker jezikovni viri danes pomenijo dragoceno blago ki ga je potrebno ohraniti pa tudi siriti se v njihovo izdelavo vlaga vec truda zapisuje pa se jih v skladu z mednarodnimi standardi in priporocili nenazadnje je bliskoviti dvig kolicine in kvalitete racunalniskih korpusov pripisati tudi tehnoloskemu napredku na podrocju racunalnistva in z njim spremembi glavne namembnosti racunalnikov racunalniki se vedno bolj uporabljajo kot orodje za procesiranje besedil s cimer postajajo t i jezikovne tehnologije profitno podrocje obenem pa se zacenja vprasanje ``racunalniske pismenosti'' nekega jezika povezovati z njegovo identiteto programi ki naj bi pomagali pri pripravi izmenjevanju urejanju predstavitvi in dostopu do jezikovnih informacij za neki jezik tipicno potrebujejo urejene vire znanja o tem jeziku do taksnih virov najlaze pridemo s pomocjo besedilnih zbirk obenem je vse vec besedil dostopnih neposredno na racunalnikih in jih je temu primerno lazje pretvoriti v korpus v ilustracijo napredka racunalniskih korpusov lahko primerjamo velikost prvega oznacenega referencnega korpusa z danasnjimi korpusi britanske anglescine korpus lob lancaster oslo bergen gls izdelan leta je vseboval milijon besed korpus bnc british national corpus izdelan leta pa sto milijonov besed v tiskani obliki bi ta besedila zavzela priblizno deset metrov polic na kolicino korpusov in zanimanje zanje kaze tudi ustanovitev ``posredniskih his' za korpuse in druge jezikovne vire tako je bil leta v zdruzenih drzavah z vladno podporo ustanovljen linguistic data consortium ki zdruzuje v svoji ponudbi preko stirideset pisnih in govorjenih korpusov ter slovarskih baz pred nedavnim je tej pobudi sledila tudi evropska unija s financiranjem ustanovitve organizacije elra european linguistic resources association kolicina in raznovrstnost jezikovnih virov je seveda najvecja za anlgeski jezik v zadnjih desetih letih je bilo mnogo taksnih virov na prvem mestu korpusov izdelanih tudi za jezike evropske unije k cemer so v veliki meri prispevale tudi iniciative evropske unije za jezike vzhodno in srednjeevropskih drzav je stanje slabse in obenem precej raznovrstno dolocene drzave imajo na podrocju racunalniskega jezikoslovja ze dolgo tradicijo npr ceska in madzarska kar se odraza tudi v stanju njihove jezikovne infrastrukture tako imajo npr na filozofski fakulteti v pragi ze oddelek katerega edina naloga je zagotoviti milijonov besed velik referencni korpus ki bo nato podlaga novemu slovarju ceskega jezika v sloveniji dostopnih in obenem standardiziranih jezikovnih virov se nimamo edini javni referencni korpus slovenskega jezika top je precej majhen obstaja samo v knjizni obliki in je star dvajset let svetla izjema temu stanju so na www objavljena besedila slovenskih klasikov hla ki imajo prednost da so dostopna in ze do precejsnje mere urejena ravno tako pa glede na svojo starost vecinoma ne podlezejo vec zakonu o avtorskih pravicah vendar pa ravno zaradi starosti besedil ne podajajo slike sodobnega slovenskega jezika dosti slovenskih besedil ki bi bila lahko osnova za korpuse obstaja seveda tudi v racunalniski obliki vendar pa niso standardizirana predvsem pa je njihova dostopnost omejena na institucije ki so jih proizvedle npr zalozbe casopisne hise ali pa na institucije ki so sodelovale v njihovi pripravi tipologija korpusov s sirjenjem racunalniskih korpusov se je pojavila tudi potreba po ovrednotenju ter razvrstitvi korpusov z opisom karakteristik s katerimi lahko neki korpus ovrednotimo in z definiranjem zvrsti korpusov ki jih je med seboj smiselno razlikovati se je ukvarjala skupina za tipologijo korpusov pri evropski iniciativi eagles expert advisory group for language engineering po tipologiji eagles sin so karakteristike nekega korpusa naslednje velikost tj kolicina podatkov ki jih neki korpus vsebuje kakovost njegove izdelave avtenticnost glede na kriterije po katerih je bil zgrajen enostavnost njegovega zapisa dokumentiranost zvrsti korpusov pa so referencni korpusi ki predstavljajo osnovno zvrst korpusa in sluzijo kot jezikovni standardi posebna pozornost se pri taksnih korpusih posveca izbiri komponentnih besedil saj naj bi tak korpus predstavljal idealizirano podobo nekega jezika primer taksnega korpusa je prvi siroko dostopni racunalniski korpus in sicer korpus brown ameriske anglescine kf ki vsebuje skrbno uravnotezenih odlomkov iz petnajstih jezikovnih zvrsti ki segajo od religije preko znanstvene fantastike do humorja referencne korpuse kontrastiramo s specializiranimi korpusi ki sluzijo nekemu tocno docenemu namenu in oportunisticnimi korpusi ki so zbrani glede na dane moznosti in sluzijo kot cenena inacica referencnih korpusov govorjeni in govorni korpusi vsebujejo za razliko od pisnih korpusov govor oziroma transkripcijo govora lahko bi trdili da so edino taksni korpusi avtenticni saj se jezik primarno konstituira skozi govor in ne pisano besedo taksni korpusi se v velikih kolicinah pojavljajo sele v zadnjem casu predvsem zato ker so zanimivi za avtomatsko procesiranje govora kot enega bolj prodornih podrocij jezikovnih tehnologij korpusi podjezikov so omejeni in specializirani saj zajemajo jezik v tocno doloceni funkciji vsebujejo npr tehnicne prirocnike nekega podrocja ali pa posnetke dialogov med piloti in stolpom na letaliscih taki korpusi so ponavadi tudi zbrani za dolocen namen vzorcni korpusi niso sestavljeni iz celotnih besedil temvec iz fragmentov besedil tako je npr korpus brown sestavljen iz enakomerno dolgih pasosov po dva tisoc besed razlogi za izdelavo vzorcnega namesto celostnega korpusa so predvsem zgodovinske ali pa pravne narave kapacitete racunalnikov so bile vcasih dosti manjse pa tudi racunalnisko berljivo besedilo je bilo tezje dostopno poleg tega pa lastniki besedil prej kot vkljucitev celotnih besedil dopustijo vkljucitev fragmentov svojih besedil v neki korpus saj s tem otezijo moznost neavtoriziranega ponatisa teh besedil seveda pa je vzorcni korpus manj kvaliteten od celostnega saj ne podaja integralne podobe besedil ki jih zajema spremljevalni korpusi so za razliko od klasicnih korpusov dinamicni jezik se spreminja in korpus izdelan danes ze jutri ne odraza trenutne podobe jezika ker je vedno vec besedil dostopnih neposredno v racunalnisko berljivi obliki postaja zajem besedil lazji s tem pa rastejo tudi moznosti za vzdrzevanje te se precej nove zvrsti korpusov primerljivi korpusi vsebujejo primerljiva besedila v vec jezikih npr casopisne clanke iz evropskih casopisov v nekem obdobju taksni korpusi so koristni za prevajalske studije vzporedni korpusi so primerljivi korpusi ki vsebujejo besedila in njihove prevode taksni korpusi so posebej se za prevajalske studije jezikovni vir par excelence predvsem za izdelovanje dvo in vecjezicnih slovarjev vendar pa je taksna vzporedna besedila razen za omejena podrocja tezko zagotoviti uporabnost in kje so korpusi pravzaprav uporabni najbolj evidentno podrocje je seveda slovaropisje prvi slovar izdelan izkljucno na osnovi racunaliskega korpusa je bil colinsov cobuild english language dictionary iz leta sin danes je uporaba racunalniskih korpusov v angleskih leksikografskih hisah ze standardna posebej se za specializirane slovarje tako npr v cambridge university press pri izdelavi ucnega spansko angleskega slovarja uporabljajo korpus popravljenih nalog spanskih ucencev anglescine saj le te najbolje pokazejo na tipicne napake na katere lahko slovar potem opozori uporaba korpusov je se posebej zanimiva za dinamicna in z gospodarstvom neposredno povezana podrocja jezika kot je terminologija v korpusih lahko odkrijemo ze uporabljene termine njihove prevode ali razlage s cimer je omogoceno bolj azurno in cenejse izdelovanje slovarjev ena prvih moznih uporab korpusa je za raznovrstne formalne socialne literarne jezikoslovne studije predvsem za preverjanje teorij o jeziku skozi iskanje distribucije in konkretnih primerov izbranih pojavov to velja toliko bolj za jezikovno ali kako drugace oznacene korpuse v primerjavi z neobdelanim besedilom lahko v oznacenem korpusu iscemo bistveno bogatejse vzorce tako bi npr za skladenjske raziskave bil zanimiv korpus v katerem so besede oblikoslovno oznacene za sociolingvisticne pa npr korpus kjer je premi govor oznacen s spolom govorca nenazadnje so racunalniski korpusi pomembni za razvoj podrocja jezikovnih tehnologij pa ce so to pripomocki za avtorje ucenje jezikov ali prevajanje programi za analizo in sintezo govora itd vsi taksni programi potrebujejo 'zavest' o jeziku pri katerem naj bi bili v pomoc tj potrebujejo racunalniske jezikovne vire slovarje pravila in distribucije elementov dolocenega jezika mnogo teh virov je mogoce pol avtomatsko zajeti iz korpusov next up previous contents naprej standardi in oznacevanje korpusov navzgor racunalniske zbirke besedil nazaj kazalo tomaz erjavec