next up previous contents naprej procesiranje korpusov navzgor racunalniske zbirke besedil nazaj uvod standardi in oznacevanje korpusov racunalniski korpusi besedil so dragoceni viri jezikovnih podatkov tako zaradi mnogoterih moznih uporab kot zaradi kolicine dela ki ga je potrebno vloziti v njihovo izgradnjo ko to premozenje imamo je smiselno omogociti njegovo cim sirso uporabo tj izmenljivost in ga zavarovati pred zastaranjem na prvi pogled ravno racunalniki zadovoljujejo ti dve zelji saj je razmnozevanje racunalniskih podatkov za razliko od ostalih dobrin prakticno zastonj digitalna informacija pa ne podleze zobu casa vendar morajo biti racunalniski zapisi podrobno definirani obenem pa so racunalniki predmet bliskovitega tehnoloskega razvoja zaradi tega se izkaze da imajo besedila hranjena na racunalniskih medijih zaenkrat bistveno manjso izmenljivost in trajnost kot pa tiskana besedila problemi digitalnega zapisa besedil se zacnejo ze pri zapisu crk popolna racunalniska podpora in soglasje o naborih znakov obstaja samo za anglesko abecedo medtem ko bomo v sloveniji nasli deset nacinov kako so na racunalnikih zapisani c s in z ker se vedno vec besedil ki sestavljajo korpus zajema neposredno iz digitalnih virov je problem razlicnih formatov dokumentov se posebej perec ce se razlikujejo ze zapisi crk so toliko bolj razlicni nacini zapisa odstavkov premega govora naslovov opomb bibliografskih podatkov itd razlikujejo se glede na programsko opremo s katero je bilo besedilo narejeno po videzu kakrsnega naj bi imelo tiskano besedilo in glede na osebo ki je besedilo napisala vendar so vsi ti podatki v korpusu vsaj potencialno pomembni saj tvorijo del besedil ki jih hocemo zajeti ce v korpusu niso enotno in prepoznavno oznaceni bo ta informacija izgubljena za uporabnike korpusa cetudi nam uspe pri izgradnji korpusa to zmedo na nasem racunalniku v lastno zadovoljstvo urediti bodo na drugih racunalnikih z drugimi operacijskimi sistemi in drugimi programi podatki vseeno neuporabni ali pa bodo vsaj zahtevali veliko truda za njihovo konverzijo v cilnji zapis v primeru da korpus se dodatno oznacimo npr s skladnjo prevodi leksikografskimi podatki bo problem seveda se bistveno hujsi izmenljivost taksnih zapisov je majhna podobno majhna je tudi trajnost racunalniskih podatkov besedila na petnajst let starem magnetnem traku so danes tezko uporabna podobno tudi besedila napisana na urejevalniku teksta iz tistega casa ne enih ne drugih danes ne moremo vec brati ali pa je v to potrebno vloziti precej truda edino standardizacija lahko resi problem izmenljivosti in trajnosti digitaliziranih besedil poglavje v nadaljevanju obravnava tri nivoje tega procesa z osnovno in najbolj natancno definirano stopnjo racunalniskega zapisa strukture besedil se ukvarja standard sgml standard generalized markup language mednarodne organizacije za standardizacijo iso international organization for standardization z zapisom in konkretnim oznacevanjem strukture besedil predvsem za namene znanstvene obravnave jezika se ukvarjajo s sgml skladna priporocila iniciative za oznacevanje besedil tei text encoding initiative konkretno obliko zapisa racunalniskih korpusov za namene jezikovnih tehnologij pa podaja s tei skladen zapis z imenom ces corpus encoding standard ki nastaja oz je nastajal v okviru evropske iniciative eagles ter projektov multext in multext east sgml standardni posploseni jezik za oznacevanje sgml standard generalised markup language gol je iso standard ki doloca jezik za predstavitev dokumentov nad katerimi bodo delovali programi za procesiranje besedil razlogi za izdelavo tega standarda so bili deloma omenjeni ze zgoraj v razvitih drzavah podjetja porabijo veliko casa in s tem denarja za iskanje in pripravo informacij ki so pretezno besedila zato prihaja do potrebe po nacinu zapisa ki bo izmenljiv odporen na tehnoloske spremembe in ki bo omogocal uporabo dokumentov v razlicne namene sgml je poskus taksnega zapisa sgml je prvenstveno jezik za oznacevanje dokumentov pri cemer lahko oznake opisujejo kakrsnokoli informacijo ki je dodana osnovnemu besedilu npr podatek da je neki niz v besedilu naslov ime ali beseda da je neka beseda glagol da ima neki termin povezavo s svojo razlago da neki stavek spremlja slika ali njegov prevod in da neki monolog govori hamlet v prvem dejanju neke tragedije sgml se glede na ostale jezike za oznacevanje dokumentov odlikuje v treh karakteristikah poudarek na opisnem namesto postopkovnem oznacevanju za razliko od mnogih drugih formatov zapisa besedil npr microsoftov rtf so oznake sgml namenjene opisu lastnosti besedila ki ga zajemajo ne pa postopku ki te lastnosti realizira na konkretnem mediju oznaka npr pove da del besedila ki ga zajema predstavlja odstavek ne pa da je potrebno izpustiti prazno vrstico in za doloceno mero zamakniti zacetek naslednje vrstice opisno oznaceni podatki imajo to prednost da vsebujejo informacije v bolj precisceni obliki in jih je zato lazje uporabiti v razlicne namene tako je en sam dokument npr slovar knjiznega jezika ali pa komplet tehnicnih prirocnikov uporaben za izdajo v knjizni ali pa multimedialni cd rom obliki koncept tipa dokumenta sgml bi lahko poimenovali tudi jezik za metaoznacevanje dokumentov saj standard ne spregovori besede o tem katere oznake moramo uporabljati in v kaksnih odnosih so te oznake med seboj namesto tega vpelje sgml pojem tipa dokumenta in z njim formalno definicijo tipa dokumenta dtd document type definition sele dtd konkretno doloca kako mora biti nek dokument strukturiran in kako izgledajo njegove oznake nek dtd tako predstavlja gramatiko za dolocen tip dokumentov npr za knjige tabele terminoloske slovarje scenarije itd taksen pristop omogoca siroko aplikacijo standarda saj tako lahko pokriva dokumente z izrazito razlicno strukturo verjetno je vsaj posredno najbolj znana definicija tipa dokumenta tista za html hypertext markup language ki jo morajo upostevati vse pravilno narejene strani svetovnega omrezja www world wide web neodvisnosti od konkretnega zapisa besedil eden od osnovnih ciljev sgml je da so v njem zapisani podatki prenosljivi z ene strojne in programske opreme na drugo brez izgube informacije sgml zato vsebuje splosen mehanizem za nadomescanje nizov ob procesiranju dokumenta z entitetami sgml je mogoce preseci neskladnosti in pomanjkljivosti v naborih znakov razlicnih specificnih racunalniskih sistemov saj lahko za neprenosljive znake definiramo opisna imena tj entitete prostor tu ne dopusca obsirnejse obravnave standarda sgml naj zadosca opomba da v tujini vedno vec podjetij ki imajo opravka z velikimi kolicinami besedil npr proizvajalci opreme za svojo dokumentacijo zalozniki knjiznice itd prehaja na ta standard obstaja pa tudi ze kar nekaj podjetij predvsem v zda in zahodni evropi ki se ukvarjajo izkljucno s sgml bodisi z izdelovanjem programske opreme ali pa pogosteje z omogocanjem koncnim uporabnikom da preidejo na ta standard v sloveniji zaenkrat se ni zaslediti aplikacij tega standarda ali pa njegove obravnave v literaturi izjema je edino www stran v batagelja ki podaja uvod v sgml bat tei iniciativa za zapis besedil tei text encoding initiative iv se je zacela na konferenci ki je bila leta na vassar college v new yorku tam se je zbralo okoli trideset predstavnikov arhivarstva znanstvenih ustanov ter raziskovalnih projektov da bi obravnavali moznost izdelave standardnega zapisa besedil in da bi podali priporocila o njegovem obsegu strukturi vsebini in nacinu izdelave o zazeljenosti taksne pobude prica da je tei dobil podporo vseh najvplivnejsih strokovnih zdruzenj s podrocja racunalniske obravnave besedil kot tudi s strani ameriske vlade in evropske unije tei je prvi osnutek svojih priporocil tei p izdal leta drugega pa leta medtem ko sta bila tako p kot p se osnutka predstavlja leta izdan tei p smb zakljucek prve faze dela tei tei je kot osnovo svojega zapisa vzel sgml tei p je nabor definicij tipov dokumentov in entitet ki za siroko paleto zvrsti besedil doloca konkretne oznake in njihovo strukturo skorajda bolj pomembnih pa je strani dokumentacije ki podaja pomen posameznih oznak opisuje dtd je ter izpelje nacin za njihovo kombiniranje ter nadgradnjo tei p pozna tri vrste naborov oznak ki jih sestavljamo v t i modelu chicago pizze vsaka pizza ima dve nujni sestavini paradiznik in sir podobno tei loci srediscne oznake 'core tags' ki so obvezne v vseh s tei skladnih dokumentih srediscne oznake dolocajo definicijo naborov znakov oznake ki so na voljo v vseh tei dokumentih npr oznake za naslove in odstavke ter glavo dokumenta ki vsebuje bibliografske podatke o dokumentu vsaka pizza ima tudi testo kot osnovo vendar se njegova zvrst vsaj v chicagu lahko izbere lahko je tanko in hrustljavo lahko debelo in mehko ne pa more biti oboje hkrati podobno se tudi besedila delijo na razlicne zvrsti ki so med seboj razmeroma dobro locene osnovni nabori oznak 'base tag sets' v tei p obsegajo osnovne nabore za leposlovje poezijo gledalisce zapis govora tiskane slovarje ter terminoloske baze koncno imajo pizze lahko tudi vec dodatkov npr sunko in gobice tei pa dodatne nabore oznak 'additional tag sets' ti opisujejo raznovrstna dodatna oznacevanja ki predstavljajo doloceno interpretacijo besedila ali pa netekstualne elemente besedil kot so navzkrizne povezave za stvarna kazala ali pa slike takih naborov je vsega skupaj devet med njimi so nabor za analiticne mehanizme npr skladenjsko analizo nabor za dokumentiranje uredniskih posegov nabor za imena in datume in koncno tudi nabor za jezikovne korpuse figure slika primera tei oznacenih dokumentov za konec poglejmo v sliki se primera dveh delov dokumentov ki sta zapisana v standardu sgml in skladno s priporocili tei na levi je primer besedila oznacenega s skladenjsko analizo na desni pa del glave dokumenta ki bi bila uporabna za zapis radijskih porocil bralec bo opazil da so tei oznake angleske ceprav je v tei obliki mozno strukturirati zapis poljubnega jezika ostaja metajezik zapisa angleski vsi veliki korpusi izdelani v zadnjih nekaj letih so ce ze ne dosledno sledili pa vsaj upostevali tei priporocila saj so le ta najbolj podrobna in natancna dolocila za oznacevanje jezikovnih virov ces standard za zapis korpusov kljub temu da tei p podaja tudi dolocila za zapis korpusov so ta po eni strani za dolocene namene prevec kompleksna po drugi pa v dolocenih podrobnostih tudi se pomanjkljiva v okviru iniciative evropske unije eagles in evropskih projektov multext ter multext east je v izdelavi sgml definicija tipa dokumenta z imenom ces corpus encoding standard ipdv ces je v veliki meri skladen s priporocili tei vendar je enostavnejsi in bolj ekspliciten saj je njegova specificna domena opis vecjezikovnih korpusov predvsem za namene jezikovnih tehnologij ces doloca osnovni zapis in obseg oznacevanja ki ga mora korpus zadovoljiti da ga lahko se smatramo za standardiziranega ces opredeli tri nivoje take standardizacije kjer vsak visji nivo dodatno standardizira korpus ces dokument ima s tei skladno glavo tj bibliografske in ostale podatke o korpusu telo dokumenta pa je oznaceno v skladu s ces definicijo dokumenta z osnovno strukturo tj z glavnimi razdelki besedila do nivoja odstavkov ces dokument ustreza nivoju ces poleg tega pa vsebuje tei oznake na katere se lahko sklepa iz tipografskih informacij v originalnem besedilu premi govor imena stevilke datumi itd ces dokument mora vsebovati ces oznake poleg tega pa ustreza dodatnim zahtevam za oznacevanje stavkov in premega govora vse izkljucno tipografske informacije so odstranjene iz besedila in kvecjemu ohranjene kot vrednosti atributov nivo jezikovnega oznacevanja poleg osnovnih nivojev je korpus mozno tudi dodatno oznaciti z jezikovnimi informacijami ces obravnava dvoje taksnih oznacevanj in sicer oblikoslovno oznacevanje besed in pa zapis poravnav v vzporednem korpusu tj zapis poravnave nekega elementa v originalu z njegovim prevodom next up previous contents naprej procesiranje korpusov navzgor racunalniske zbirke besedil nazaj uvod tomaz erjavec