kazalo matjaz jeran osebna stran na stran sdi predlog standarda prenosa zbirk podatkov v internetu matjaz jeran banka slovenije ljubljana mnenja in stalisca v tem delu so izkljucno avtorjeva in v nicemer ne obvezujejo banke slovenije povzetek prispevek opisuje format podatkov ki je primeren za distribucijo zbirk podatkov v svetovnem spletu in ustreza kriterijem ucinkovitosti dokumentaciji vsebine in zagotavljanja preverjanja pristnosti ta format je ze uporabljen za distribucijo dnevne tecajnice banke slovenije in drugih statisticnih podatkov opisane so izkusnje pri prakticni distribuciji teh podatkov in uporabljena arhitektura za varno pripravo in statistike zamud pri prenosu navedene so moznosti razsiritve tega predloga za distribucijo vec povezanih zbirk podatkov ter za varovanje pred razkritjem podatkov ob prenosu definicija problema internet nudi izjemne moznosti za izmenjavo zbirk javnih podatkov na svetovnem spletu najdemo zbirke podatkov od deviznih tecajnic obrestnih mer cenikov do meteoroloskih in klimatoloskih ter drugih statisticnih podatkov ti podatki so praviloma javne narave ki jih nudijo javne ustanove kot npr centralne banke statisticni uradi in strokovne organizacije lahko pa jih nudijo tudi komercialne organizacije kjer gre najveckrat za povezavo dobaviteljev in predelovalcev ali prodajalcev tako bi bilo mozno distribuirati tudi kataloge sifrante standarde razne statisticne podatke in podobno za prenos oz uporabo zbirk podatkov lahko uporabimo tri strategije odjemalcu ponudimo vse podatke ki bi jih utegnil potrebovati obdelavo podatkov prepustimo odjemalcu moderna programska orodja na odjemalcu omogocajo lahko obdelavo vseh potencialnih podatkov streznik je uporabljen samo za dobavo podatkov ponudniku podatkov se ni potrebno ukvarjati s funkcionalnostjo obdelave podatkov ponudnik podatkov na strezniku odjemalcu ponudi program za obdelavo zahtevanih podatkov streznik mora obdelovati podatke za vse potencialne odjemalce ponudnik mora tudi vedeti za kaksne namene bodo odjemalci uporabili podatke mozno je da bo nek odjemalec potreboval obdelavo podatkov za katero ponudnik ni mogel vedeti in je ni izdelal streznik mora biti dovolj zmogljiv za izvedbo vseh potrebnih obdelav ponudimo tako podatke kot tudi programe za obdelavo teh podatkov pri odjemalcu pri tem navadno predpostavimo kaksno opremo ima odjemalec in kako bo obdeloval podatke v nasem primeru se bomo ukvarjali samo s prvo strategijo ne pa z ostalimi saj so primerne le za ozek razred podatkov kjer vnaprej vemo za vse namene uporabe podatkov osredotocili se bomo na mehanizme prenosa podatkov kjer streznik zgolj nudi podatke obdelavo pa v celoti prepustimo odjemalcu pri prenosu formatiranih podatkov se ni splosno izoblikovanih standardov za prenos dokumentov je v vecini primerov v rabi neformalni standard adobe portable document format pdf za podatke ki pa niso dokumenti ampak zbirke stevilskih in sorodnih podatkov pa ni nobenega prevladujocega standarda formata podatkov ce se ozremo po nekaj primerih ponudbe podatkov v svetovnem spletu vidimo da najpogosteje ponudniki na streznik postavijo podatke v enakem formatu kot ga najverjetneje uporabljajo sami v svojih lokalnih obdelavah primere takih zbirk najdemo v naslednji tabeli streznik naslov format yahoo finance comma separated values csv banka mehike csp format evropska komisija ms excel banka nizozemske izbor in ascii tab delimited format eurostat ms excel minitab itd national climatic data center datoteke s fiksnim zapisom nekatere so tudi stisnjene us dept of the navy standard naval distribution list adobe pdf prenos zbirk podatkov s takimi formati pred uporabnika postavi nekaj problemov slaba dokumentiranost vsebine ne vemo kaj natancno podatki predstavljajo mozne so dvoumne razlage format ni optimiziran za prenos po mrezi formati posameznih orodij so optimizirani za hitro nalaganje podatkov v orodje ne pa za prenos po komunikacijski mrezi zato prenos podatkov traja dlje kot bi bilo nujno ne moremo preveriti pristnosti podatkov podatkom ni dodan elektronski podpis s katerim bi preverili pristnost podatkov nekateri formati so potencialno virusni podatki v formatu word ali excel so lahko potencialni raznasalci virusov odjemalec mora za svoje varovanje uporabiti antivirusni program za preverjanje virusov sele nato lahko podatke uporabimo formati so odvisni od programov in celo njihovih verzij streznik implicitno pricakuje da ima odjemalec program za katerega je format prilagojen format je vcasih vezan za doloceno verzijo programa npr posamezne verzije ms worda imajo razlicne oblike formatov podatkov odjemalci morajo paziti da imajo namesceno verzijo programa ki zna brati ustrezen format babilonski stolp formatov odjemalec mora imeti namescen ustrezen program ki zna brati ustrezen format podatkov za obdelavo moramo podatke prevesti iz formata na strezniku v format ki bo primeren za obdelavo na odjemalcu ta program mora znati prevajati iz mnozice razlicnih formatov slika primer neprilagojene kombinacije podatkov na strezniku in na odjemalcu omenjeni problemi nas spodbujajo da se odlocimo za format ki ne bo imel ze omenjenih problemov da bi se odlocili za format napisimo najprej lastnosti ki bi jih zeleli imeti neodvisnost od strojne in programske opreme format naj bo tak da ga bomo lahko brali z vsakim tipom modernih racunalnikov in s programsko opremo ki jo ima prakticno vsak racunalnik ki je prikljucen na internet zagotavljanje vsebinske dokumentacije podatkov podatki naj vsebujejo tudi natancen opis varen prenos podatkov podatki naj bodo napisani tako da bo odjemalec lahko preveril ali so podatki pristni in samo pooblasceni odjemalci preberejo vsebino format optimiziran za prenos po komunikacijskem kanalu podatki naj bodo pakirani tako da je komunikacijski kanal kar najbolj izkoriscen v banki slovenije smo razmisljali o tej vrsti problema na primeru distribucije arhiva zbirke podatkov devizne tecajnice uporabili smo naslednji model ascii format podatkov to kodno tabelo znajo brati vsi moderni racunalniki ker kodna tabela ascii ustreza vsem podatkom stevilskega tipa za besedilne podatke v slovenskem jeziku bi se odlocili za neko dovolj razsirjeno kodno tabelo trenutno bi bila kandidata iso latin ali ms v bodoce unicode fiksni format posameznega stolpca podatkov zagotavlja da je najprimernejsi format za nadaljnjo obdelavo v klasicnih obdelavah v cobolu kakor tudi za uporabo pomoznih programov nekaterih podatkovnih baz za uvazanje podatkov v bazo tab delimited format podatkov zagotavlja da so stolpci so med seboj loceni z znakom tab in zato je ta format zelo primeren za uvoz v orodja na osebnih racunalnikih tabulator je le redko uporabljen kot vsebina podatkov orodja sama ugotovijo strukturo in vsebino podatkov da bi zdruzili prednosti tako fiksne strukture in znaka tab kot meje smo se odlocili za kombinacijo obojega posamezen podatek dopolnimo s presledki ali niclami da tako zavzame zeleno sirino stolpca stolpce razmejuje znak tab prilozena je datoteka z opisom ki omogoca odjemalcu prakticno uporabo podatkov datoteka z elektronski podpisom omogoca preverjanje pristnosti podatkov vse skupaj naj bo eno vse datoteke pakiramo v zip paket ki zdruzi vse datoteke v eno ter zgosti podatke tako da je komunikacijski kanal polno izkoriscen pri oblikovanju je potrebno skrbeti da so podatki zares napisani tako da so berljivi na vseh racunalnikih taka podrobnost je npr pisanje datumov najbolje se je odlociti za format v skladu s standardom iso torej v obliki llllmmdd ce zelimo vecjo natancnost pa temu nizu dodamo se ure minute in sekunde v obliki hhmmss tak datum je usklajen s principi za obravnavanje leta in tudi ce datum obravnavamo kot besedilo lahko podatke pravilno sortiramo slika struktura pakirane zbirke podatkov nacin uporabe za odjemalca nalaganje iz spletnega streznika v odjemalca zbirko podatkov pretocimo na lokalni disk prenos je hiter ker so podatki stisnjeni razpakiranje winzip pkunzip itd s programom razpakiramo pakirano zbirko v tri komponente preverjanje podpisa pgp s programom pgp preverimo ce elektronski podpis ustreza vsebini podatkov za uspesno preverjanje moramo pred tem programu pgp dostaviti javni kljuc streznika podatkov vstavljanje v lokalno bazo po specifikaciji v datoteki opisa podatkov ms excel import ms access import cobol program podatke uvozimo v zeleno orodje zacetno vrstico uporabimo za ime spremenljivke ostale pa za vsebine spremenljivk lokalna obdelava podatkov tako preneseno zbirko podatkov lahko prenasamo tudi po magnetnih medijih vsak odjemalec lahko preveri in nalozi podatke v svojo bazo prav tako kot da bi jih dobil na svetovnem spletu podrobna navodila za uporabo zbirk datotek banke slovenije so na voljo v poglavju navodila za ilustracijo pokazimo kako izgleda obdelava nalozene zbirke deviznih tecajnic letnika po razpakiranju ob aktiviranju programa winzip vidimo strukturo spakiranih datotek takole slika pogled v pakirano zbirko s programom winzip v datoteki s podaljskom txt so podatki in jih vidimo takole slika podatki devizne tecajnice kaj pa ti podatki predstavljajo je napisano v spremni dokumentaciji v datoteki s podaljskom doc dokumentacijo lahko napisemo v vec jezikih ne smemo pozabiti opisati strukture zapisov slika opis podatkov zbirke fiksne sirine stolpcev za podatke omogocajo enostavno definicijo zapisa za orodja ki so prilagojena na fiksne strukture zapisov kot npr cobol upostevati moramo da znak tabulator zavzame en znak nekateri urejevalniki besedil potihoma zamenjajo tabulator za doloceno stevilo presledkov ce se je to zgodilo spremenimo strukturo zapisa tako da namesto enega presledka upostevamo vec format ki ga predlagam je zelo varcen za primerjavo si oglejmo koliko prostora zavzame arhiv dnevnih tecajnic letnika v razlicnih formatih primer se nahaja na naslovu za preizkus smo stisnili se vsako datoteko posebej ime datoteke dolzina izvirne datoteke byte dolzina posamezne datoteke stisnjene v zip byte oblika in opombe dtec zip predlagan format dtec doc opis podatkov dtec asc digitalni podpis dtec txt nestisnjeni podatki v predlaganem formatu dtec csv csv izvoz iz excela dtec mdb uvoz dtec txt v access brez indeksov in po uporabi ukaza compact database dtec dif dif izvoz iz excela dtec wk lotus izvoz iz excela dtec xls uvoz dtec txt v ms excel iz tabele je ocitno da je predlagani standard dalec najbolj varcen pri porabi prostora ceprav so v tej pakirani datoteki shranjena tudi navodila in podpis stolpec pakiranih dolzin kaze da je ta format ugoden tudi v primerjavi s pakiranimi formati za orodja na osebnih racunalnikih csv dif podatki v obliki comma separated values csv so za priblizno tretjino bolj kompaktno predstavljeni a ta format ni dobro prilagojen za orodja za delo s fiksnimi strukturami zapisov npr cobol ko datoteko stisnemo je razlika v velikosti samo se kako desetino primerjava potreb po pomnilniku kaze da je uporaba excel formata v primerjavi s pakiranimi formati priblizno sedem do osem krat bolj potratna torej je uporaba excelovih datotek primerna samo za intranet resitve saj pri lokalnih mrezah navadno ni problema prenosa vecje kolicine podatkov in prav tako se je mozno dogovoriti za hisni standard programske opreme na odjemalcih varna arhitektura izdelave zbirk slika arhitektura varnega prikljucka na internet ker je obicajni spletni streznik racunalnik v nevarnem okolju je pomembno da zbirko podatkov in elektronski podpis izdelamo na varnem racunalniku v notranjem omrezju za pozarno pregrado ta nacin preprecuje moznost da bi ob potencialnem vdoru v spletni streznik na njem napadalci izdelali lazni elektronski podpis ki ga ne bi oprezni odjemalci prepoznali kot laznega odziv uporabnikov ta predlog je prakticno preizkusen za prenos ene same tabele banka slovenije v tem formatu nudi dnevno tecajnico tekocega dne ter arhiv dnevnih tecajnic tekocega leta ter preteklih let statistika dostopov do streznika kaze porast od do mesecnih obiskov za dnevno tecajnico ter porast od na za arhiv tekocega leta od januarja do decembra v teh stevilkah niso vsteti dostopi prek servisa ftp za primerjavo slovensko tecajnico kot prikaz je v januarju obiskalo v decembru pa obiskovalcev anglesko pa januarja decembra pa obiskovalcev to pomeni da je stevilo povprasevanj po tecajnici v tem casu poraslo od tri do stirikrat celoten promet na strezniku banke slovenije je v tem casu porasel od obiskov do to je priblizno za dvakrat s primerjavo teh rasti lahko sklepamo da je predlagani format prenosa podatkov pri uporabnikih dobro sprejet statistike zamud slika povprecne zamude pri nalaganju zbirk podatkov s programom marketvawe hitlist vec kot eno leto spremljamo statistike dostopov do spletnega streznika ugotovili smo da je povprecna zamuda na strezniku med in sekundami in take zamude so tudi pri prikazih dnevne tecajnice mesecna povprecja zamud pri dostopih do pakiranih tecajnic znasajo za dnevne ki so dolge do kb nekaj sekund za zbirko vseh tecajnic tekocega leta katere obseg je na zacetku leta enak dnevni ob koncu leta pa naraste do kb pa od do sekund v januarju ko je zbirka vseh tecajnic spet majhna je cas zamude spet krajsi verjetno se v zamudo steje cas od zacetka prenosa vkljucno z aktiviranjem okna na odjemalcu kjer uporabnik izbere mapo in ime datoteke kamor bo shranil podatke in sam prenos podatkov zamuda torej ne meri samo casa prenosa podatkov ampak tudi hitrost reakcije uporabnika povprecje torej kaze da celoten postopek prenosa tudi pri nerodnem uporabniku ne traja vec kot dve minuti mozne razsiritve z dodatkom datoteke opisa podatkovne baze lahko predlog razsirimo za prenos relacijskih podatkov oz objektne baze pri tem pa se pojavljajo naslednja vprasanja kako opisati podatkovni model da bo uporaben za poljuben sistem predlagam da v datoteko z dokumentacijo opisemo celotni podatkovni model ki ga sestavljajo vse zbirke ki jih nudimo poleg opisa posamezne datoteke je potrebno dodati tudi datoteko ki opisuje podatkovni slovar celotne baze ki jo sestavljajo posamezne tabele kako naj izgleda ta opis kako opisati podatkovni slovar ki jo zna prebrati poljubna baza ali kdo razmislja o standardu opisa podatkovnih slovarjev en predlog je vendar je takoj uporaben le za unix za varen prenos zasebnih podatkov po elektronski posti je potrebno sifriranje take zbirke sifriranje pakiranih datotek je se varnejse in hitrejse kot sifriranje nepakiranih podatkov kako avtomatizirati distribucijo kljucev in sifriranih zbirk zakljucek prikazani prakticni primer predloga formata za distribucije zbirk podatkov kaze da se da z nekaj premisleka dobiti preproste a zelo ucinkovite resitve za prenos zbirk podatkov na svetovnem spletu bistveno za ucinkovit prenos je pakiranje datotek za uporabo pa tudi dokumentacija o vsebini in digitalni podpis pri preiskovanju svetovnega spleta nimam obcutka da bi take resitve tudi mnozicno izdelovali ce se zdi komu tak format uporaben ga vabim da bomo skupaj svetovni splet obogatili za vec zbirk podatkov reference achim's file format library http www informatik uni frankfurt de ~amueller ff htm bank of slovenia exchange rate http www bsi si html eng financial data daily tecajna lista a sp banka slovenije arhiv tecajnic in obrestnih mer http www bsi si html financni podatki arhiv index html banka slovenije bank of slovenia http www bsi si banka slovenije navodila za uporabo spletnih strani banke slovenije http www bsi si html navodila index html banka slovenije pakirana devizna tecajnica letnika http www bsi si html financni podatki arhiv dtec zip banka slovenije tecajna lista prenos dnevnih podatkov http www bsi si data tecajnice dtec d zip banka slovenije tecajna lista prenos vseh podatkov tekocega leta http www bsi si data tecajnice dtec l zip banka slovenije tecajna lista http www bsi si html financni podatki dnevni tecajna lista a sp boulder data interchange format http formaggio cshl org software boulder common internet file formats http www matisse net files formats html de nederlandsche bank online statistical information and reporting department http www statistics dnb nl indexuk html el banco de méxico http www banxico org mx eurostat statistical office of the european communities http europa eu int en comm eurostat serven home htm forest land distribution data for the united states http www agnic org agdb forlands html forest land distribution data for the united states http www epa gov docs grd forest inventory log analysis and log file analyzer software marketwave http www marketwave com national climatic data center http www ncdc noaa gov pablo self defining data format sddf component software distribution http vibes cs uiuc edu software pablo sddf sddf htm pkware inc http www pkware com the european commission inforeuro http europa eu int comm dg inforeuro en index htm the european synchrotron radiation facility esrf data format http www esrf fr computing expg subgroups general format for mat html the international pgp home page http www pgpi com the national space science data center's nssdc common data format cdf http nssdc gsfc nasa gov cdf cdf home html the sgml xml web page by robin cover http www oasis open org cover sgml xml html the xpm format and library by arnaud le hors http www inria fr koala lehors xpm html us dept of the navy standard naval distribution list sndl http neds nebt daps mil sndl htm usmarc format for holdings data contents http www tlcdelivers com tlc crs hold htm winzip home page http www winzip com wotsit's format the programmer's resource http www wotsit org yahoo finance http quote yahoo com copyright © matjaz jeran dovoljena uporaba za nekomercialne namene z navedbo vira gor zadnji popravek na stran sdi