teorija informacij vaja informacijska analiza slovenskega besedila na internetu ali kje drugje pridobite slovenska besedila ki skupno vsebujejo vsaj besed s pomocjo nekega izbranega urejevalnika besedila ali s svojim posebnim programom poskrbite da bo zbrano besedilo zapisano v nestrukturirano datoteko oktetov z iso kodiranjem znakov slovenske abecede golo besedilo na strani ki jo pravkar prebirate je kodirano po tem standardu kot dodaten primer imate na razpolago datoteko primer txt ki vsebuje kratko besedilo z vsemi velikimi in malimi crkami slovenskih sumnikov dodatno informacijo o kodiranju znakov slovenske abecede najdete se na spletni strani gnusl na strani z opisom nastavitev racunalnika za delo z latin znaki ter na spletni strani mednarodnega konzorcija unicode pri branju datoteke naj vas program prekodira pridobljeno datoteko tako da preslika vse velike crke v male crke vse posebne simbole locila stevilke druge posebne simbole naj preslika v simbol ' ' znak za presledek prehod v novo vrstico in tabulator naj preslika v en sam simbol ' ' tudi ce si v zaporedju sledi vec takih znakov a tocka sestavite program ki iz besedila v podani datoteki izracuna frekvence in ocene verjetnosti crk v slovenskem besedilu ocene verjetnosti parov zaporednih crk za vsako kombinacijo dveh crk ocene pogojnih verjetnosti vseh crk glede na predhodno crko pri vsaki tocki naj program izpise prvih dvajset crk ali parov crk z najvecjo verjetnostjo b dodatna tocka program dopolnite tako da bo izracunal entropijo na crko ob predpostavki da so vse crke enako verjetne entropijo na crko ko upostevamo lastne verjetnosti posameznih crk entropijo na crko ko poznamo predhodno crko entropijo na crko ko poznamo predhodni dve zaporedni crki c dodatna tocka program dopolnite tako da bo izracunal frekvence in ocene verjetnosti besed v podanem slovenskem besedilu ocene verjetnosti parov zaporednih besed za vsako kombinacijo dveh besed v besedilu ocene pogojnih verjetnosti vseh besed v besedilu glede na predhodno besedo d dodatna tocka program dopolnite tako da bo izracunal entropijo na besedo ob predpostavki da so vse besede enakoverjetne entropijo na besedo ko upostevamo lastne verjetnosti posameznih besed entropijo na besedo ko poznamo predhodno besedo opombe v nalogah c in d uporabljajte simbol ' ' le kot pomozni simbol ki doloca mejo med besedami morebitne tuje besede s tujimi crkami pa obravnavajte enako kot slovenske besede nazaj na preostale vaje pripombe fakulteta mag simon dobrisek novembra