Binární logaritmická míra. Elektronické prostředky pro sběr, zpracování a zobrazování informací

Pokyny pro posouzení množství informací

V teorii informace existují tři hlavní směry: strukturální, statistický, sémantický.

Strukturální- uvažuje o diskrétní struktuře informačních polí a jejich měření prostým počítáním informačních prvků. (Nejjednodušší kódování pole je kombinatorická metoda.)

Statistický směr operuje s konceptem entropie jako míry nejistoty, to znamená, že se zde bere v úvahu pravděpodobnost výskytu určitých zpráv.

Sémantický směr bere v úvahu vhodnost, hodnotu nebo věcnost informací.

Tyto tři oblasti mají své specifické oblasti použití. Strukturální slouží k posouzení schopností technických prostředků různých systémů zpracování informací bez ohledu na konkrétní podmínky jejich použití. Statistický hodnocení se používají při zvažování problematiky přenosu dat a stanovení kapacity komunikačních kanálů. Sémantický se používají při řešení problémů konstrukce systémů přenosu informací, vývoje kódovacích zařízení a při hodnocení účinnosti různých zařízení.

Strukturální míry informací

Strukturální opatření berou v úvahu pouze diskrétní strukturu informací. Prvky informačního komplexu jsou kvanta – nedělitelné části informace. Rozlišovat geometrický, kombinační A přísada opatření.

Definice informace geometrický Metoda je měření délky úsečky, plochy nebo objemu geometrického modelu informačního komplexu v počtu kvant. Určuje maximální možný počet kvant v daných strukturálních rozměrech informační kapacita systému. Informační kapacita je číslo udávající počet kvant v kompletním poli informací. Podle Obr. 1,2, G, množství informací M v komplexu X(T,N), určená geometrickou metodou, se rovná

X, T,N- intervaly, ve kterých se provádějí diskrétní odečty.

V kombinační Alespoň množství informací se vypočítá jako počet kombinací prvků. Zohledňují se zde možné nebo realizované kombinace.

V mnoha případech lze diskrétní zprávu považovat za slovo skládající se z řady prvků n, specifikované abecedou sestávající z T prvky písmen. Stanovme počet různých zpráv, které lze z dané abecedy vytvořit. Pokud se zpráva skládá ze dvou prvků ( n= 2), pak mohou existovat různé zprávy. Například z deseti číslic (0, 1, 2,..., 9) lze vytvořit sto různých čísel od 0 do 99, pokud je počet prvků tři, pak je počet různých zpráv stejný atd.

Počet možných zpráv je tedy určen:

Kde L- počet zpráv; n- počet prvků ve slově; T- abeceda.

Čím více L, tím více se může každá zpráva lišit od ostatních. Velikost L lze brát jako měřítko množství informací. Nicméně výběr L jako měřítko množství informací je spojeno s nepříjemnostmi: za prvé, kdy L=1 informace je nula, protože povaha zprávy je známa předem (tj. existuje zpráva, ale informace je nulová); za druhé není splněna podmínka pro lineární sčítání množství informace, tzn. aditivní stav. Pokud je například první zdroj charakterizován různými zprávami a druhý je charakterizován , pak celkový počet různých zpráv pro dva zdroje je určen produktem.

L= .

Pro k zdrojů, celkový počet možných různých zpráv je

Proto Hartley zavedl logaritmickou (aditivní) míru množství informací, která umožňuje odhadnout množství informací obsažených ve zprávě pomocí logaritmu počtu možných zpráv.

já= .

Potom v L= 1já= 0, tj. nejsou k dispozici žádné informace.

Pro k zdroje informací

těch. já= .

Statistické míry informací

Ve statickém pravděpodobnostním přístupu je získání konkrétního množství informací považováno za výsledek určité volby mezi možnými zprávami. Příjemce informace může její část znát nebo uhodnout předem. Když přijde zpráva o často se vyskytujících událostech, jejichž pravděpodobnost R inklinuje k jednotě, pak je takové sdělení neinformativní. Stejně neinformativní jsou v průměru zprávy o událostech, jejichž pravděpodobnosti bývají nulové, tzn. o téměř nemožných událostech, protože takové události jsou hlášeny velmi zřídka.

Události lze považovat za možné výsledky nějaké zkušenosti. Všechny výstupy tvoří ucelenou skupinu akcí nebo soubor.

Soubor se vyznačuje tím, že součet pravděpodobností všech zpráv v něm je roven jedné, tzn.

.

Zvažte složité zprávy složené z n prvky, z nichž každý je nezávislý a vybraný z abecedy obsahující T písmena, s pravděpodobnostmi výběru prvků respektive. Předpokládejme, že některá zpráva obsahuje prvky abecedy, prvky atd. Tato zpráva je charakterizována tabulkou (tab. 1.1).

Tabulka 1.1

Typ položky ... ...
Počet prvků ... ...

Pravděpodobnosti výběru

prvky

Pravděpodobnost, že zpráva bude obsahovat prvky, je rovna a pravděpodobnost, že bude zpráva vytvořena z prvků ,, ,...,,..., bude rovna

P= . (1.1)

Pro dlouhé délky n zdroj bude generovat typické zprávy, ve kterých relativní četnost výskytu jednotlivých prvků směřuje k pravděpodobnosti výskytu těchto prvků, tzn.

, (1.2)

a pravděpodobnost výskytu typických zpráv R budou stejné a lze je nalézt z (1.1), (1.2):

P=. (1.3)

Pojďme určit počet typických zpráv:

protože celková pravděpodobnost všech typických zpráv má s rostoucí délkou zprávy tendenci k jednotě.

I když počet možných zpráv zdroj prakticky vyrobí jen L typické zprávy a pravděpodobnost výskytu dalších zpráv má tendenci k nule.

Pojďme zjistit množství informací obsažené v jedné zprávě:

já= log L= - log . (1.5)

Tento výraz (Shannonův vzorec) poskytuje úplnější obrázek o zdroji informace než aditivní míra (Hartleyova míra). Ukažme si to na následujícím příkladu. Pokud si hodíme mincí, dostaneme zprávu ze dvou možných stavů (hlavy nebo ocasy), tedy abecedu zpráv ze dvou písmen. Pokud hodíme kostkou, jejíž jedna strana je modrá a zbytek stran růžový, pak zde máme také abecedu dvou písmen (modré nebo růžové). K napsání přijatého textu (zprávy) v obou případech stačí jedna binární číslice na písmeno ( n= 1, t= 2).

Podle Hartleyho zde v obou případech

Ale víme, že v prvním případě je pravděpodobnost každého výsledku experimentu 0,5 (=0,5). A ve druhém případě a podle toho. Hartleyho opatření s tím nepočítá.

Když jsou symboly ekvipravděpodobné (zvláštní případ), Shannonův vzorec se zvrhne na Hartleyho vzorec:

já= - n .

Pro případ s mincí:

já = - 1 .

Pro případ s krychlí:

já = - 1 .

Je voláno množství informací na prvek zprávy konkrétní informační obsah nebo entropie.

N=. (1.6)

Množství informace a entropie jsou logaritmické míry a měří se ve stejných jednotkách. Základ logaritmu definuje měrnou jednotku pro množství informace a entropii. Binární jednička odpovídá logaritmickému základu dvou a nazývá se bit. Jeden bit je množství informací ve zprávě v jednom ze dvou stejně pravděpodobných výsledků nějakého experimentu. Používají se také přirozené (NIT) a dekadické (DIT) logaritmy. Podobné jednotky se používají při posuzování množství informací pomocí Hartleyho míry.

Ze Shannonova vzorce vyplývá, že množství informací obsažených ve zprávě závisí na počtu prvků zprávy n, abeceda T a pravděpodobnosti výběru prvků. Závislost z n je lineární.

Všimněme si některých vlastností entropie.

1. Entropie je skutečná veličina, omezená a nezáporná, tzn N> 0. Tato vlastnost vyplývá z výrazu (1.6).

2. Entropie je minimální a rovná se nule, pokud je zpráva známa předem, tj. pokud =1, a

3. Entropie je maximální, pokud jsou všechny stavy prvků zprávy stejně pravděpodobné.

H=, Pokud . (1.7)

Hodnotu maximální entropie zjistíme pomocí (1.6) a (1.7):

Vhodnost a užitečnost informací pro řešení problému lze hodnotit podle vlivu, který mají obdržené informace na řešení problému. Pokud se pravděpodobnost dosažení cíle zvýší, pak je třeba informace považovat za užitečné.

Existuje několik přístupů k měření informací.

Kombinační opatření

Pro lepší pochopení se podívejme na několik jednoduchých příkladů.

Příklad 1 . Udělejme experiment. Vezmeme si kostku. Má šest stran, každá s čísly od jedné do šesti.

Pusťme ho. Při hodu kostkou se objeví jedno z čísel na stranách kostky.

Takto získané číslo je výsledkem naší zkušenosti.

Hozením kostkou kolikrát chceme, můžeme získat pouze šest možných čísel. Označme to jako N = 6.

Tento příklad nám umožňuje přejít ke konceptu kombinatorické míry informace a poskytnout následující definici:

Kombinatorická informační míra N je způsob měření množství informací odhadem počtu možných kombinací informačních prvků.

Protože v příkladu s kostkou existuje pouze šest možných výsledků experimentu, jinými slovy šest kombinací, pak množství informací v souladu s kombinatorickou mírou je N = 6 kombinací.

Příklad 2. Nechte jednu z desetinných číslic dát, například číslo 8, a jednu z hexadecimálních - například číslo 6 (můžete vzít jakékoli jiné šestnáctkové číslo - 8, B, F atd.). Nyní, v souladu s definicí kombinatorické míry, určíme množství informací obsažených v každém z těchto čísel. Protože číslo 8 je desetinné, což znamená, že představuje jeden znak z deseti, pak N 8 = 10 kombinací. Stejně tak číslo 6 představuje jeden ze šestnácti symbolů, a proto N 6 = 16 kombinací. Proto šestnáctková číslice obsahuje více informací než desítková číslice.

Z uvažovaného příkladu můžeme usoudit, že čím méně číslic je v základu číselné soustavy, tím méně informací nese jeden z jejích prvků.

Binární logaritmická míra

Anglický inženýr R. Hartley navrhl měřit množství informací pomocí binární logaritmické míry:

kde N je počet různých kombinací informačních prvků. Jednotkou informace v tomto měření je bit.

Protože vzorec odvozený R. Hartleyem bere v úvahu počet možných kombinací N, je zajímavé vědět, jaký odhad množství informací poskytuje binární logaritmická míra pro výše uvedené příklady.

Výpočet dává následující výsledky:

v příkladu krychle I = log 2 6 = 2,585 bitu;

v příkladu s desítkovou číselnou soustavou I = log 2 10 = 3,322 bitů;

v hexadecimálním příkladu I = log 2 16 = 4 bity;

v příkladu s binární číselnou soustavou I = log 2 2 = 1 bit.

Poslední číslice označuje, že každá číslice binárního číselného systému obsahuje jeden bit informace. Obecně se v technických systémech binární číselný systém používá ke kódování dvou možných stavů, např. 1 označuje přítomnost elektrického proudu v síti, 0 označuje jeho nepřítomnost.

Ve všech výše diskutovaných příkladech byly výsledky experimentů stejně pravděpodobné a vzájemně nezávislé. To znamená, že při házení kostkou má každá ze šesti stran stejnou pravděpodobnost úspěšného výsledku. A také, že výsledek dalšího hodu nijak nezávisí na výsledku předchozího.

Stejně pravděpodobné a vzájemně nezávislé události jsou v reálném životě poměrně vzácné. Pokud věnujete pozornost mluveným jazykům, například ruštině, můžete vyvodit zajímavé závěry. Pro zjednodušení teoretického výzkumu v informatice se obecně uznává, že ruská abeceda se skládá z 32 znaků (e a ё, stejně jako ь a ъ se od sebe neliší, ale mezi slova je přidán znak mezery). Pokud předpokládáme, že každé písmeno ruského jazyka se ve zprávě vyskytuje stejně často a že za každým písmenem může následovat jakýkoli jiný symbol, můžeme množství informací v každém znaku ruského jazyka určit jako:

I = log 2 32 = 5.

Ve skutečnosti tomu tak však není. Ve všech mluvených jazycích jsou některá písmena běžnější, jiná mnohem méně běžná. Výzkum říká, že počet opakování na 1000 písmen je následující:

Pravděpodobnost výskytu jednotlivých písmen navíc závisí na tom, která písmena jim předcházejí. Takže v ruském jazyce nemůže za samohláskou následovat měkký znak, nemohou se objevit čtyři samohlásky za sebou a tak dále. Jakýkoli mluvený jazyk má své vlastní charakteristiky a vzorce. Proto množství informací ve zprávách vytvořených ze symbolů jakéhokoli mluveného jazyka nelze odhadnout ani kombinatorickými, ani binárními logaritmickými mírami.

Strukturální míra informace

Při použití strukturálních měřítek informace se bere v úvahu pouze diskrétní struktura zprávy, počet informačních prvků v ní obsažených a souvislosti mezi nimi.

Strukturální přístup rozlišuje mezi:

1) Geometrická míra - zahrnuje měření parametru geometrického modelu informační zprávy (délka, plocha, objem...) v diskrétních jednotkách.

Informační kapacita modelu – maximální možné množství informací – je definována jako součet diskrétních hodnot pro všechny dimenze (souřadnice).

2) Kombinační míra – množství informace definované jako počet kombinací prvků.

3) Aditivní míra - (Hartleyova míra) - množství informace se měří v binárních jednotkách - bitech.

Použité koncepty:

Hloubka q čísla je počet znaků přijatých k reprezentaci informace. V daném okamžiku je realizován pouze jeden symbol.

Délka n čísla je počet pozic nezbytných a dostatečných k reprezentaci čísel dané velikosti.

Vzhledem k hloubce a délce čísla je počet čísel, která lze znázornit, N = qn.

Logaritmická veličina: I = log2N =n log2q (bit) - Hartleyho míra.

Množství informací, které obsahuje zpráva zakódovaná pomocí znakového systému, se tedy rovná množství informací, které nese jeden znak, vynásobeném počtem znaků.

Za jednotku informace se považuje množství informací, které obsahuje zprávu, která snižuje nejistotu na polovinu. Tohle je pauza.

Strukturální— uvažuje o diskrétní struktuře informačních polí a jejich měření prostým počítáním informačních prvků. (Nejjednodušší kódování pole je kombinatorická metoda.)

Strukturální míry informací

Strukturální opatření berou v úvahu pouze diskrétní strukturu informací. Prvky informačního komplexu jsou kvanta – nedělitelné části informací. Rozlišovat geometrický, kombinační A přísada opatření.

Definice informace geometrický Metoda je měření délky úsečky, plochy nebo objemu geometrického modelu informačního komplexu v počtu kvant. Určuje maximální možný počet kvant v daných strukturálních rozměrech informační kapacita systému. Informační kapacita je číslo udávající počet kvant v kompletním poli informací. Podle Obr. 1,2, G, množství informací M v komplexu X(T,N), určená geometrickou metodou, se rovná

X, T,N— intervaly, ve kterých se provádějí diskrétní odečty.

V kombinační Alespoň množství informací se vypočítá jako počet kombinací prvků. Zohledňují se zde možné nebo realizované kombinace.

V mnoha případech lze diskrétní zprávu považovat za slovo skládající se z řady prvků n, specifikované abecedou sestávající z T prvky písmen. Stanovme počet různých zpráv, které lze z dané abecedy vytvořit. Pokud se zpráva skládá ze dvou prvků ( n= 2), pak mohou existovat různé zprávy. Například z deseti číslic (0, 1, 2,..., 9) lze vytvořit sto různých čísel od 0 do 99, pokud je počet prvků tři, pak je počet různých zpráv stejný atd.

Počet možných zpráv je tedy určen:

Kde L— počet zpráv; n— počet prvků ve slově; T- abeceda.

Čím více L, tím více se může každá zpráva lišit od ostatních. Velikost L lze brát jako měřítko množství informací. Nicméně výběr L jako měřítko množství informací je spojeno s nepříjemnostmi: za prvé, kdy L=1 informace je nula, protože povaha zprávy je známa předem (tj. existuje zpráva, ale informace je nulová); za druhé není splněna podmínka pro lineární sčítání množství informace, tzn. aditivní stav. Pokud je například první zdroj charakterizován různými zprávami a druhý je charakterizován , pak celkový počet různých zpráv pro dva zdroje je určen produktem.


11
Kurz: "Teorie informací a kódování"
Téma: "TEORIE MATEMATICKÉ INFORMACE"

1. MNOŽSTVÍ INFORMACÍ A JEJÍ MÍRA

Sada zpráv vybraná ze souboru zpráv je dodávána na vstup systému přenosu informací (ITS) ze zdroje informací (obr. 1).

Rušení

x 1 rok 1

x 2 y 2

… …

x n y n

Obr.1. Systém přenosu informací

Soubor zpráv - soubor možných zpráv s jejich pravděpodobnostními charakteristikami - (X, str (X) } . V tomto případě: X=(x 1 , X 2 , …, X m } - mnoho možných zdrojových zpráv; i = 1,2, ..., m, Kde m- objem abecedy; p (x i) - pravděpodobnost zobrazení zpráv a p (x i) 0 a protože pravděpodobnosti zpráv představují úplnou skupinu událostí, jejich celková pravděpodobnost je rovna jedné

.

Každá zpráva nese určité množství informací. Pojďme určit množství informací obsažených ve zprávě x i, vybrané ze souboru zdrojových zpráv (X, str (X) } . Jedním z parametrů charakterizujících tuto zprávu je pravděpodobnost jejího výskytu - p (x i), proto je přirozené předpokládat, že množství informací (x i) ve zprávě x i je funkce p (x i). Pravděpodobnost zobrazení dvou nezávislých zpráv x 1 A x 2 rovnající se součinu pravděpodobností p (x 1 , x 2 ) = p (x 1 ). p (x 2 ), a informace v nich obsažené musí mít vlastnost aditivnosti, tj.:

(x 1 , x 2 ) = já (x 1 ) +Já (x 2 ). ( 1)

Proto se pro odhad množství informací navrhuje logaritmická míra:

. (2)

Nejméně pravděpodobné zprávy zároveň obsahují největší množství informací a množství informací ve zprávě o spolehlivé události je nulové. Protože Protože všechny logaritmy jsou proporcionální, výběr základny určuje jednotku informace:

log Ax = log bx/log bA.

V závislosti na bázi logaritmu se používají následující jednotky informace:

2 – [bit] ( bynární číslice- binární jednotka), používaná při analýze informačních procesů v počítačích a jiných zařízeních pracujících na bázi dvojkové číselné soustavy;

e - [nit] ( přirozený digitální- přirozená jednotka), používané v matematických metodách teorie komunikace;

10 - [dit] ( desetinná číslice- desetinná jednotka), používané při analýze procesů v zařízeních pracujících s desítkovou číselnou soustavou.

Porazit (binární jednotka informace) - je množství informací, které odstraňuje nejistotu ohledně výskytu jedné ze dvou stejně pravděpodobných, nezávislých událostí.

Průměrné množství informací pro celou sadu zpráv lze získat zprůměrováním všech událostí:

. (3)

Množství informací ve zprávě sestávající z n jeho neekvipravděpodobné prvky se rovnají (toto opatření navrhl v roce 1948 K. Shannon):

. (4)

Pro případ nezávislých stejně pravděpodobných událostí se určuje množství informací (toto opatření navrhl v roce 1928 R. Hartley):

. ( 5)

2. VLASTNOSTI MNOŽSTVÍ INFORMACÍ

1. Množství informací ve zprávě je nepřímo úměrné pravděpodobnosti, že se zpráva objeví.

2. Vlastnost aditivity - celkové množství informací ze dvou zdrojů se rovná součtu informací ze zdrojů.

3. U události s jedním výsledkem je množství informací nulové.

4. Množství informací v samostatné zprávě roste v závislosti na nárůstu objemu abecedy - m.

Kombinační opatření

Pro lepší pochopení se podívejme na několik jednoduchých příkladů.

Příklad 1. Udělejme experiment. Vezmeme si kostku. Má šest stran, každá s čísly od jedné do šesti.

Pusťme ho. Při hodu kostkou se objeví jedno z čísel na stranách kostky. Takto získané číslo je výsledkem naší zkušenosti.

Hozením kostkou kolikrát chceme, můžeme získat pouze šest možných čísel. Označme to jako N = 6.

Tento příklad nám umožňuje přejít ke konceptu kombinatorické míry informace a poskytnout následující definici:

Kombinatorická informační míra N je způsob měření množství informací odhadem počtu možných kombinací informačních prvků.

Protože v příkladu s kostkou existuje pouze šest možných výsledků experimentu, jinými slovy šest kombinací, pak množství informací v souladu s kombinatorickou mírou je N = 6 kombinací.

Zvažte následující příklad.

Příklad 2 Nechte jednu z desetinných číslic dát, například číslo 8, a jednu z hexadecimálních - například číslo 6 (můžete vzít jakékoli jiné šestnáctkové číslo - 8, B, F atd.). Nyní, v souladu s definicí kombinatorické míry, určíme množství informací obsažených v každém z těchto čísel. Protože číslo 8 je desetinné, což znamená, že představuje jeden znak z deseti, pak N 8 = 10 kombinací. Stejně tak číslo 6 představuje jeden ze šestnácti symbolů, a proto N 6 = 16 kombinací. Proto šestnáctková číslice obsahuje více informací než desítková číslice.

Z uvažovaného příkladu můžeme usoudit, že čím méně číslic je v základu číselné soustavy, tím méně informací nese jeden z jejích prvků.

Anglický inženýr R. Hartley navrhl měřit množství informací pomocí binární logaritmické míry:

kde N je počet různých kombinací informačních prvků. Jednotkou informace v tomto měření je bit.

Protože vzorec odvozený R. Hartleyem bere v úvahu počet možných kombinací N, je zajímavé vědět, jaký odhad množství informací poskytuje binární logaritmická míra pro výše uvedené příklady.

Výpočet dává následující výsledky:

v příkladu krychle I = log 2 6 = 2,585 bitu;

v příkladu s desítkovou číselnou soustavou I = log 2 10 = 3,322 bitů;

v hexadecimálním příkladu I = log 2 16 = 4 bity;

v příkladu s binární číselnou soustavou I = log 2 2 = 1 bit.

Poslední číslice označuje, že každá číslice binárního číselného systému obsahuje jeden bit informace. Obecně se v technických systémech binární číselný systém používá ke kódování dvou možných stavů, např. 1 označuje přítomnost elektrického proudu v síti, 0 označuje jeho nepřítomnost.



Ve všech výše diskutovaných příkladech byly výsledky experimentů stejně pravděpodobné a vzájemně nezávislé. To znamená, že při házení kostkou má každá ze šesti stran stejnou pravděpodobnost úspěšného výsledku. A také, že výsledek dalšího hodu nijak nezávisí na výsledku předchozího.

Stejně pravděpodobné a vzájemně nezávislé události jsou v reálném životě poměrně vzácné. Pokud věnujete pozornost mluveným jazykům, například ruštině, můžete vyvodit zajímavé závěry. Pro zjednodušení teoretického výzkumu v informatice se obecně uznává, že ruská abeceda se skládá z 32 znaků (e a ё, stejně jako ь a ъ se od sebe neliší, ale mezi slova je přidán znak mezery). Pokud předpokládáme, že každé písmeno ruského jazyka se ve zprávě vyskytuje stejně často a že za každým písmenem může následovat jakýkoli jiný symbol, můžeme množství informací v každém znaku ruského jazyka určit jako:

I = log 2 32 = 5.

Ve skutečnosti tomu tak však není. Ve všech mluvených jazycích jsou některá písmena běžnější, jiná mnohem méně běžná. Výzkum říká, že počet opakování na 1000 písmen je následující:

Pravděpodobnost výskytu jednotlivých písmen navíc závisí na tom, která písmena jim předcházejí. Takže v ruském jazyce nemůže za samohláskou následovat měkký znak, nemohou se objevit čtyři samohlásky za sebou a tak dále. Jakýkoli mluvený jazyk má své vlastní charakteristiky a vzorce. Proto množství informací ve zprávách vytvořených ze symbolů jakéhokoli mluveného jazyka nelze odhadnout ani kombinatorickými, ani binárními logaritmickými mírami.




Nahoru