Современные проблемы науки и образования. Количество информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели.

В основе всей теории информации лежит открытие, сделанное Р. Хартли в 1928 году, и состоящее в том, что информация допускает количественную оценку.

Подход Хартли основан на фундаментальных теоретико-множественных, по существу комбинаторных основаниях, а также нескольких интуитивно ясных и вполне очевидных предположениях.

Если существует множество элементов и осуществляется выбор одного из них, то этим самым сообщается или генерируется определенное количество информации. Эта информация состоит в том, что если до выбора не было известно, какой элемент будет выбран, то после выбора это становится известным. Необходимо найти вид функции, связывающей количество информации, получаемой при выборе некоторого элемента из множества, с количеством элементов в этом множестве, то есть с его мощностью. измерение алгоритмический прагматический байт

Если множество элементов, из которых осуществляется выбор, состоит из одного единственного элемента, то ясно, что его выбор предопределен, то есть, никакой неопределенности выбора нет - нулевое количество информации.

Если множество состоит из двух элементов, то неопределенность выбора минимальна. В этом случае минимально и количество информации.

Чем больше элементов в множестве, тем больше неопределенность выбора, тем больше информации.

Количество этих чисел (элементов) в множестве равно: N=2i

Из этих очевидных соображений следует первое требование: информация есть монотонная функция от мощности исходного множества.

Выбор одного числа дает нам следующее количество информации: i=Log 2 (N)

Таким образом, количество информации, содержащейся в двоичном числе, равно количеству двоичных разрядов в этом числе.

Это выражение и представляет собой формулу Хартли для количества информации.

При увеличении длины числа в два раза количество информации в нем так же должно возрасти в два раза, не смотря на то, что количество чисел в множестве возрастает при этом по показательному закону (в квадрате, если числа двоичные), то есть если N2=(N1)2, то I2=2*I1,

F(N1*N1)=F(N1)+F(N1).

Это невозможно, если количество информации выражается линейной функцией от количества элементов в множестве. Но известна функция, обладающая именно таким свойством: это Log:

Log 2 (N2)=Log 2 (N1)2=2*Log 2 (N1)

Это второе требование называется требованием аддитивности.

Таким образом, логарифмическая мера информации, предложенная Хартли, одновременно удовлетворяет условиям монотонности и аддитивности. Сам Хартли пришел к своей мере на основе эвристических соображений, подобных только что изложенным, но в настоящее время строго доказано, что логарифмическая мера для количества информации однозначно следует из этих двух постулированных им условий.

Пример. Имеются 192 монеты. Известно, что одна из них фальшивая, например, более легкая по весу. Определим, сколько взвешиваний нужно произвести, чтобы выявить её. Если положить на весы разное количество монет, то получим три независимые возможности: а) левая чашка ниже; б) правая чашка ниже; в) чашки уравновешены. Таким образом, каждое взвешивание дает количество информации I=log23, следовательно, для определения фальшивой монеты нужно сделать не менее k взвешиваний, где наименьшее k удовлетворяет условию log23k log2192. Отсюда, k 5или, k=4 (или k=5 - если считать за одно взвешивание и последнее, очевидное для определения монеты). Итак, необходимо сделать не менее пять взвешиваний (достаточно 5).

Направления оценки количества информации

В теории информации выделяются три основных направления: структурное, статистическое, семантическое.

Структурное - рассматривает дискретное строение массивов информации и их измерение простым подсчетом информационных элементов. (Простейшее кодирование массивов - комбинаторный метод.)

Статистическое направление оперирует понятием энтропии как меры неопределенности, то есть здесь учитывается вероятность появления тех или иных сообщений.

Семантическое направление учитывает целесообразность, ценность или существенность информации.

Эти три направления имеют свои определенные области применения. Структурное используется для оценки возможностей технических средств различных систем переработки информации, независимо от конкретных условий их применения. Статистические оценки применяются при рассмотрении вопросов передачи данных, определении пропускной способности каналов связи. Семантические используются при решении задач построения систем передачи информации разработки кодирующих устройств и при оценке эффективности различных устройств.

Структурные меры информации

Структурные меры учитывают только дискретное строение информации. Элементами информационного комплекса являются кванты - неделимые части информации. Различают геометрическую , комбинаторную и аддитивную меры.

Определение информации геометрическим методом представляет собой измерение длины линии, площади или объема геометрической модели информационного комплекса в количестве квантов. Максимально возможное число квантов в заданных структурных габаритах определяет информационную емкость системы . Информационная емкость есть число, указывающее количество квантов в полном массиве информации. Согласно рис. 1.2, г , количество информации М в комплексе X (T,N ), определенное геометрическим методом, равняется

Х, Т, N - интервалы, через которые осуществляются дискретные отсчеты.

В комбинаторной мере количество информации вычисляется как количество комбинаций элементов. Здесь учитываются возможные или реализованные комбинации.

Во многих случаях дискретное сообщение можно рассматривать как слово, состоящее из некоторого количества элементов n, заданных алфавитом, состоящим из т элементов-букв. Определим количество различных сообщений, которые можно образовать из данного алфавита. Если сообщение состоит из двух элементов (п= 2), то всего может быть различных сообщений. Например, из десяти цифр (0, 1, 2,..., 9) может быть образовано сто различных чисел от 0 до 99. Если количество элементов равно трем, то количество различных сообщений равно и т.д.

Таким образом, число возможных сообщений определяется:

где L - число сообщений; п - число элементов в слове; т - алфавит.

Чем больше L , тем сильнее может отличаться каждое сообщение от остальных. Величина L может быть принята в качестве меры количества информации. Однако выбор L в качестве меры количества информации связан с неудобствами: во-первых, при L =1 информация равна нулю, поскольку заранее известен характер сообщения (т.е. сообщение есть, а информация равна нулю); во-вторых, не выполняется условие линейного сложения количества информации, т.е. условие аддитивности. Если, например, первый источник характеризуется различными сообщениями, а второй - , то общее число различных сообщений для двух источников определяется произведением

L= .

Для k источников общее число возможных различных сообщений равно

Поэтому Хартли ввел логарифмическую (аддитивную) меру количества информации, позволяющую оценивать количество инфомации, содержащейся в сообщении, логарифмом числа возможных сообщений.

I= .

Тогда при L= 1 I= 0, т.е. информация отсутствует.

Для k источников информации

т.е. I= .

Статистические меры информации

При статическом вероятностном подходе получение конкретного количества информации рассматривается как результат определенного выбора среди возможных сообщений. Получатель информации может заранее знать или угадать ее часть. Когда приходит сообщение о часто происходящих событиях, вероятность появления которых Р стремится к единице, то такое сообщение малоинформативно. Столь же малоинформативны в среднем сообщения о событиях, вероятности которых стремятся к нулю, т.е. о почти невозможных событиях, поскольку сообщения о таких событиях поступают чрезвычайно редко.

События можно рассматривать как возможные исходы некоторого опыта. Все исходы составляют полную группу событий, или ансамбль.

Ансамбль характеризуется тем, что сумма вероятностей всех сообщений в нем равна единице, то есть

.

Рассмотрим сложные сообщения, составляемые из п элементов, каждый из которых является независимым и выбирается из алфавита, содержащего т букв, с вероятностями выбора элементов соответственно. Предположим, что в некоторое сообщение вошло элементов алфавита, элементов и т.д. Такое сообщение характеризуется таблицей (табл. 1.1).

Таблица 1.1

Тип элемента ... ...
Число элементов ... ...

Вероятности выбора

элементов

Вероятность того, что в сообщение войдут элементов равняется , а вероятность образования сообщения из ,, ,...,,..., элементов будет равна

Р= . (1.1)

При большой длине п источником будут формироваться типичные сообщения, в которых относительная частота появления отдельных элементов стремится к вероятности появления этих элементов, то есть

, (1.2)

а вероятности появления типичных сообщений Р будут одинаковы и могут быть найдены из (1.1), (1.2):

Р= . (1.3)

Определим число типичных сообщений:

так как суммарная вероятность всех типичных сообщений стремится к единице при увеличении длины сообщений.

Хотя число возможных сообщений , источник практически будет вырабатывать только L типичных сообщений, а вероятность появления остальных сообщений стремится к нулю.

Найдем количество информации I , содержащейся в одном сообщении:

I= log L= - log. (1.5)

Данное выражение (формула Шеннона) дает более полное представление об источнике информации, чем аддитивная мера (мера Хартли). Поясним это на следующем примере. Если мы подбрасываем монету, то получим сообщение из двух возможных состояний (орел или решка), то есть, алфавит сообщений из двух букв. Если подбрасываем кубик, одна грань которого голубая, а остальные грани окрашены в розовый цвет, то здесь также имеем алфавит из двух букв (голубой или розовый). Чтобы записать полученный текст (сообщение), в обоих случаях достаточно одной двоичной цифры на букву (п= 1, т= 2).

По Хартли здесь в обоих случаях

Но мы знаем, что в первом случае вероятность каждого исхода опыта равна 0,5 (=0,5). А во втором случае и соответственно. Мера Хартли не учитывает этого.

При равновероятности символов (частный случай) формула Шеннона вырождается в формулу Хартли:

I= - n.

Для случая с монетой:

I= - 1 .

Для случая с кубиком:

I= - 1 .

Количество информации, приходящейся на один элемент сообщения, называется удельной информативностью или энтропией .

Н= . (1.6)

Количество информации и энтропия являются логарифмическими мерами и измеряются в одних и тех же единицах. Основание логарифма определяет единицу измерения количества информации и энтропии. Двоичная единица соответствует основанию логарифма, равному двум, и называется битом. Один бит - это количество информации в сообщении в одном из двух равновероятностных исходов некоторого опыта. Используются также натуральные (НИТ) и десятичные (ДИТ) логарифмы. Аналогичными единицами пользуются и при оценке количества информации с помощью меры Хартли.

Из формулы Шеннона следует, что количество информации, содержащейся в сообщении, зависит от числа элементов сообщения п , алфавита т и вероятностей выбора элементов . Зависимость I от п является линейной .

Отметим некоторые свойства энтропии.

1. Энтропия является величиной вещественной, ограниченной и неотрицательной, то есть Н> 0. Это свойство следует из выражения (1.6).

2. Энтропия минимальна и равна нулю, если сообщение известно заранее, то есть если =1, а

3. Энтропия максимальна, если все состояния элементов сообщений равновероятны.

Н=, если . (1.7)

Величину максимальной энтропии найдем при использовании (1.6) и (1.7):

Целесообразность, полезность информации для решения какой-то задачи можно оценить по эффекту, который оказывает полученная информация на решение задачи. Если вероятность достижения цели увеличивается, то информацию следует считать полезной.

Аддитивная мера (мера Хартли) использует понятия глубины А и длины n числа.

Глубина числа - количество символов (элементов), принятых для представления информации. В каждый момент времени реализуется только один какой-либо символ.

Длина n числа - количество позиций, необходимых и достаточных для представления чисел заданной величины.

Эти понятия могут быть распространены и на вариант нечислового сообщения. В этом случае глубина числа тождественна размеру алфавита, а длина числа - разрядности слова при передаче символьного сообщения.

Если сообщение - число, понятие глубины числа будет трансформировано в понятие основания системы счисления. При заданных глубине и длине числа количество чисел, которое можно представить, N = А n . Очевидно, что N однозначно характеризует степень исходной неопределенности. Исходная неопределенность по Хартли определяется

H 1 = log a N . (4)

Неопределенность после получения сообщения, остаточная неопределенность,

H 2 = log a N* , (5)

где N* - число возможных значений принятого слова после получения сообщения.

Основание логарифма в (5) определяет только единицы измерения неопределенности. При a=2 это двоичная единица информации, называемая бит. При a = 10 десятичная (дит ), при a =e натуральная (нат ). Далее мы будем всегда пользоваться двоичной единицей.

N* равно единице, если после получения информации нет неопределенности, т.е. получатель гарантировано получил то сообщение, которое было передано. Если получателю приходится после приема информации выбирать сообщения из некоторого множества, а это происходит тогда, когда в канале связи за счет влияния помех возникают искажения переданного сигнала, то характеризует число возможных сообщений при выборе. Таким образом, если передается символ некоторого алфавита, N* определяет возможную неоднозначность приема символа за счет искажений в канале связи. В случае измерительного опыта, число N* - характеризует число возможных значений величины после измерения и определяет погрешность измерения.

Очевидно, что должно быть N* < N, а N* = 1 только в идеальном случае передачи сообщения без потери информации или, что то же самое, измерения некоторой физической величины без ошибок. Количество информации по Хартли оценивается как

I=H 1 – H 2 = log a N - loga N* n = log a N/ N* . (6)

Логарифмическая мера, позволяющая, вычислять количество информации, содержащейся в сообщении, переданном числом длиной n и глубиной А :

I(q) =log 2 N=n log 2 А , бит . (7)

Следовательно, 1 бит информации соответствует одному элементарному событию, которое может произойти или не произойти. Такая мера количества информации удобна тем, что она обеспечивает возможность оперировать мерой как числом. Из сравнения (7) и (2) следует, что численное значение неопределенности определяет число двоичных разрядов, необходимое для кодирования символа алфавита А .

Логарифмическая мера для неопределенности и информации выбрана не случайно. Она оказывается удобной при описании сложных опытов. Допустим, что задача состоит в одновременном приеме информации от двух источников, не зависящих друг от друга. При этом N 1 и n 1 - число возможных сообщений до и после приема информации от первого источника, а - N 2 и n 2 от второго. Пусть H 11 и H 12 - исходная неопределенность знания первого и второго сообщения, соответственно, первого и второго источника. Естественно потребовать, чтобы общая неопределенность знания о двух сообщениях определялась суммой неопределенностей каждого, т.е. мера должна обладать свойством аддитивности

H = H 11 + H 12 .

Число возможных сочетаний двух независимых величин из множеств N 1 N 2 N = N 1 N 2 .

Тогда исходная неопределенность H =H 11 + H 12 , аналогично остаточная неопределенность H=H 21 +H 22 .

При наличии нескольких источников информации общее количество информации

I(q 1 , q 2 , ...,q n)= I(q 1)+ I(q 2)+...+I(q k) , (8)

где I(q k) - количество информации от источника k .

Логарифмическая мера информации позволяет измерять количество информации и широко используется на практике. Однако всегда надо учитывать, что все сообщения в этой мере полагаются равновероятными и независимыми. Эти допущения приводит на практике к существенно завышенным оценкам.

Примечание. Для рассмотрения дальнейшего материала необходимо использовать понятие «вероятность события» . Под вероятностью события (см., например, Лютикас В.С. Факультативный курс по математике. Теория вероятностей. М.: Просвещение, 1990.) принимается постоянная величина, около которой группируются значения частоты появление некоторого события, например, передачи одного из символов алфавита. Если частота появления любого символа алфавита при передаче длинной последовательности символов одинакова, то говорят о равновероятных событиях, символах, сообщениях и т.п. Независимыми сообщения полагают, если вероятности их передачи не зависят от того, какие сообщения были переданы ранее.


©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-12-29

Структурная мера информации

При использовании структурных мер информации учитывается только дискретное строение сообщения, количество содержащихся в нем информационных элементов, связей между ними.

При структурном подходе различаются:

1) Геометрическая мера — предполагает измерение параметра геометрической модели информационного сообщения (длины, площади, объема…) в дискретных единицах.

Информационная емкость модели – максимально возможное количество информации – определяется как сумма дискретных значений по всем измерениям (координатам).

2) Комбинаторная мера – количество информации определяемое как число комбинаций элементов.

3) Аддитивная мера – (мера Хартли) – количество информации измеряется в двоичных единицах – битах.

Используются понятия:

Глубина q числа – количество символов, принятых для представления информации. В каждый момент времени реализуется только один какой-либо символ.

Длина n числа – количество позиций, необходимых и достаточных для представления чисел заданной величины.

При заданных глубине и длине числа количество чисел, которые можно представить N = qn.

Логарифмическая величина: I = log2N =n log2q (бит) — мера Хартли.

Таким образом, количество информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на количество знаков.

За единицу количества информации принимается такое количество информации, которое содержит сообщение, уменьшающее неопределенность в два раза. Это бит.

Структурное — рассматривает дискретное строение массивов информации и их измерение простым подсчетом информационных элементов. (Простейшее кодирование массивов — комбинаторный метод.)

Структурные меры информации

Структурные меры учитывают только дискретное строение информации. Элементами информационного комплекса являются кванты — неделимые части информации. Различаютгеометрическую , комбинаторную и аддитивную меры.

Определение информации геометрическим методом представляет собой измерение длины линии, площади или объема геометрической модели информационного комплекса в количестве квантов. Максимально возможное число квантов в заданных структурных габаритах определяет информационную емкость системы . Информационная емкость есть число, указывающее количество квантов в полном массиве информации. Согласно рис. 1.2, г , количество информации М в комплексе X (T,N ), определенное геометрическим методом, равняется

Х, Т, N — интервалы, через которые осуществляются дискретные отсчеты.

В комбинаторной мере количество информации вычисляется как количество комбинаций элементов. Здесь учитываются возможные или реализованные комбинации.

Во многих случаях дискретное сообщение можно рассматривать как слово, состоящее из некоторого количества элементов n, заданных алфавитом, состоящим из т элементов-букв. Определим количество различных сообщений, которые можно образовать из данного алфавита. Если сообщение состоит из двух элементов (п= 2), то всего может быть различных сообщений. Например, из десяти цифр (0, 1, 2,…, 9) может быть образовано сто различных чисел от 0 до 99. Если количество элементов равно трем, то количество различных сообщений равно и т.д.

Таким образом, число возможных сообщений определяется:

где L — число сообщений; п — число элементов в слове; т — алфавит.

Чем больше L , тем сильнее может отличаться каждое сообщение от остальных. Величина L может быть принята в качестве меры количества информации. Однако выбор L в качестве меры количества информации связан с неудобствами: во-первых, при L =1 информация равна нулю, поскольку заранее известен характер сообщения (т.е. сообщение есть, а информация равна нулю); во-вторых, не выполняется условие линейного сложения количества информации, т.е. условие аддитивности. Если, например, первый источник характеризуется различными сообщениями, а второй — , то общее число различных сообщений для двух источников определяется произведением


11
Курс: "Теория информации и кодирования"
Тема: "МАТЕМАТИЧЕСКАЯ ТЕОРИЯ ИНФОРМАЦИИ"

1. КОЛИЧЕСТВО ИНФОРМАЦИИ, И ЕЕ МЕРА

На вход системы передачи информации (СПИ) от источника информации подается совокупность сообщений, выбранных из ансамбля сообщений (рис.1).

Помехи

x 1 y 1

x 2 y 2

… …

x n y n

Рис.1. Система передачи информации

Ансамбль сообщений - множество возможных сообщений с их вероятностными характеристиками - {Х, р (х ) } . При этом: Х={х 1 , х 2 , …, х m } - множество возможных сообщений источника; i = 1, 2 , ..., m , где m - объем алфавита; p (x i ) - вероятности появления сообщений, причем p (x i ) 0 и поскольку вероятности сообщений представляют собой полную группу событий, то их суммарная вероятность равна единице

.

Каждое сообщение несет в себе определенное количество информации. Определим количество информации, содержащееся в сообщении x i , выбранном из ансамбля сообщений источника {Х, р (х ) } . Одним из параметров, характеризующих данное сообщение, является вероятность его появления - p (x i ), поэтому естественно предположить, что количество информации I (x i ) в сообщении x i является функцией p (x i ). Вероятность появления двух независимых сообщений x 1 и x 2 равна произведению вероятностей p (x 1 , x 2 ) = p (x 1 ). p (x 2 ), а содержащаяся в них информация должна обладать свойством аддитивности, т.е.:

I (x 1 , x 2 ) = I (x 1 ) +I (x 2 ). ( 1)

Поэтому для оценки количества информации предложена логарифмическая мера:

. (2)

При этом, наибольшее количество информации содержат наименее вероятные сообщения, а количество информации в сообщении о достоверном событии равно нулю. Т.к. все логарифмы пропорциональны, то выбор основания определяет единицу информации:

log a x = log b x/log b a .

В зависимости от основания логарифма используют следующие единицы информации:

2 - [бит] (bynary digit - двоичная единица), используется при анализе ин-формационных процессов в ЭВМ и др. устройствах, функционирующих на основе двоичной системы счисления;

e - [нит] (natural digit - натуральная единица), используется в математических методах теории связи;

10 - [дит] (decimal digit - десятичная единица), используется при анализе процессов в приборах работающих с десятичной системой счисления.

Битом (двоичной единицей информации) - называется количество информации, которое снимает неопределенность в отношении наступления одного из двух равновероятных, независимых событий.

Среднее количество информации для всей совокупности сообщений можно получить путем усреднения по всем событиям:

. (3)

Количество информации, в сообщении, состоящем из n не равновероятных его элементов равно (эта мера предложена в 1948 г.К. Шенноном):

. (4)

Для случая независимых равновероятных событий количество инфор-мации определяется (эта мера предложена в 1928 г.Р. Хартли):

. ( 5)

2. СВОЙСТВА КОЛИЧЕСТВА ИНФОРМАЦИИ

1. Количество информации в сообщении обратно-пропорционально вероятности появления данного сообщения.

2. Свойство аддитивности - суммарное количество информации двух источников равно сумме информации источников.

3. Для события с одним исходом количество информации равно нулю.

4. Количество информации в дискретном сообщении растет в зависимости от увеличения объема алфавита - m .




Top