Количество информации. Понятие количества информации

Свойства информации

Понятие «информация» используется многими научными дисциплинами, имеет большое количество разнообразных свойств, но каждая дисциплина обращает внимание на те свойства информации, которые ей наиболее важны. В рамках нашего рассмотрения наиболее важными являются такие свойства, как дуализм, полнота, достоверность, адекватность, доступность, актуальность . Рассмотрим их подробнее.

Дуализм информации характеризует ее двойственность. С одной стороны, информация объективна в силу объективности данных, с другой – субъективна, в силу субъективности применяемых методов. Например, два человека читают одну и ту же книгу и получают подчас весьма разную информацию. Более объективная информация применяет методы с меньшим субъективным элементом.

Полнота информации характеризует степень достаточности данных для принятия решения или создания новых данных на основе имеющихся. И неполный и избыточный наборы данных затрудняют получение информации и принятие адекватного решения.

Достоверность информации – это свойство, характеризующее степень соответствия информации реальному объекту с необходимой точностью. При работе с неполным набором данных достоверность информации может характеризоваться вероятностью, например, при бросании монеты выпадет герб с вероятностью 50 %.

Адекватность информации выражает степень соответствия создаваемого с помощью информации образа реальному объекту, процессу, явлению. Получение адекватной информации затрудняется при недоступности адекватных методов.

Доступность информации – это возможность получения информации при необходимости. Доступность складывается из двух составляющих: доступности данных и доступности методов. Отсутствие хотя бы одного дает неадекватную информацию.

Актуальность информации. Информация существует во времени, т. к. существуют во времени все информационные процессы. Информация, актуальная сегодня, может стать совершенно ненужной по истечении некоторого времени. Например, программа телепередач на нынешнюю неделю будет неактуальна для многих телезрителей на следующей неделе.

Атрибутивные свойства (атрибут – неотъемлемая часть чего-либо). Важнейшими среди них являются - дискретность (информация состоит из отдельных частей, знаков) и непрерывность (возможность накапливать информацию).

Во всякой информации присутствует субъективная компонента. А возможно ли вообще объективно измерить количество информации? Важнейшим результатом теории информации является вывод о том, что в определенных условиях, можно, пренебрегая качественными особенностями информации, выразить ее количество числом , а следовательно, сравнивать количество информации, содержащейся в различных группах данных.



Количеством информации называют числовую характеристику информации, отражающую ту степень неопределенности, которая исчезает после получения информации.

Понятия «информация», «неопределенность», «возможность выбора» тесно связаны. Получаемая информация уменьшает число возможных вариантов выбора (т.е. неопределенность), а полная информация не оставляет вариантов вообще.

Какое количество информации содержится, к примеру, в тексте романа «Война и мир», во фресках Рафаэля или в генетическом коде человека? Возможно ли объективно измерить количество информации?

В научном плане понятие «информация» связывается с вероят­ностью осуществления того или иного события.

Вероятность – числовая характеристика степени возможности наступления события. Вероятность достоверного события (обяза­тельно должно произойти) равна 1, невозможного события (не про­изойдет никогда) – 0. Вероятность случайного события лежит в ин­тервале (0, 1). Например, вероятность выпадения «орла» при под­брасывании монеты равна 1/2, а вероятность выпадения каждой из граней при игре в кости – 1/6.

Случайным называется событие , которое может произойти, а может и не произойти. Примерами случайных событий могут слу­жить выпадение «орла» при подбрасывании монеты или число оч­ков (т.е. выпадение определенной грани) при игре в кости.

Американский инженер Р. Хартли (1928) процесс получения ин­формации рассматривал как выбор одного сообщения из конечного заранее заданного множества из N равновероятных сообщений, а количество информации I , содержащееся в выбранном сообщении, определяет как двоичный логарифм N .

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли I = log 2 N можно вычислить, какое количество информации для этого требуется: I = Iog 2 l00 = 6,644 бит, т.е. сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 бит.

Американский ученый Клод Шеннон предложил в 1948 г. другую формулу определения количества ин­формации, учитывающую возможную неодинаковую вероятность сообщений в наборе:

I = - (P 1 log 2 P 1 + Р 2 log 2 Р 2 + . . . + P N log 2 P N ),

где P i – вероятность того, что именно i -e сообщение выделено в наборе из N сообщений.

Если вероятности P 1 , Р 2 , …, P N равны, то каждая из них равна 1/N , и формула Шеннона превращается в формулу Хартли.

Анализ формулы показывает, что чем выше вероятность собы­тия, тем меньшее количество информации возникает после его осу­ществления, и наоборот. Если вероятность равна 1 (событие досто­верно), количество информации равно 0.

Если вероятность свершения или несвершения какого-либо со­бытия одинакова, т.е. равна 1/2, то количество информации, кото­рое несет с собой это событие, равно 1. Это и есть единица измере­ния информации, которая получила наименование бит .

Бит можно также определить как количество информа­ции, которое содержит один разряд двоичного числа (отсюда назва­ние «бит»: binary digit – двоичный разряд). Бит в теории информа­ции – количество информации , необходимое для различения двух равновероятных сообщений .

Количество информации, равное 8 битам, называется байтом . В восьми разрядах можно записать 256 различных целых двоичных чисел от 00000000 до 11111111. Широко используются более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт;

1 Мегабайт (Мбайт) = 1024 Кбайт;

1 Гигабайт (Гбайт) = 1024 Мбайт.

1 Терабайт (Тбайт) = 1024 Гбайт;

1 Петабайт (Пбайт) = 1024 Тбайт.

Рассмотрены основы информатики и описаны современные аппаратные средства персонального компьютера. Сформулированы подходы к определению основных понятий в области информатики и раскрыто их содержание. Дана классификация современных аппаратных средств персонального компьютера и приведены их основные характеристики. Все основные положения иллюстрированы примерами, в которых при решении конкретных задач используются соответствующие программные средства.

Книга:

Разделы на этой странице:

Как уже отмечалось, понятие информации можно рассматривать при различных ограничениях, накладываемых на ее свойства, т. е. при различных уровнях рассмотрения. В основном выделяют три уровня – синтаксический, семантический и прагматический. Соответственно на каждом из них для определения количества информации применяют различные оценки.

На синтаксическом уровне для оценки количества информации используют вероятностные методы, которые принимают во внимание только вероятностные свойства информации и не учитывают другие (смысловое содержание, полезность, актуальность и т. д.). Разработанные в середине XX в. математические и, в частности, вероятностные методы позволили сформировать подход к оценке количества информации как к мере уменьшения неопределенности знаний. Такой подход, называемый также вероятностным, постулирует принцип: если некоторое сообщение приводит к уменьшению неопределенности наших знаний, то можно утверждать, что такое сообщение содержит информацию. При этом сообщения содержат информацию о каких-либо событиях, которые могут реализоваться с различными вероятностями. Формулу для определения количества информации для событий с различными вероятностями и получаемых от дискретного источника информации предложил американский ученый К. Шеннон в 1948 г. Согласно этой формуле количество информации может быть определено следующим образом:


где I – количество информации; N – количество возможных событий (сообщений); p i – вероятность отдельных событий (сообщений); ? – математический знак суммы чисел.

Определяемое с помощью формулы (1.1) количество информации принимает только положительное значение. Поскольку вероятность отдельных событий меньше единицы, то соответственно выражение log^,– является отрицательной величиной и для получения положительного значения количества информации в формуле (1.1) перед знаком суммы стоит знак минус.

Если вероятность появления отдельных событий одинаковая и они образуют полную группу событий, т. е.


то формула (1.1) преобразуется в формулу Р. Хартли:


В формулах (1.1) и (1.2) отношение между количеством информации и соответственно вероятностью, или количеством, отдельных событий выражается с помощью логарифма. Применение логарифмов в формулах (1.1) и (1.2) можно объяснить следующим образом. Для простоты рассуждений воспользуемся соотношением (1.2). Будем последовательно присваивать аргументу N значения, выбираемые, например, из ряда чисел: 1, 2, 4, 8, 16, 32, 64 и т. д. Чтобы определить, какое событие из N равновероятных событий произошло, для каждого числа ряда необходимо последовательно производить операции выбора из двух возможных событий. Так, при N = 1 количество операций будет равно 0 (вероятность события равна 1), при N = 2, количество операций будет равно 1, при N = 4 количество операций будет равно 2, при N = 8, количество операций будет равно 3 и т. д. Таким образом получим следующий ряд чисел: 0, 1, 2, 3, 4, 5, 6 и т. д., который можно считать соответствующим значениям функции I в соотношении (1.2). Последовательность значений чисел, которые принимает аргумент N, представляет собой ряд, известный в математике как ряд чисел, образующих геометрическую прогрессию, а последовательность значений чисел, которые принимает функция I , будет являться рядом, образующим арифметическую прогрессию. Таким образом, логарифм в формулах (1.1) и (1.2) устанавливает соотношение между рядами, представляющими геометрическую и арифметическую прогрессии, что достаточно хорошо известно в математике.

Для количественного определения (оценки) любой физической величины необходимо определить единицу измерения, которая в теории измерений носит название меры. Как уже отмечалось, информацию перед обработкой, передачей и хранением необходимо подвергнуть кодированию. Кодирование производится с помощью специальных алфавитов (знаковых систем). В информатике, изучающей процессы получения, обработки, передачи и хранения информации с помощью вычислительных (компьютерных) систем, в основном используется двоичное кодирование, при котором используется знаковая система, состоящая из двух символов 0 и 1. По этой причине в формулах (1.1) и (1.2) в качестве основания логарифма используется цифра 2.

Исходя из вероятностного подхода к определению количества информации эти два символа двоичной знаковой системы можно рассматривать как два различных возможных события, поэтому за единицу количества информации принято такое количество информации, которое содержит сообщение, уменьшающее неопределенность знания в два раза (до получения событий их вероятность равна 0,5, после получения – 1, неопределенность уменьшается соответственно: 1/0,5 = 2, т. е. в 2 раза). Такая единица измерения информации называется битом (от англ. слова binary digit – двоичная цифра). Таким образом, в качестве меры для оценки количества информации на синтаксическом уровне, при условии двоичного кодирования, принят один бит.

Следующей по величине единицей измерения количества информации является байт, представляющий собой последовательность, составленную из восьми бит, т. е.

1 байт = 2 3 бит = 8 бит.

В информатике также широко используются кратные байту единицы измерения количества информации, однако в отличие от метрической системы мер, где в качестве множителей кратных единиц применяют коэффициент 10n, где п = 3, 6, 9 и т. д., в кратных единицах измерения количества информации используется коэффициент 2n. Выбор этот объясняется тем, что компьютер в основном оперирует числами не в десятичной, а в двоичной системе счисления.

Кратные байту единицы измерения количества информации вводятся следующим образом:

1 Килобайт (Кбайт) = 2 10 байт = 1024 байт,

1 Мегабайт (Мбайт) = 2 10 Кбайт = 1024 Кбайт,

1 Гигабайт (Гбайт) = 2 10 Мбайт = 1024 Мбайт,

1 Терабайт (Тбайт) = 2 10 Гбайт = 1024 Гбайт,

1 Петабайт (Пбайт) = 2 10 Тбайт = 1024 Тбайт,

1 Экзабайт (Эбайт) = 2 10 Пбайт = 1024 Пбайт.

Единицы измерения количества информации, в названии которых есть приставки «кило», «мега» и т. д., с точки зрения теории измерений не являются корректными, поскольку эти приставки используются в метрической системе мер, в которой в качестве множителей кратных единиц используется коэффициент 10n, где п = 3, 6, 9 и т. д. Для устранения этой некорректности международная организацией International Electrotechnical Commission, занимающаяся созданием стандартов для отрасли электронных технологий, утвердила ряд новых приставок для единиц измерения количества информации: киби (kibi), меби (mebi), гиби (gibi), теби (tebi), пети (peti), эксби (exbi). Однако пока используются старые обозначения единиц измерения количества информации, и требуется время, чтобы новые названия начали широко применяться.

Вероятностный подход используется и при определении количества информации, представленной с помощью знаковых систем. Если рассматривать символы алфавита как множество возможных сообщений N, то количество информации, которое несет один знак алфавита, можно определить по формуле (1.1). При равновероятном появлении каждого знака алфавита в тексте сообщения для определения количества информации можно воспользоваться формулой (1.2).

Количество информации, которое несет один знак алфавита, тем больше, чем больше знаков входит в этот алфавит. Количество знаков, входящих в алфавит, называется мощностью алфавита. Количество информации (информационный объем), содержащееся в сообщении, закодированном с помощью знаковой системы и содержащем определенное количество знаков (символов), определяется с помощью формулы:


где V – информационный объем сообщения; / = log 2 N, информационный объем одного символа (знака); К – количество символов (знаков) в сообщении; N – мощность алфавита (количество знаков в алфавите).

Поясним вышесказанное в п. 1.2 на примерах.

Пример 1.1

Определим, какое количество информации можно получить после реализации одного из шести событий. Вероятность первого события составляет 0,15; второго – 0,25; третьего – 0,2; четвертого – 0,12; пятого – 0,12; шестого – 0,1, т. е. Р 1 = 0,15; Р 2 = 0,25; Р 3 = 0,2; Р 4 = 0,18; Р 5 = 0,12; Р 6 = 0,1.

Решение.

Для определения количества информации применим формулу (1.1)


Для вычисления этого выражения, содержащего логарифмы, воспользуемся сначала компьютерным калькулятором, а затем табличным процессором Microsoft (MS) Excel, входящим в интегрированный пакет программ MS Office ХР.

Для вычисления с помощью компьютерного калькулятора выполним следующие действия.

С помощью команды: [Кнопка Пуск – Программы – Стандартные – Калькулятор] запустим программу Калькулятор. После запуска программы выполним команду: [Вид – Инженерный] (рис. 1.3).


Рис. 1.3. Инженерный калькулятор

Кнопка log калькулятора производит вычисление десятичного (по основанию 10) логарифма отображаемого числа. Поскольку в нашем случае необходимо производить вычисления логарифмов по основанию 2, а данный калькулятор не позволяет этого делать, то необходимо воспользоваться известной формулой:

logbN = М · log a N,


В нашем случае соотношение примет вид: log 2 N = M log 10 N,


т. е log 2 N = 3,322 · log 10 N, и выражение для вычисления количества информации примет вид:


При вычислении на калькуляторе используем кнопки: +/- (изменение знака отображаемого числа),()(открывающие и закрывающие скобки), log (логарифм числа по основанию 10) и т. д. Результат вычисления показан на рис. 1.3. Таким образом, количество информации I = 2,52 бит.

Воспользуемся теперь табличным процессором MS Excel. Для запуска программы Excel выполним команду: [Кнопка Пуск – Программы – MS Office ХР – Microsoft Excel]. В ячейки А1, В1, С1, D1, E1, F1 открывшегося окна Excel запишем буквенные обозначения вероятностей Р 1 , Р 2 , P 3 , Р 4 , P 5 , P 6 а в ячейку G1 – количество информации I , которое необходимо определить. Для написания нижних индексов у вероятностей Р 1 ? P 6 в ячейках А1, В1, С1, D1, E1, F1 выполним следующую команду: [Формат – Ячейки – Шрифт – Видоизменение (поставим флажок напротив нижнего индекса) ]. В ячейки А2, В2, С2, D2, Е2, F2 запишем соответствующие значения вероятностей.

После записи значений в ячейки необходимо установить в них формат числа. Для этого необходимо выполнить следующую команду: [Формат – Ячейки – Число – Числовой (устанавливаем число десятичных знаков, равное двум) ]. Устанавливаем в ячейке G2 тот же числовой формат. В ячейку G2 записываем выражение = – (A2*LOG(A2;2) + B2*LOG(B2;2) + C2*LOG(C2;2) + D2*LOG(D2;2) + E2*LOG(E2;2) + F2*LOG(F2;2)). После нажатия на клавиатуре компьютера клавиши , в ячейке G2 получим искомый результат – I = 2,52 бит (рис. 1.4).


Рис. 1.4. Результат вычисления количества информации

Пример 1.2

Определим, какое количество байт и бит информации содержится в сообщении, если его объем составляет 0,25 Кбайта.

Решение.

С помощью калькулятора определим количество байт и бит информации, которое содержится в данном сообщении:

I = 0,25 Кбайт · 1024 байт/1 Кбайт = 256 байт;

I = 256 байт · 8 бит/1 байт = 2048 бит.

Пример 1.3

Определим мощность алфавита, с помощью которого передано сообщение, содержащее 4096 символов, если информационный объем сообщения составляет 2 Кбайта.

Решение.

С помощью калькулятора переведем информационный объем сообщения из килобайт в биты:

V = 2 Кбайт 1024 байт/1 Кбайт = 2048 байт 8 бит/1 байт = 16384 бит.

Определим количество бит, приходящееся на один символ (информационный объем одного символа) в алфавите:

I = 16 384 бит/4096 = 4 бит.

Используя формулу (1.3), определим мощность алфавита (количество символов в алфавите) :

N = 2 I = 2 4 = 16.

Как уже отмечалось, если принять во внимание только свойство информации, связанное с ее смысловым содержанием, то при определении понятия информации можно ограничиться смысловым, или семантическим, уровнем рассмотрения этого понятия.

На семантическом уровне информация рассматривается по ее содержанию, отражающему состояние отдельного объекта или системы в целом. При этом не учитывается ее полезность для получателя информации. На данном уровне изучаются отношения между знаками, их предметными и смысловыми значениями (см. рис. 1.1), что позволяет осуществить выбор смысловых единиц измерения информации. Поскольку смысловое содержание информации передается с помощью сообщения, т. е. в виде совокупности знаков (символов), передаваемых с помощью сигналов от источника информации к приемнику, то широкое распространение для измерения смыслового содержания информации получил подход, основанный на использовании тезаурусной меры. При этом под тезаурусом понимается совокупность априорной информации (сведений), которой располагает приемник информации.

Данный подход предполагает, что для понимания (осмысливания) и использования полученной информации приемник (получатель) должен обладать априорной информацией (тезаурусом), т. е. определенным запасом знаков, наполненных смыслом, слов, понятий, названий явлений и объектов, между которыми установлены связи на смысловом уровне. Таким образом, если принять знания о данном объекте или явлении за тезаурус, то количество информации, содержащееся в новом сообщении о данном предмете, можно оценить по изменению индивидуального тезауруса под воздействием данного сообщения. В зависимости от соотношений между смысловым содержанием сообщения и тезаурусом пользователя изменяется количество семантической информации, при этом характер такой зависимости не поддается строгому математическому описанию и сводится к рассмотрению трех основных условий, при которых тезаурус пользователя:

Стремится к нулю, т. е. пользователь не воспринимает поступившее сообщение;

Стремится к бесконечности, т. е. пользователь досконально знает все об объекте или явлении и поступившее сообщение его не интересует;

Согласован со смысловым содержанием сообщения, т. е. поступившее сообщение понятно пользователю и несет новые сведения.

Два первых предельных случая соответствуют состоянию, при котором количество семантической информации, получаемое пользователем, минимально. Третий случай связан с получением максимального количества семантической информации. Таким образом, количество семантической информации, получаемой пользователем, является величиной относительной, поскольку одно и то же сообщение может иметь смысловое содержание для компетентного и быть бессмысленным для некомпетентного пользователя.

Поэтому возникает сложность получения объективной оценки количества информации на семантическом уровне ее рассмотрения и для получения такой оценки используют различные единицы измерения количества информации: абсолютные или относительные. В качестве абсолютных единиц измерения могут использоваться символы, реквизиты, записи и т. д., а в качестве относительной – коэффициент содержательности, который определяется как отношение семантической информации к ее объему. Например, для определения на семантическом уровне количества информации, полученной студентами на занятиях, в качестве единицы измерения может быть принят исходный балл (символ), характеризующий степень усвояемости ими нового учебного материала, на основе которого можно косвенно определить количество информации, полученное каждым студентом. Это количество информации будет выражено через соответствующий оценочный балл в принятом диапазоне оценок.

При семантическом подходе к оценке количества информации и выборе единицы измерения существенным является вид получаемой информации (сообщения). Так, данный подход к оценке количества экономической информации позволяет выявить составную единицу экономической информации, состоящую из совокупности других единиц информации, связанных между собой по смыслу. Элементарной составляющей единицей экономической информации является реквизит, т. е. информационная совокупность, которая не поддается дальнейшему делению на единицы информации на смысловом уровне. Деление реквизитов на символы приводит к потере их смыслового содержания. Каждый реквизит характеризуется именем, значением и типом. При этом под именем реквизита понимается его условное обозначение, под значением – величина, характеризующая свойства объекта или явления в определенных обстоятельствах, под типом – множество значений реквизита, объединенных определенными признаками и совокупностью допустимых преобразований.

Реквизиты принято делить на реквизиты-основания и реквизиты-признаки .

Реквизиты-основания характеризуют количественную сторону экономического объекта, процесса или явления, которые могут быть получены в результате совершения отдельных операций – вычислений, измерений, подсчета натуральных единиц и т. д. В экономических документах к ним можно отнести, например, цену товара, его количество, сумму и т. п. Реквизиты-основания чаще всего выражаются в цифрах, над которыми могут выполняться математические операции.

Реквизиты-признаки отражают качественные свойства экономического объекта, процесса или явления. С помощью реквизитов-признаков сообщения приобретают индивидуальный характер. В экономических документах к ним можно отнести, например, номер документа, имя отправителя, дату составления документа, вид операции и т. п. Реквизиты-признаки позволяют осуществлять логическую обработку единиц количества информации на семантическом уровне: поиск, выборку, группировку, сортировку и т. д.

Отдельный реквизит-основание вместе с относящимися к нему реквизитами-признаками образует следующую в иерархическом отношении составную единицу экономической информации – показатель. Показатель имеет наименование, в состав которого входят термины, обозначающие измеряемый объект: себестоимость, затраты, мощность, прибыль и т. д. Кроме того, показатель содержит формальную характеристику и дополнительные признаки. К формальной характеристике относится способ его получения (объем, сумма, прирост, процент, среднее значение и т. д.), а к дополнительным – пространственно-временные (где находится измеряемый объект, время, к которому относится данный показатель) и метрологические (единицы измерения).

Таким образом, с помощью совокупности реквизитов и соответствующих им показателей можно оценить количество экономической информации, получаемой от исследуемого объекта (источника информации).

Кроме подхода, основанного на использовании тезаурусной меры, при определении количества информации на семантическом уровне находят применение и другие подходы . Например, один из подходов, связанных с семантической оценкой количества информации, заключается в том, что в качестве основного критерия семантической ценности информации, содержащейся в сообщении, принимается количество ссылок на него в других сообщениях. Количество получаемой информации определяется на основе статистической обработки ссылок в различных выборках.

Подводя итог сказанному, можно утверждать, что существовала и существует проблема формирования единого системного подхода к определению информации на семантическом уровне. Это подтверждается и тем, что в свое время для создания строгой научной теории информации К. Шеннон вынужден был отбросить важное свойство информации, связанное со смысловым ее содержанием.

Кроме перечисленных уровней рассмотрения понятия информации достаточно широко используется прагматический уровень. На данном уровне информация рассматривается с точки зрения ее полезности (ценности) для достижения потребителем информации (человеком) поставленной практической цели. Данный подход при определении полезности информации основан на расчете приращения вероятности достижения цели до и после получения получения информации . Количество информации, определяющее ее ценность (полезность), находится по формуле:


где Р 0 , P 1 – вероятность достижения цели соответственно до и после получения информации.

В качестве единицы измерения (меры) количества информации, определяющей ее ценность, может быть принят 1 бит (при основании логарифма, равном 2), т. е. это такое количество полученной информации, при котором отношение вероятностей достижения цели равно 2.

Рассмотрим три случая, когда количество информации, определяющее ее ценность, равно нулю и когда она принимает положительное и отрицательное значение.

Количество информации равно нулю при Р 0 = Р 1 , т.е. полученная информация не увеличивает и не уменьшает вероятность достижения цели.

Значение информации является положительной величиной при P 1 > P 0 , т. е. полученная информация уменьшает исходную неопределенность и увеличивает вероятность достижения цели.

Значение информации является отрицательной величиной при P 1 < P 0 , т. е. полученная информация увеличивает исходную неопределенность и уменьшает вероятность достижения цели. Такую информацию называют дезинформацией.

Дальнейшее развитие данного подхода базируется на статистической теории информации и теории решений. При этом кроме вероятностныхарактеристик достижения цели после получения информации вводятся функции потерь и оценка полезности информации производится в результате минимизации функции потерь. Максимальной ценностью обладает то количество информации, которое уменьшает потери до нуля при достижении поставленной цели .

Количество информации как мера уменьшения неопределенности знаний. Информацию, которую получает человек, можно считать мерой уменьшения неопределенности знаний. Если некоторое сообщение приводит к уменьшению неопределенности наших знаний, то можно говорить, что такое сообщение содержит информацию.

Сообщения обычно содержат информацию о каких-либо событиях. Количество информации для событий с различными вероятностями определяется по формуле:

или из показательного уравнения:

Пример 2.1. После экзамена по информатике, который сдавали ваши друзья, объявляются оценки («2», «3», «4» или «5»). Какое количество информации будет нести сообщение об оценке учащегосяA, который выучил лишь половину билетов, и сообщение об оценке учащегосяB, который выучил все билеты.

Опыт показывает, что для учащегося Aвсе четыре оценки (события) равновероятны и тогда количество информации, которое несет сообщение об оценке можно вычислить по формуле 2.2:

I = log 2 4 = 2 бит

На основании опыта можно также предположить, что для учащегося Bнаиболее вероятной оценкой является «5» (p 1 = 1/2), вероятность оценки «4» в два раза меньше (p 2 = 1/4), а вероятности оценок «2» и «3» еще в два раза меньше (p 3 = p 4 = 1/8). Так как события неравновероятны, воспользуемся для подсчета количества информации в сообщении формулой 2.1:

I = -(1/2Elog 2 1/2 + 1/4Elog 2 1/4 + 1/8Elog 2 1/8 + 1/8Elog 2 1/8) бит = 1,75 бит

Вычисления показали, что при равновероятных событиях мы получаем большее количество информации, чем при неравновероятных событиях.

Пример 2.2. В непрозрачном мешочке хранятся 10 белых, 20 красных, 30 синих и 40 зеленых шариков. Какое количество информации будет содержать зрительное сообщение о цвете вынутого шарика.

Так как количество шариков различных цветов неодинаково, то зрительные сообщения о цвете вынутого из мешочка шарика также различаются и равны количеству шариков данного цвета деленному на общее количество шариков:

p б = 0,1; p к = 0,2; p з = 0,3; p с = 0,4

События неравновероятны, поэтому для определения количества информации, содержащимся в сообщении о цвете шарика, воспользуемся формулой 2.1:

I = -(0,1·log 2 0,1+ 0,2·log 2 0,2 + 0,3·log 2 0,3 + 0,4·log 2 0,4) бит

Пример 2.3. Какое количество вопросов достаточно задать вашему собеседнику, чтобы наверняка определить месяц, в котором он родился?

Будем рассматривать 12 месяцев как 12 возможных событий. Если спрашивать о конкретном месяце рождения, то, возможно, придется задать 11 вопросов (если на 11 первых вопросов был получен отрицательный ответ, то 12-й задавать не обязательно, так как он и будет правильным).

Правильно задавать «двоичные» вопросы, т.е. вопросы, на которые можно ответить только «Да» или «Нет». Например, «Вы родились во второй половине года?». Каждый такой вопрос разбивает множество вариантов на два подмножества: одно соответствует ответу «Да», а другое - ответу «Нет».

Правильная стратегия состоит в том, что вопросы нужно задавать так, чтобы количество возможных вариантов каждый раз уменьшалось вдвое. Тогда количество возможных событий в каждом из полученных подмножеств будет одинаково и их отгадывание равновероятно. В этом случае на каждом шаге ответ («Да» или «Нет») будет нести максимальное количество информации (1 бит).

По формуле 2.2 и с помощью калькулятора получаем:

I = log 2 12 »3,6 бит

Количество полученных бит информации соответствует количеству заданных вопросов, однако количество вопросов не может быть нецелым числом. Округляем до большего целого числа и получаем ответ: при правильной стратегии необходимо задать не более 4 вопросов.

Единицы измерения количества информации

Единицы измерения количества информации. За единицу количества информации принят 1 бит - количество информации, содержащееся в сообщении, уменьшающем неопределенность знаний в два раза.

Принята следующая система единиц измерения количества информации:

1 байт = 8 бит

1 Кбайт = 2 10 байт

1 Мбайт = 2 10 Кбайт = 2 20 байт

1 Гбайт = 2 10 Мбайт = 2 20 Кбайт = 2 30 байт

Определение количества информации, представленной с помощью знаковых систем

Если рассматривать символы алфавита как множество возможных сообщений (событий) N, то количество информации, которое несет один знак можно определить из формулы 2.1. Если считать появление каждого знака алфавита в тексте событиями равновероятными, то для определения количества информации можно воспользоваться формулой 2.2 или уравнением 2.3.

Количество информации, которое несет один знак алфавита тем больше, чем больше знаков входят в этот алфавит, т.е. чем больше мощность алфавита.

Количество информации, содержащейся в сообщении, закодированном с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на число знаков в сообщении.

Пример 2.5. Какова мощность алфавита, с помощью которого записано сообщение, содержащее 2048 символов, если его объем составляет 1,25 Кбайта.

Перевести информационный объем сообщения в биты:

I = 10 240 бит

Определить количество бит, приходящееся на один символ:

10 240 бит: 2 048 = 5 бит

По формуле 2.3 определить количество символов в алфавите.

По информатике

Количество информации


Введение

2. Неопределенность, количество информации и энтропия

3. Формула Шеннона

4. Формула Хартли

5. Количество информации, получаемой в процессе сообщения

Список использованной литературы


Введение

По определению А.Д. Урсула - «информация есть отраженное разнообразие». Количество информации есть количественная мера разнообразия. Это может быть разнообразие совокупного содержимого памяти; разнообразие сигнала, воспринятого в процессе конкретного сообщения; разнообразие исходов конкретной ситуации; разнообразие элементов некоторой системы… - это оценка разнообразия в самом широком смысле слова.

Любое сообщение между источником и приемником информации имеет некоторую продолжительность во времени, но количество информации воспринятой приемником в результате сообщения, характеризуется в итоге вовсе не длиной сообщения, а разнообразием сигнала порожденного в приемнике этим сообщением.

Память носителя информации имеет некоторую физическую ёмкость, в которой она способна накапливать образы, и количество накопленной в памяти информации, характеризуется в итоге именно разнообразием заполнения этой ёмкости. Для объектов неживой природы это разнообразие их истории, для живых организмов это разнообразие их опыта.

1.Бит

Разнообразие необходимо при передаче информации. Нельзя нарисовать белым по белому, одного состояния недостаточно. Если ячейка памяти способна находиться только в одном (исходном) состоянии и не способна изменять свое состояние под внешним воздействием, это значит, что она не способна воспринимать и запоминать информацию. Информационная емкость такой ячейки равна 0.

Минимальное разнообразие обеспечивается наличием двух состояний. Если ячейка памяти способна, в зависимости от внешнего воздействия, принимать одно из двух состояний, которые условно обозначаются обычно как «0» и «1», она обладает минимальной информационной ёмкостью.

Информационная ёмкость одной ячейки памяти, способной находиться в двух различных состояниях, принята за единицу измерения количества информации - 1 бит.

1 бит (bit - сокращение от англ. binary digit - двоичное число) - единица измерения информационной емкости и количества информации, а также и еще одной величины – информационной энтропии, с которой мы познакомимся позже. Бит, одна из самых безусловных единиц измерения. Если единицу измерения длины можно было положить произвольной: локоть, фут, метр, то единица измерения информации не могла быть по сути никакой другой.

На физическом уровне бит является ячейкой памяти, которая в каждый момент времени находится в одном из двух состояний: «0» или «1».

Если каждая точка некоторого изображения может быть только либо черной, либо белой, такое изображение называют битовым, потому что каждая точка представляет собой ячейку памяти емкостью 1 бит. Лампочка, которая может либо «гореть», либо «не гореть» также символизирует бит. Классический пример, иллюстрирующий 1 бит информации – количество информации, получаемое в результате подбрасывания монеты – “орел” или “решка”.

Количество информации равное 1 биту можно получить в ответе на вопрос типа «да»/ «нет». Если изначально вариантов ответов было больше двух, количество получаемой в конкретном ответе информации будет больше, чем 1 бит, если вариантов ответов меньше двух, т.е. один, то это не вопрос, а утверждение, следовательно, получения информации не требуется, раз неопределенности нет.

Информационная ёмкость ячейки памяти, способной воспринимать информацию, не может быть меньше 1 бита, но количество получаемой информации может быть и меньше, чем 1 бит. Это происходит тогда, когда варианты ответов «да» и «нет» не равновероятны. Неравновероятность в свою очередь является следствием того, что некоторая предварительная (априорная) информация по этому вопросу уже имеется, полученная, допустим, на основании предыдущего жизненного опыта. Таким образом, во всех рассуждениях предыдущего абзаца следует учитывать одну очень важную оговорку: они справедливы только для равновероятного случая.

Количество информации мы будем обозначать символом I, вероятность обозначается символом P. Напомним, что суммарная вероятность полной группы событий равна 1.

2.Неопределенность, количество информации и энтропия

Основоположник теории информации Клод Шеннон определил информацию, как снятую неопределенность. Точнее сказать, получение информации - необходимое условие для снятия неопределенности. Неопределенность возникает в ситуации выбора. Задача, которая решается в ходе снятия неопределенности – уменьшение количества рассматриваемых вариантов (уменьшение разнообразия), и в итоге выбор одного соответствующего ситуации варианта из числа возможных. Снятие неопределенности дает возможность принимать обоснованные решения и действовать. В этом управляющая роль информации.

Ситуация максимальной неопределенности предполагает наличие нескольких равновероятных альтернатив (вариантов), т.е. ни один из вариантов не является более предпочтительным. Причем, чем больше равновероятных вариантов наблюдается, тем больше неопределенность, тем сложнее сделать однозначный выбор и тем больше информации требуется для этого получить. Для N вариантов эта ситуация описывается следующим распределением вероятностей: {1/N, 1/N, … 1/N}.

Минимальная неопределенность равна 0, т.е. эта ситуация полной определенности, означающая что выбор сделан, и вся необходимая информация получена. Распределение вероятностей для ситуации полной определенности выглядит так: {1, 0, …0}.

Величина, характеризующая количество неопределенности в теории информации обозначается символом H и имеет название энтропия, точнее информационная энтропия.

Энтропия (H) – мера неопределенности, выраженная в битах. Так же энтропию можно рассматривать как меру равномерности распределения случайной величины.

На рисунке 1. показано поведение энтропии для случая двух альтернатив, при изменении соотношения их вероятностей (p, (1-p)).

Максимального значения энтропия достигает в данном случае тогда, когда обе вероятности равны между собой и равны ½, нулевое значение энтропии соответствует случаям (p 0 =0, p 1 =1) и (p 0 =1, p 1 =0).

Количество информации I и энтропия H характеризуют одну и ту же ситуацию, но с качественно противоположенных сторон. I – это количество информации, которое требуется для снятия неопределенности H. По определению Леона Бриллюэна информация есть отрицательная энтропия (негэнтропия).

Когда неопределенность снята полностью, количество полученной информации I равно изначально существовавшей неопределенности H.

При частичном снятии неопределенности, полученное количество информации и оставшаяся неснятой неопределенность составляют в сумме исходную неопределенность. H t + I t = H.

По этой причине, формулы, которые будут представлены ниже для расчета энтропии H являются и формулами для расчета количества информации I, т.е. когда речь идет о полном снятии неопределенности, H в них может заменяться на I.

3.Формула Шеннона

В общем случае, энтропия H и количество получаемой в результате снятия неопределенности информации I зависят от исходного количества рассматриваемых вариантов N и априорных вероятностей реализации каждого из них P: {p 0 , p 1 , …p N -1 }, т.е. H=F(N, P). Расчет энтропии в этом случае производится по формуле Шеннона, предложенной им в 1948 году в статье "Математическая теория связи".

В частном случае, когда все варианты равновероятны, остается зависимость только от количества рассматриваемых вариантов, т.е. H=F(N). В этом случае формула Шеннона значительно упрощается и совпадает с формулой Хартли, которая впервые была предложена американским инженером Ральфом Хартли в 1928 году, т.е. на 20 лет раньше.

Формула Шеннона имеет следующий вид:

(1)

Рис. 3. Нахождение логарифма b по основанию a - это нахождение степени, в которую нужно возвести a, чтобы получить b.

Напомним, что такое логарифм.

Логарифм по основанию 2 называется двоичным:

log 2 (8)=3 => 2 3 =8

log 2 (10)=3,32 => 2 3,32 =10

Логарифм по основанию 10 –называется десятичным:

log 10 (100)=2 => 10 2 =100

Основные свойства логарифма:

1. log(1)=0, т.к. любое число в нулевой степени дает 1;

2. log(a b)=b*log(a);

3. log(a*b)=log(a)+log(b);

4. log(a/b)=log(a)-log(b);

5. log(1/b)=0-log(b)=-log(b).

Знак минус в формуле (1) не означает, что энтропия – отрицательная величина. Объясняется это тем, что p i £1 по определению, а логарифм числа меньшего единицы - величина отрицательная. По свойству логарифма

, поэтому эту формулу можно записать и во втором варианте, без минуса перед знаком суммы. интерпретируется как частное количество информации, получаемое в случае реализации i-ого варианта. Энтропия в формуле Шеннона является средней характеристикой – математическим ожиданием распределения случайной величины {I 0 , I 1, … I N -1 }.


Top