Системы кодирования. Используя туже информацию, что и для примера с иерархической классификацией разработаем фасетную систему классификации. Пример фасетной системы классификации

Информатика, кибернетика и программирование

Система кодирования информации Кодирование информации применяют для унификации формы представления данных которые относятся кразличным типам в целях автоматизации работы с информацией. Например естественные человеческие языки можно рассматривать как системы кодирования понятий для выражения мыслей посредством речи к тому же и азбуки представляют собой системы кодирования компонентов языка с помощью графических символов. Основой этой системы кодирования является представление данных через последовательность двух знаков: 0 и 1. Наименьшая...

18. Система кодирования информации

Кодирование информации применяют для унификации формы представления данных, которые относятся кразличным типам, в целях автоматизации работы с информацией.

Кодирование – это выражение данных одного типа через данные другого типа. Например, естественные человеческие языки можно рассматривать как системы кодирования понятий для выражения мыслей посредством речи, к тому же и азбуки представляют собой системы кодирования компонентов языка с помощью графических символов.

В вычислительной технике применяется двоичное кодирование. Основой этой системы кодирования является представление данных через последовательность двух знаков: 0 и 1. Данные знаки называются двоичными цифрами (binary digit), или сокращенно bit (бит). Одним битом могут быть закодированы два понятия: 0 или 1 (да или нет, истина или ложь и т. п.). Двумя битами возможно выразить четыре различных понятия, а тремя – закодировать восемь различных значений.

Наименьшая единица кодирования информации в вычислительной технике после бита – байт. Его связь с битом отражает следующее отношение: 1 байт = 8 бит = 1 символ.

Обычно одним байтом кодируется один символ текстовой информации. Исходя из этого для текстовых документов размер в байтах соответствует лексическому объему в символах.

Более крупной единицей кодирования информации служит килобайт, связанный с байтом следующим соотношением: 1 Кб = 1024 байт.

Другими, более крупными, единицами кодирования информации являются символы, полученные с помощью добавления префиксов мега (Мб), гига (Гб), тера (Тб):

1 Мб = 1 048 580 байт;

1 Гб = 10 737 740 000 байт;

1 Тб = 1024 Гб.

Для кодирования двоичным кодом целого числа следует взять целое число и делить его пополам до тех пор, пока частное не будет равно единице. Совокупность остатков от каждого деления, которая записывается справа налево вместе с последним частным, и будет являться двоичным аналогом десятичного числа.

В процессе кодирования целых чисел от 0 до 255 достаточно использовать 8 разрядов двоичного кода (8 бит). Применение 16 бит позволяет закодировать целые числа от 0 до 65 535, а с помощью 24 бит – более 16,5 млн различных значений.

Для того чтобы закодировать действительные числа, применяют 80-разрядное кодирование. В этом случае число предварительно преобразовывают в нормализованную форму, например:

2,1427926 = 0,21427926 ? 101;

500 000 = 0,5 ? 106.

Первая часть закодированного числа носит название мантиссы, а вторая часть – характеристики. Основная часть из 80 бит отводится для хранения мантиссы, и некоторое фиксированное число разрядов отводится для хранения характеристики.

Кодирование текстовой информации

Текстовую информацию кодируют двоичным кодом через обозначение каждого символа алфавита определенным целым числом. С помощью восьми двоичных разрядов возможно закодировать 256 различных символов. Данного количества символов достаточно для выражения всех символов английского и русского алфавитов.

В первые годы развития компьютерной техники трудности кодирования текстовой информации были вызваны отсутствием необходимых стандартов кодирования. В настоящее время, напротив, существующие трудности связаны с множеством одновременно действующих и зачастую противоречивых стандартов.

Для английского языка, который является неофициальным международным средством общения, эти трудности были решены. Институт стандартизации США выработал и ввел в обращение систему кодирования ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США).

Для кодировки русского алфавита были разработаны несколько вариантов кодировок:

1) Windows-1251 – введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение;

2) КОИ-8 (Код Обмена Информацией, восьмизначный) – другая популярная кодировка российского алфавита, распространенная в компьютерных сетях на территории Российской Федерации и в российском секторе Интернет;

3) ISO (International Standard Organization – Международный институт стандартизации) – международный стандарт кодирования символов русского языка. На практике эта кодировка используется редко.

Ограниченный набор кодов (256) создает трудности для разработчиков единой системы кодирования текстовой информации. Вследствие этого было предложено кодировать символы не 8-разрядными двоичными числами, а числами с большим разрядом, что вызвало расширение диапазона возможных значений кодов. Система 16-разрядного кодирования символов называется универсальной – UNICODE. Шестнадцать разрядов позволяет обеспечить уникальные коды для 65 536 символов, что вполне достаточно для размещения в одной таблице символов большинства языков.

Несмотря на простоту предложенного подхода, практический переход на данную систему кодировки очень долго не мог осуществиться из-за недостатков ресурсов средств вычислительной техники, так как в системе кодирования UNICODE все текстовые документы становятся автоматически вдвое больше. В конце 1990-х гг. технические средства достигли необходимого уровня, начался постепенный перевод документов и программных средств на систему кодирования UNICODE.

Кодирование графической информации

Существует несколько способов кодирования графической информации.

При рассмотрении черно-белого графического изображения с помощью увеличительного стекла заметно, что в его состав входит несколько мельчайших точек, образующих характерный узор (или растр). Линейные координаты и индивидуальные свойства каждой из точек изображения можно выразить с помощью целых чисел, поэтому способ растрового кодирования базируется на использовании двоичного кода представления графических данных. Общеизвестным стандартом считается приведение черно-белых иллюстраций в форме комбинации точек с 256 градациями серого цвета, т. е. для кодирования яркости любой точки необходимы 8-разрядные двоичные числа.

В основу кодирования цветных графических изображений положен принцип разложения произвольного цвета на основные составляющие, в качестве которых применяются три основных цвета: красный (Red), зеленый (Green) и синий (Blue). На практике принимается, что любой цвет, который воспринимает человеческий глаз, можно получить с помощью механической комбинации этих трех цветов. Такая система кодирования называется RGB (по первым буквам основных цветов). При применении 24 двоичных разрядов для кодирования цветной графики такой режим носит название полноцветного (True Color).

Каждый из основных цветов сопоставляется с цветом, дополняющим основной цвет до белого. Для любого из основных цветов дополнительным будет являться цвет, который образован суммой пары остальных основных цветов. Соответственно среди дополнительных цветов можно выделить голубой (Cyan), пурпурный (Magenta) и желтый (Yellow). Принцип разложения произвольного цвета на составляющие компоненты используется не только для основных цветов, но и для дополнительных, т. е. любой цвет можно представить в виде суммы голубой, пурпурной и желтой составляющей. Этот метод кодирования цвета применяется в полиграфии, но там используется еще и четвертая краска – черная (Black), поэтому эта система кодирования обозначается четырьмя буквами – CMYK. Для представления цветной графики в этой системе применяется 32 двоичных разряда. Данный режим также носит название полноцветного.

Приуменьшении количества двоичных разрядов, применяемых для кодирования цвета каждой точки, сокращается объем данных, но заметно уменьшается диапазон кодируемых цветов. Кодирование цветной графики 16-разрядными двоичными числами носит название режима High Color. При кодировании графической цветной информации с применением 8 бит данных можно передать только 256 оттенков. Данный метод кодирования цвета называется индексным.

Кодирование звуковой информации

В настоящий момент не существует единой стандартной системы кодирования звуковой информации, так как приемы и методы работы со звуковой информацией начали развиваться по сравнению с методами работы с другими видами информации самыми последними. Поэтому множество различных компаний, которые работают в области кодирования информации, создали свои собственные корпоративные стандарты для звуковой информации. Но среди этих корпоративных стандартов выделяются два основных направления.

В основе метода FM (Frequency Modulation) положено утверждение о том, что теоретически любой сложный звук может быть представлен в виде разложения на последовательность простейших гармонических сигналов разных частот. Каждый из этих гармонических сигналов представляет собой правильную синусоиду и поэтому может быть описан числовыми параметрами или закодирован. Звуковые сигналы образуют непрерывный спектр, т. е. являются аналоговыми, поэтому их разложение в гармонические ряды и представление в виде дискретных цифровых сигналов выполняется с помощью специальных устройств – аналого-цифровых преобразователей (АЦП). Обратное преобразование, которое необходимо для воспроизведения звука, закодированного числовым кодом, производится с помощью цифроаналоговых преобразователей (ЦАП). Из-за таких преобразований звуковых сигналов возникают потери информации, которые связаны с методом кодирования, поэтому качество звукозаписи с помощью метода FM обычно получается недостаточно удовлетворительным и соответствует качеству звучания простейших электромузыкальных инструментов с окраской, характерной для электронной музыки. При этом данный метод обеспечивает вполне компактный код, поэтому он широко использовался в те годы, когда ресурсы средств вычислительной техники были явно недостаточны.

Основная идея метода таблично-волнового синтеза (Wave-Table) состоит в том, что в заранее подготовленных таблицах находятся образцы звуков для множества различных музыкальных инструментов. Данные звуковые образцы носят название сэмплов. Числовые коды, которые заложены в сэмпле, выражают такие его характеристики, как тип инструмента, номер его модели, высоту тона, продолжительность и интенсивность звука, динамику его изменения, некоторые компоненты среды, в которой наблюдается звучание, и другие параметры, характеризующие особенности звучания. Поскольку для образцов применяются реальные звуки, то качество закодированной звуковой информации получается очень высоким и приближается к звучанию реальных музыкальных инструментов, что в большей степени соответствует нынешнему уровню развития современной компьютерной техники.


А также другие работы, которые могут Вас заинтересовать

58115. Значение здоровья для человека 41 KB
Цель: ознакомить с задачами и содержанием курса Основы здоровья; формировать представление о значении здоровья для обучения труда общения с родными; развивать память мотивацию основ сохранения и укрепления здоровья; воспитывать любовь к жизни к людям.
58116. Військові звання і знаки розрізнення. Начальники та підлеглі, старші та молодші, їх права і обовязки 182.5 KB
Мета: Вивчити поняття щодо суті і значення військової дисципліни; Назвати статути Збройних сил України основні їх вимоги. Статути Збройних Сил України це зведення законів військової служби на основі яких проходять повсякденне життя виховання навчання бойова діяльність військ...
58118. Функции финансов, как экономической категории 15.22 KB
Именно через эту функцию реализуется общественное назначение финансов – обеспечение каждого субъекта хозяйствования и государства необходимыми ресурсами, использ. в форме денежных фондов целевого назначения.
58119. Финансы как экономическая категория в системе социально-экономических категорий 15.17 KB
Каждая наука оперирует определенным кругом понятий, имеет особые, специфические категории, которые являются концентрированным выражением общих, наиболее существенных признаков, качеств, закономерностей и взаимосвязей объектов той сферы
58120. Создание Интернет-страниц 32 KB
Он требует терпения и знания основ «программирования» на языке html, который, по сути, языком программирования не является. Итак. Для работы нам будет достаточно программы Блокнот. И даже более того, достаточно будет использовать только меню FILE.
58121. СУСПІЛЬНО-ІСТОРИЧНІ УМОВИ РОЗВИТКУ УКРАЇНСЬКОЇ ЛІТЕРАТУРИ ХХ ст., ОСНОВНІ СТИЛЬОВІ НАПРЯМИ 120.5 KB
Цi хронологiчнi межi визначаються не тiльки перебiгом революцiї 1905–1917 рр., а й вiдходом iз життя I. Франка (1916 р.) та М. Коцюбинського й Лесi Українки (обоє померли в 1913 р.). Формування пiсля 1905 р. Києва як лiтературної столицi України, поширення загальноукраїнської лiтературної перiодики
58122. ВВЕДЕНИЕ. МИР В XVI – XVIII ВВ 46 KB
В более узком смысле история - это наука, изучающая всевозможные источники о прошлом для того, чтобы установить последовательность событий, исторический процесс, объективность описанных фактов и сделать выводы о причинах событий.
58123. Задачи бухгалтерского учета в общественном питании 34 KB
Контроль за финансовыми показателями (размер прибыли, источники поступления средств и порядок их расходования, оборотные средства, отчисления от прибыли и.т.д.) за правильностью расчетов с поставщиками и покупателями, за своевременным поступлением платежей в бюджет, за правильностью использования банковских кредитов...

· 1.4. Система кодирования

Система кодирования – это совокупность правил кодового обозначения объектов.

Применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.

Код – это условное обозначение объекта или явления в виде знака или системы знаков, построенная по определенным правилам. (второй раз дается определение, см. выше)

Код строится на базе алфавита, состоящего из букв, цифр и других символов.

Код характеризуется:

Длиной – число позиций в коде;

Структурой – порядок расположения в коде символов, используемых для обозначения классификационного признака.

Процедура присвоения объекту кодового обозначения называется кодированием.

Основные причины кодирования экономической информации:

1.Обеспечение однозначной идентификации объекта.

2.Сокращение объемов работ при решении задач.

Основные требования к кодам:

Min значности и простота построения;

Наличие резерва;

Коды должны разрабатываться на длительный период времени;

Коды каждой отдельной номенклатуры должны иметь одинаковую значность;

Коды должны по возможности дублировать уже сложившиеся обозначения;

Коды должны учитывать специфику программных и технических средств;

Коды должны помехозащищены.

В системе кодирования используются 2 группы методов :

В классификационной системе кодирования необходима предварительная классификация объектов на основе иерархической или фасетной системы;

- регистрационная система кодирования предварительной классификации объектов не требует.

Система кодирования

Классификационная Регистрационная

Последовательная Параллельная 1.Порядковая Серийно-порядковая

(для иерархической (для фасетной 2.Серийная

классификации) классификации) 3.Десятичная

4.Шахматная (матричная)

5.Повторения

Последовательное кодирование : сначала записывается код старшей группировки 1-го уровня, затем 2-го, 3-го и т.д.

Пример . 1310 – студенты коммерческого факультета свыше 30 лет, мужчины; 2221 – студенты факультета информационных систем, от 20 до 30 лет, женщины, имеющие детей.

Параллельное кодирование используется для фасетной системы классификации. Все фасеты кодируются независимо друг от друга; для значения каждого фасета выделяется определенное количество разрядов кода.

Пример . 1 разряд – пол, 2-й – наличие детей у женщин, 3 - возраст, 4 – факультет. 2135 – женщины свыше 30 лет, имеющие детей, студенты математического факультета; 1021 – 1021 – мужчины возраста 20-30 лет, студенты радиотехнического факультета.

Регистрационное кодирование

Наименование

материалов

Порядковая

система кодирования

Серийная

система кодирования

Десятичная

система кодирования

I.Черные металлы

1.Чугун

2.Сталь

3.Прокат

1-15

3 (4-15 резерв)

103 (104-199 резерв)

II.Цветные металлы

1.Аллюминий

2.Медь

3.Серебро

4.Свинец

16-24

19 (20-24 резерв)

24 (25-29 резерв)

1.Порядковая система кодирования предполагает кодирование позиций числами натурального ряда в порядке возрастания без пропусков.

Достоинства : малозначность и простота построения.

Недостатки :

Невозможность расширения позиции номенклатуры без нарушения принятой системы классификации;

Трудности при подведении итогов, приходится запоминать с какого номера начинается и каким заканчивается каждая группа позиций;

При кодировании не учитывается количество признаков.

2.Серийная система является продолжением порядковой системы. На каждую группу позиций номенклатуры, объединенную одним общим признаком, выделяется серия порядковых номеров с учетом резерва. Размер серии произвольный.

Достоинства : наличие резерва, простота построения.

Недостатки : не всегда можно правильно определить размер серии, трудности при расшифровке, т.к. приходится запоминать с какого номера начинается и каким заканчивается каждая серия.

3.Десятичная система – наиболее широко применяется в практике обработки информации. Здесь для каждого кодируемого признака выделяется один или несколько десятичных разрядов.

Структура кода: Х Х Х


группа порядок

материала следования

Достоинства : возможность кодирования многопризначных номенклатур; автоматическое формирование резервов; простота расшифровки.

Недостатки : не всегда обоснованные резервы; многозначность кода.

4.Шахматная (матричная) система . Она не является самостоятельной системой, а представляет форму изображения серийного или десятичного кода для двупризначных номенклатур.

Вид вклада

Вид операции

До востребования

Срочный

Накопительный

1.Приход

2.Расход

3.Зачисление

4.Списание

11-20

21-30

31-40

41-50

Структура кода: Х Х

операции вклада

5.Система повторения (коды повторения). Эта система предполагает использование уже сложившихся цифровых обозначений: номера месяцев, разряды работ и рабочих, номера счетов в бухгалтерском учете и др.

Для полной формализации экономической информации недо­статочно простой классификации, поэтому проводят следующую процедуру – кодирование. Кодирование это процесс присвое­ния условных обозначений объектам и классификационным группам по соответствующей системе кодирования. Система кодирования это совокупность правил обозначения объектов и группировок с использованием кодов. Код – это условное обозна­чение объектов или группировок в виде знака или группы знаков в соответствии с принятой системой. Код базируется на определен­ном алфавите (некоторое множество знаков). Число знаков этого множества называется основанием кода. Различают следующие типы алфавитов: цифровой, буквенный и смешанный .

Код характеризуется следующими параметрами:

· длиной (L );

· основанием кодирования (А );

· структурой кода, под которой понимают распределение зна­ков по признакам и объектам классификации;

· степенью информативности (I ) , рассчитываемой как частное от деления общего количества признаков (R ) на длину кода (L ):

I = R/L;

· коэффициентом избыточности (К изб ), который определяется как отношение максимального количества объектов (Q max ) к фактическому количеству объектов (Q факт ):

Все системы кодирования можно сгруппировать в два под­множества (рис. 2.13): регистрационные и классификационные системы кодирования.

Особенностью регистрационных систем кодирования являет­ся их независимость от применяемых систем классификации. Ре­гистрационные коды используются для идентификации объектов и передачи информации об объектах на расстояние, поэтому они должны удовлетворять следующим требованиям: минимальности длины кода, однозначности соответствия наименования объек­та и его кода в течение длительного периода времени и защищен­ности кода от помех и ошибок.

Регистрационные коды состоят из двух частей: информаци­онной и контрольной, предназначенной для защиты передавае­мой информации от ошибок. Контрольная часть может рассчи­тываться по различным алгоритмам, в частности, наиболее упот­ребляемыми являются следующие формулы их расчета:

;

где – модуль (простое число, делящееся на единицу и на само себя); информационные разряды, i – номер разряда; – вес информационного разряда.

К регистрационным системам относятся порядковая и серий­ная системы кодирования.

Порядковая система это наиболее простая по своему пост­роению система кодирования, суть использования которой зак­лючается в последовательном присвоении каждому объекту кодируемого множества Мо номера его порядка, т.е. в присвоении цифр натурального ряда в порядке расположения объектов. Этот порядок может быть случайным или определяться после предва­рительной группировки объектов, например, по алфавиту. Как правило, порядковую систему применяют для кодирова­ния малозначных, устоявшихся и простых множеств объектов, не требующих предварительной классификации.

Серийная (серийно-порядковая) система кодирования отлича­ется от порядковой тем, что номенклатура кодируемых объектов (М ) предварительно должна быть разбита на группировки по од­ному признаку, и каждой группировке должна быть отведена се­рия кодовых обозначений, в пределах которой каждому элемен­ту присваивается свой код по порядку.


Серия обозначений для каждой группировки определяется таким образом, чтобы после присваивания кодов элементам этой группы в ней оставались бы еще свободные номера на случай появления новых объектов.

Классификационные коды используют для отражения классифи­кационных взаимосвязей объектов и группировок и применяются в основном для сложной логической обработки экономической информации на ЭВМ Отсюда вытекают требования: однозначно­сти отображения классификационных взаимосвязей объектов и их группировок и обеспечения максимальной простоты программи­рования. Группу классификационных систем кодирования можно разделить на две подгруппы в зависимости от того, какую систему классификации используют для упорядочения объектов.

Последовательные системы кодирования характеризуются тем, что они базируются на предварительной классификации по иерархической системе классификации, в результате использова­ния которой коды нижестоящих группировок образуются путем добавления кодов к кодам вышестоящих группировок.

Параллельные системы кодирования характеризуются тем, что они строятся на основе использования фасетной системы класси­фикации и коды группировок по фасетам формируются незави­симо друг от друга.

Последовательные и параллельные системы кодирования строятся на базе разрядной или комбинированной системы ко­дирования.

Разрядная система применяется для кодирования объектов, определяемых несколькими соподчиненными признаками, ис­пользуемыми для решения экономических задач. Кодируемые объекты систематизируются по классификационным признакам на каждой ступени классификации, каждому признаку отводится определенное число разрядов, в пределах которых кодирование группировок начинается с единицы. При разрядной системе ко­дирования используется так называемое «зависимое» кодирова­ние. Это значит, что классификационные группировки по млад­шим признакам кодируются в зависимости от кода группировки, образованной по старшему признаку. Запас свободных позиций определяется структурой кода.

Код объекта, построенный по этой системе, состоит из такого числа позиций (или числа групп разрядов), сколько было учтено признаков для объектов, поэтому разрядная система кодирования называется иногда позиционной системой . Конкретное значение признака, характеризующего объект, определяется позицией и зна­чением определенного числа в структуре кода. Длина кода зави­сит от числа ступеней классификации, от числа классификацион­ных группировок на каждой ступени и от основания кодирования.

Комбинированная система кодирования, обладая всеми пре­имуществами разрядного кода, применяется для кодирования больших номенклатур (перечней) объектов, которые характери­зуются многими соподчиненными или независимыми признака­ми. Эта система базируется на сочетании принципов построения таких систем кодирования, как разрядная, серийная, порядковая и кода повторения.

Код повторения (мнемокод) это буквенные или буквенно-цифровые коды, которые характеризуются тем, что в структуру кода переносят часть символьных обозначений объектов с целью повышения мнемоничности кода или для сокращения его длины.

Выбор конкретной системы кодирования зависит от объема кодируемой номенклатуры, ее стабильности, от задач, стоящих перед системой, и от показателей эффективности обработки ин­формации при использовании какой-либо системы.

  • Классификация и ее виды. Системы кодирования информации

  • Классификацию информации, циркулирующей в организации

  • КЛАССИФИКАЦИЯ


Классификация

  • Классификация - система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком

  • Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств.

  • Классификация объектов - то процедура группировки на качественном уровне, направленная на выделение однородных свойств.

  • Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.


Классификация

  • Реквизит - логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п.

  • При любой классификации необходимо соблюдать следующие требования:

  • полнота охвата объектов рассматриваемой области;

  • однозначность реквизитов;

  • возможность включения новых объектов.

  • Классификатор - систематизированный свод наименований и кодов классификационных группировок.

  • При классификации широко используются понятия классификационный признак (основание деления) и значение классификационного признака, которые позволяют установить сходство или различие объектов.


  • Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.


Иерархическая система классификации

  • Иерархическая система классификации строится следующим образом:

  • исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень;

  • каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень;

  • каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень и т.д.

  • Учитывая достаточно жесткую процедуру построения структуры классификации, необходимо перед началом работы определить ее цель, т.е. какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации.


Иерархическая система классификации

  • Достоинства иерархической системы классификации:

  • простота построения;

  • использование независимых классификационных признаков в различных ветвях иерархической структуры. Недостатки иерархической системы классификации;

  • жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;

  • невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.


  • Поставлена задача - создать иерархическую систему классификации для информационного объекта "Факультет", которая позволит классифицировать информацию обо всех студентах по следующим классификационным признакам: факультет, на котором он учится, возрастной состав студентов, пол студента, для женщин - наличие детей.


Пример иерархической системы классификации

  • Полученная система классификации будет иметь следующие уровни:

  • 0-й уровень. Информационный объект "Факультет";

  • 1-й уровень. Выбирается классификационный признак - название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах;

  • 2-й уровень. Выбирается классификационный признак - возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому факультету выделяются три возрастных подкласса студентов;

  • 3-й уровень. Выбирается классификационный признак - пол. Каждый подкласс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы - мужчин и женщин;

  • 4-й уровень. Выбирается классификационный признак - наличие детей у женщин: есть, нет.


Пример иерархической системы классификации

  • Созданная иерархическая система классификации имеет глубину классификации, равную четырем


  • Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта


Фасетная система классификации

  • Признаки классификации называются фасетами (facet - рамка). Каждый фасет (Фi ) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке хотя предпочтительнее их упорядочение.


Фасетная система классификации

  • Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты.

  • Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования:

  • Ks=(Ф1, Ф2,..., Фi,..., Фn),

  • где Фi - i-й фасет;

  • n - количество фасетов.

  • При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись.

  • Фасетную систему легко можно модифицировать, внося изменения в конкретные значения любого фасета.


Фасетная система классификации

  • Достоинства фасетной системы классификации:

  • возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;

  • возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

  • Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.


  • Используя туже информацию, что и для примера с иерархической классификацией разработаем фасетную систему классификации.

  • Сгруппируем и представим в виде таблицы все классификационные признаки по фасетам:

    • фасет название факультета с пятью названиями факультетов;
    • фасет возраст с тремя возрастными группами;
    • фасет пол с двумя градациями;
    • фасет дети с двумя градациями.

Пример фасетной системы классификации

  • Структурную формулу любого класса можно представить в виде:

    • Ks= (Факультет, Возраст, Пол, Дети)
  • Присваивая конкретные значения каждому фасету, получим следующие классы:

    • К1= (Радиотехнический факультет, возраст до 20 лет, мужчина, есть дети);
    • K2= (Коммерческий факультет, возраст от 20 до 30 лет, мужчина, детей нет);
    • К3= (Математический факультет, возраст до 20 лет, женщина, детей нет) и т.д.

  • Пример фасетной системы классификации для информационного объекта "Факультет"


  • Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов.

  • Особенно широко она используется в библиотечной системе поиска.


Дескрипторная система классификации

  • Суть дескрипторного метода классификации заключается в следующем:

    • отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
    • выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
    • создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

  • В качестве объекта классификации рассматривается успеваемость студентов.

    • Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета.
    • Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов.

Пример дескрипторной системы классификации

  • В качестве предметной области выбирается учебная деятельность в высшем учебном заведении.

    • Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д.
    • Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся, преподаватель, учитель, педагог, факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.

Дескрипторная система классификации

  • Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:

    • синонимические указывающие некоторую совокупность ключевых слов как синонимы;
    • родо-видовые , отражающие включение некоторого класса объектов в более представительный класс;
    • ассоциативные , соединяющие дескрипторы, обладающие общими свойствами.
  • Пример

  • Синонимическая связь: студент-учащийся-обучаемый.

  • Родо-видовая связь: университет-факультет-кафедра.

  • Ассоциативная связь: студент-экзамен-профессор-аудитория.


  • КОДИРОВАНИЕ


Система кодирования

  • Система кодирования - совокупность правил кодового обозначения объектов.

  • Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.

  • Код строится на базе алфавита, состоящего из букв, цифр и других символов.

  • Код характеризуется:

    • длиной - число позиций в коде;
    • структурой - порядок расположения в коде символов, используемых для обозначения классификационного признака

Система кодирования

  • Процедура присвоения объекту кодового обозначения называется кодированием .

  • Можно выделить две группы методов, используемых в системе кодирования, которые образуют:

    • классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;
    • регистрационную систему кодирования, не требующую предварительной классификации объектов.

Система кодирования

  • Система кодирования, использующая разные методы


Классификационное кодирование. Последовательное кодировани.

  • Последовательное кодирование используется для иерархической классификационной структуры.

  • Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры

  • Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации.


  • Проведем кодирование информации, классифицированной с помощью иерархической схемы.

  • Количество кодовых группировок будет определяться глубиной классификации и равно 4,

  • Прежде чем начать кодирование, необходимо определиться с алфавитом, т.е. какие будут использоваться символы.

  • Для большей наглядности выберем десятичную систему счисления -10 арабских цифр.

  • Анализ схемы классификации показывает, что длина кода определяется 4 десятичными разрядами, а кодирование группировки на каждом уровне можно делать путем последовательной нумерации слева направо.


Классификационное кодирование. Пример последовательного кодирования

    • 1-й (старший) разряд выделен для классификационного признака "название факультета" и имеет следующие значения: 1 - коммерческий; 2 - информационные системы; 3 - для следующего названия факультета и т.д.;
    • 2-й разряд выделен для классификационного признака "возраст" и имеет следующие значения: 1 - до 20 лет; 2 - от 20 до 30 лет; 3 - свыше 30 лет;
    • 3-й разряд выделен для классификационного признака "пол" и имеет следующие значения: 1 - мужчины; 2 - женщины;
    • 4-й разряд выделен для классификационного признака "наличие детей у женщин" и имеет следующие значения; 1 - есть дети; 2 - нет детей, 0 - для мужчин, так как подобной информации не требуется.

Классификационное кодирование. Пример последовательного кодирования

  • Принятая система кодирования позволяет легко расшифровать любой код группировки, например:

    • 1310 - студенты коммерческого факультета, свыше 30 лет мужчины;
    • 2221 - студенты факультета информационных систем, от 20 до 30 лет, женщины имеющие детей.

Классификационное кодирование. Параллельное кодирование

  • Параллельное кодирование используется для фасетной системы классификации.

  • Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода.

  • Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.


  • Проведем кодирование информации, классифицированной с помощью фасетной схемы.

  • Количество кодовых группировок определяется количеством фасетов и равно 4.

  • Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4.

  • В отличие от последовательного кодирования для иерархической системы классификации в данном метоле не имеет значения порядок кодировки фасетов.


Классификационное кодирование. Пример параллельного кодирования

  • В общем виде код можно записать как ХХХХ, где Х - значение десятичного разряда.

  • Рассмотрим структуру кода, начиная со старшего разряда:

    • 1-й (старший) разряд выделен для фасета "кол" и имеет следующие значения: 1 - мужчины; 2 - женщины;
    • 2-й разряд выделен для фасета "наличие детей у женщин" и имеет следующие значения: 1 - есть дети; 2 - нет детей; 0 - для мужчин, так как подобной информации не требуется;
    • 3-й разряд выделен для фасета "возраст" и имеет следующие значения: 1 - до 20 лет; 2 - от 20 до 30 лет; 3 - свыше 30 лет;
    • 4-й разряд выделен для фасета "название факультета" и имеет следующие значения 1 - радиотехнический, 2 - машиностроительный, 3 - коммерческий; 4 - информационные системы; 5 - математический и т.д.

Классификационное кодирование. Пример параллельного кодирования

  • Принятая система кодирования позволяет легко расшифровать любой кол группировки, например:

    • 2135 - женщины в возрасте свыше 30 лет, имеющие детей и являющиеся студентами математического факультета;
    • 1021 - мужчины возраста от 20 до 30 лет, являющиеся студентами радиотехнического факультета.

Регистрационное кодирование

    Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.

    Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.



Классификация информации по разным признакам

  • Любая классификация всегда относительна. Один и тот же объект может быть классифицирован по разным признакам или критериям.

  • Часто встречаются ситуации, когда в зависимости от условий внешней среды объект может быть отнесен к разным классификационным группировкам.

  • Эти рассуждения особенно актуальны при классификации видов информации без учета ее предметной ориентации, так как она часто может быть использована в разных условиях, разными потребителями, для разных целей.


Классификация информации по разным признакам

  • Классификация информации, циркулирующей в организации


Классификация информации по месту возникновения

  • Входная информация - это информация, поступающая в фирму или ее подразделения.

  • Выходная информация - это информация, поступающая из фирмы в другую фирму, организацию (подразделение).

  • Одна и та же информация может являться входной для одной фирмы, а для другой, ее вырабатывающей, выходной. По отношению к объекту управления (фирма или ее подразделение: цех, отдел, лаборатория) информация может быть определена как внутренняя, так и внешняя.

  • Внутренняя информация возникает внутри объекта, внешняя информация - за пределами объекта.


Классификация информации по стадии обработки

  • Первичная информация - это информация, которая возникает непосредственно в процессе деятельности объекта и регистрируется на начальной стадии.

  • Вторичная информация - это информация, которая получается в результате обработки первичной информации и может быть промежуточной и результатной.

  • Промежуточная информация используется в качестве исходных данных для последующих расчетов.

  • Результатная информация получается в процессе обработки первичной и промежуточной информации и используется для выработки управленческих решений.


Классификация информации по способу отображения

  • Текстовая информация - это совокупность алфавитных, цифровых и специальных символов, с помощью которых представляется информация на физическом носителе (бумага, изображение на экране дисплея).

  • Графическая информация - это различного рода графики, диаграммы, схемы, рисунки и т.д.


  • Переменная информация отражает фактические количественные и качественные характеристики производственно-хозяйственной деятельности фирмы. Она может меняться для каждого случая как по назначению, так и по количеству. Например, количество произведенной продукции за смену, еженедельные затраты на доставку сырья, количество исправных станков и т.п.

  • Постоянная (условно-постоянная) информация - это неизменная и многократно используемая в течение длительного периода времени информация.


Классификация информации по стабильности

  • Постоянная информация может:

  • постоянная справочная информация включает описание постоянных свойств объекта в виде устойчивых длительное время признаков. Например, табельный номер служащего, профессия работника, номер цеха и т.п.;

  • постоянная нормативная информация содержит местные, отраслевые и общегосударственные нормативы. Например, размер налога на прибыль, стандарт на качество продуктов определенного вида, размер минимальной оплаты труда, тарифная сетка оплаты государственным служащим;

  • постоянная плановая информация содержит многократно используемые в фирме плановые показатели. Например, план выпуска телевизоров, план подготовки специалистов определенной квалификации.


Классификация информации по функции управления

  • По функциям управления обычно классифицируют экономическую информацию.

  • Плановая информация - информация о параметрах объекта управления на будущий период.

  • Нормативно-справочная информация содержит различные нормативные и справочные данные. Ее обновление происходит достаточно редко

  • Учетная информация - это информация, которая характеризует деятельность фирмы за определенный прошлый период времени. На основании этой информации могут быть проведены следующие действия: скорректирована плановая информация, сделан анализ хозяйственной деятельности фирмы, приняты решения по более эффективному управлению работами и пр.


  • Оперативная (текущая) информация - это информация, используемая в оперативном управлении и характеризующая производственные процессы в текущий (данный) период времени. К оперативной информации предъявляются серьезные требования по скорости поступления и обработки, а также по степени ее достоверности.


Для полной формализации информации недостаточно простой классификации, поэтому проводят следующую процедуру - кодирование. Кодирование - это процесс присвоения условных обозначений объектам и классификационным группам по соответствующей системе кодирования. Кодирование реализует перевод информации, выраженной одной системой знаков, в другую систему, то есть перевод записи на естественном языке в запись с помощью кодов. Система кодирования - это совокупность правил обозначения объектов и группировок с использованием кодов. Код - это условное обозначение объектов или группировок в виде знака или группы знаков в соответствии с принятой системой. Код базируется на определенном алфавите (некоторое множество знаков). Число знаков этого множества называется основанием кода. Различают следующие типы алфавитов: цифровой, буквенный и смешанный.

Код характеризуется следующими параметрами:

основанием кодирования;

структурой кода, под которой понимают распределение знаков по признакам и объектам классификации;

степенью информативности, рассчитываемой как частное от деления общего количества признаков на длину кода;

коэффициентом избыточности, который определяется как отношение максимального количества объектов к фактическому количеству объектов.

К методам кодирования предъявляются определенные требования:

код должен осуществлять идентификацию объекта в пределах заданного множества объектов классификации;

желательно предусматривать использование в качестве алфавита кода десятичных цифр и букв;

необходимо обеспечивать по возможности минимальную длину кода и достаточный резерв незанятых позиций для кодирования новых объектов без нарушения структуры классификатора.

Методы кодирования могут носить самостоятельный характер – регистрационные методы кодирования, или быть основанными на предварительной классификации объектов – классификационные методы кодирования.

^ Регистрационные методы кодирования бывают двух видов: порядковый и серийно-порядковый. В первом случае кодами служат числа натурального ряда. Каждый из объектов классифицируемого множества кодируется путем присвоения ему текущего порядкового номера. Данный метод кодирования обеспечивает довольно большую долговечность классификатора при незначительной избыточности кода. Этот метод обладает наибольшей простотой, использует наиболее короткие коды и лучше обеспечивает однозначность каждого объекта классификации. Кроме того, он обеспечивает наиболее простое присвоение кодов новым объектам, появляющимся в процессе ведения классификатора. Существенным недостатком порядкового метода кодирования является отсутствие в коде какой-либо конкретной информации о свойствах объекта, а также сложность машинной обработки информации при получении итогов по группе объектов классификации с одинаковыми признаками.

В серийно-порядковом методе кодирования кодами служат числа натурального ряда с закреплением отдельных серий этих чисел (интервалов натурального ряда) за объектами классификации с одинаковыми признаками. В каждой серии, кроме кодов имеющихся объектов классификации, предусматривается определенное количество кодов для резерва.

^ Классификационные коды используют для отражения классификационных взаимосвязей объектов и группировок и применяются в основном для сложной логической обработки экономической информации. Группу классификационных систем кодирования можно разделить на две подгруппы в зависимости от того, какую систему классификации используют для упорядочения объектов: системы последовательного кодирования и параллельного кодирования.

^ Последовательные системы кодирования характеризуются тем, что они базируются на предварительной классификации по иерархической системе. Код объекта классификации образуется с использованием кодов последовательно расположенных подчиненных группировок, полученных при иерархическом методе кодирования. В этом случае код нижестоящей группировки образуется путем добавления соответствующего количества разрядов к коду вышестоящей группировки.

^ Параллельные системы кодирования характеризуются тем, что они строятся на основе использования фасетной системы классификации и коды группировок по фасетам формируются независимо друг от друга.

В параллельной системе кодирования возможны два варианта записи кодов объекта:


  1. Каждый фасет и признак внутри фасета имеют свои коды, которые включаются в состав кода объекта. Такой способ записи удобно применять тогда, когда объекты характеризуются неодинаковым набором признаков. При формировании кода какого-либо объекта берутся только необходимые признаки.

  2. Для определения групп объектов выделяется фиксированный набор признаков и устанавливается стабильный порядок их следования, то есть устанавливается фасетная формула. В этом случае не надо каждый раз указывать, значение какого из признаков приведено в определенных разрядах кода объекта.

Параллельный метод кодирования имеет ряд преимуществ. К достоинствам рассматриваемого метода следует отнести гибкость структуры кода, обусловленную независимостью признаков, из кодов которых строится код объекта классификации. Метод позволяет использовать при решении конкретных технико-экономических и социальных задач коды только тех признаков объектов, которые необходимы, что дает возможность работать в каждом отдельном случае с кодами небольшой длины. При этом методе кодирования можно осуществлять группировку объектов по любому сочетанию признаков. Параллельный метод кодирования хорошо приспособлен для машинной обработки информации. По конкретной кодовой комбинации легко узнать, набором каких характеристик обладает рассматриваемый объект. При этом из небольшого числа признаков можно образовать большое число кодовых комбинаций. Набор признаков при необходимости может легко пополняться присоединением кода нового признака. Это свойство параллельного метода кодирования особенно важно при решении технико-экономических задач, состав которых часто меняется.

Наиболее сложными вопросами, которые приходится решать при разработке классификатора, являются выбор методов классификации и кодирования и выбор системы признаков классификации. Основой классификатора должны быть наиболее существенные признаки классификации, соответствующие характеру решаемых с помощью классификатора задач. При этом данные признаки могут быть или соподчиненными, или несоподчиненными. При соподчиненных признаках классификации и стабильном комплексе задач, для решения которых предназначен классификатор, целесообразно использовать иерархический метод классификации, который представляет собой последовательное разделение множества объектов на подчиненные классификационные группировки. При несоподчиненных признаках классификации и при большой динамичности решаемых задач целесообразно использовать фасетный метод классификации.

Важным вопросом является также правильный выбор последовательности использования признаков классификации по ступеням классификации при иерархическом методе классификации. Критерием при этом является статистика запросов к классификатору. В соответствии с этим критерием на верхних ступенях классификации в классификаторе должны использоваться признаки, к которым будут наиболее частые запросы. По этой же причине на верхних ступенях классификации выбирают наименьшее основание кода.




Top