Анализ данных. Методика анализа данных
В настоящее время широкое применение в экономике и бизнесе находят информационные аналитических системы как средства, обеспечивающие поддержку принятия решений. Растет степень и уровень использования интеллектуальных технологий, так как в базах данных организации накапливается огромное количество данных, которые благодаря применению этих технологий могут быть использованы для получения важной и своевременной информации .
Для оценки роли и места информационных аналитических систем на предприятии рассмотрим общую классификацию информационных систем с позиции применения их на каждом из уровней управления.
На нижнем уровне (уровень оперативного управления) находятся информационные системы, ориентированные на операционную обработку данных (торговые, финансовые, кадровые и др.) в режиме реального времени (OLTP, on-line transactional processing - системы оперативной обработки данных). На верхнем уровне (уровень стратегического управления) располагаются информационные системы, осуществляющие поддержку деятельности менеджеров высшего звена по принятию решений в условиях полуструктурированных и неструктурированных данных.
Информационные системы различных уровней управления тесно взаимодействуют друг с другом. При этом на каждом из уровней управления осуществляется поддержка решений специфичных функциональных задач в соответствии с бизнес-процессами предприятия или организации, что обеспечивает интеграцию информационных потоков по вертикали. Примеры задач представлены в табл. 3.6.
Таблица 3.6. Задачи функциональных подсистем на различных уровнях управления
Уровни управ- ления |
Задачи функциональных подсистем |
|||
Маркетинг и сбыт |
Производство |
Снабжение |
Финансы |
|
Тактический |
Анализ и планирование объемов сбыта. Ценообразование |
Анализ и планирование производственных программ |
Анализ и планирование объемов закупок |
Анализ и планирование денежных потоков. Контроль бюджета |
Оперативный |
Учет заказов. Выписка счетов и накладных |
Обработка производственных заказов |
Складские операции. Заказы на закупку |
Бухгалтерский учет и расчет зарплаты |
Очевидно, что приведенная категоризация систем по уровням управления является модельным представлением, в реальных системах функции и уровни в той или иной степени интегрированы.
Системы поддержки принятия решений (СППР) - интерактивные системы, используемые в управлении для помощи в принятии решений в условиях частично и слабо структурированных задач. Они имеют развитый аналитический аппарат по сравнению с управленческими информационными системами, а также включают некоторую совокупность математических моделей. С целью реагирования на внешние изменяющиеся условия СППР в качестве входных данных используют информацию из офисных, профессиональных и транзакционных систем и систем управления, а также должны получать информацию из внешних источников.
Очевидно, что СППР могут использоваться как на стратегическом, так и на тактическом уровнях управления. Эти системы помогают принятию решения управления, объединяя данные, аналитические модели и удобное для пользователя программное обеспечение в систему, основная задача которой - предоставить пользователю инструмент анализа данных и построения моделей, служащих основой для принятия решений.
СППР предоставляют в распоряжение пользователей вычислительные и коммуникационные инструменты и мощности, позволяющие ответить на такие вопросы, как: «В каком состоянии находится бизнес?» или «Какие действия могут защитить предприятие или организацию от изменений конъюнктуры рынка?» и т.п.
Характеристики систем поддержки принятия решений:
- обеспечивают решение проблем, развитие которых трудно прогнозировать;
- оснащены сложными инструментальными средствами моделирования и анализа;
- позволяют легко менять постановку решаемых задач и входные данные;
- отличаются гибкостью и легко адаптируются к изменению условий;
- имеют технологию, максимально ориентированную на пользователя.
В СППР можно выделить две основные части: хранилище данных и средства аналитической обработки данных, в которые входят составными частями отчетность, OLAP-средства и средства интеллектуального анализа данных (data mining) - рис. 3.45.
Средства отчетности обеспечивают формирование сводной корпоративной отчетности: формирование любых видов регламентированной отчетности, планирование генерации отчетов, доставка отчетов конечным пользователям, создание нерегла- ментированных отчетов «на лету».
OLAP-системы (on-line analytical processing ) представляют инструмент для анализа больших объемов данных в режиме реального времени. Взаимодействуя с OLAP-системой, пользователь может осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции детализации, свертки, сравнения во времени. Если системы регламентированной отчетности позволяют ответить на вопрос: «Какова прибыль предприятия за последний месяц?», то OLAP-системы дают ответ на вопрос: «Какого поставщика мне выгодно выбрать и почему?»
Рис. 3.45.
Интеллектуальный анализ данных, или извлечение данных (data mining), позволяет проводить более глубокие исследования данных. Задачам и методам интеллектуального анализа данных посвящены последующие главы учебника.
Процедуры манипулирования данными в СППР должны обеспечивать следующие возможности:
- - составление комбинаций данных, получаемых из различных источников;
- - быстрое добавление или исключение того или иного источника данных и их автоматическое переключение при поиске данных;
- - управление данными с использованием СУБД;
- - логическую независимость данных этого типа от других баз данных, входящих в подсистему информационного обеспечения;
- - автоматическое отслеживание потока информации для наполнения баз данных.
Практическая реализация СППР базируется на использовании OLAP-технологий и организации хранилищ данных (ХД, Data Warehouses ).
Вопросы практики. Рассмотрим результаты внедрения информационно-аналитической системы. Банк DeltaCredit стал первым коммерческим банком в России, специализирующимся на ипотечном кредитовании. Одной из важнейших составляющих работы любой кредитной организации является поддержание качества кредитного портфеля. Ипотечные кредиты выдаются на большой срок и несут в себе большое количество рисков для банка. Именно поэтому основным этапом при рассмотрении заявки на ипотечный кредит является тщательная проверка заемщика и предмета залога на соответствие требованиям банка. В 2007 г. началось сотрудничество DeltaCredit и BaseGroup Labs. Аналитическая платформа Deductor была внедрена в качестве системы поддержки принятия решения для аналитиков. Осуществлялась многофакторная проверка заемщиков по правилам Руководства по андеррайтингу ипотечных кредитов. За годы работы Deductor зарекомендовала себя как надежный помощник аналитиков, снижающий риски пропуска важной информации. В настоящий момент при рассмотрении любой заявки осуществляется проверка более чем сотни различных правил и требований. Успешная эксплуатация аналитической платформы привела к идее об использовании Deductor в качестве еще одного звена проверки - по внутренним базам данных банка. В целом компания BaseGroup Labs зарекомендовала себя как надежный партнер и профессионал своего дела, a Deductor - удобным инструментом, на который уже в ближайшем будущем возлагается еще больше надежд - анализ ответов из Бюро кредитных историй, анализ информации из внешних баз данных, поведенческий анализ, использование в качестве платформы для кредитного скоринга. Таков отзыв о системе руководителя Кредитного департамента ЗАО «КБ ДельтаКредит» Д. Ковалева (источник : Отзывы клиентов // BaseGroup Labs: [интернет-сайт]. URL: http://www. basegroup.ru).
Анализ данных
Анализ данных - область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных ; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.
Анализ социологических данных
Основная цель анализа данных в социологии - выявление (подтверждение, корректировка) каких-то интересующих исследователя статистических закономерностей; или, другими словами, - определенного рода сжатие, усреднение содержащейся в данных информации. В методологии анализа данных как области методологии социологических исследований следует выделить структурно, как минимум, следующие взаимосвязанные части:
Примечания
Wikimedia Foundation . 2010 .
Смотреть что такое "Анализ данных" в других словарях:
Статистические исследования, связанные с обсчетом многомерной системы данных наблюдений, имеющей множество параметров. А.д. классифицируется: 1. Описанием одних параметров через другие и составлением новых параметров. 2. Языком представления… … Словарь бизнес-терминов
Англ. analysis, data; нем. Datenanalyse. Этап эмпирического социол. исследования, в ходе к рого при помощи содержательных соображений и мате матико статист. методов на основе первичной информации раскрываются связи исследуемых переменных.… … Энциклопедия социологии
Анализ данных - см. Прикладная статистика … Экономико-математический словарь
анализ данных - — EN data analysis The evaluation of digital data, i.e. data represented by a sequence of code characters. (Source: MGH) … … Справочник технического переводчика
АНАЛИЗ ДАННЫХ - 1. Совокупность действий, осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенных представлений о характере явления, описываемого этими данными. В процессе А.д. исследователь чаще … Российская социологическая энциклопедия
АНАЛИЗ ДАННЫХ - область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных. В социологии А.Д. применяется в… … Социология: Энциклопедия
АНАЛИЗ ДАННЫХ - направление статистических исследований, включающее комплекс методов обработки многомерной системы данных наблюдений, характеризующейся многими признаками. В отличие от классических математико статистических методов, предполагающих известную… … Большой экономический словарь
АНАЛИЗ ДАННЫХ - (data analysis) исследование и обработка информации научных работ обследований или экспериментов. Социальные данные могут анализироваться рядом методов, включая перекрестное табулирование, статистические тесты (см. Статистика и статистический… … Большой толковый социологический словарь
АНАЛИЗ ДАННЫХ - – 1. Совокупность действий, осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенного представления о характере явления, описываемого этими данными. Исследователь пытается данные… … Энциклопедический словарь по психологии и педагогике
Анализ данных - совокупность действий осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенных представлений о характере явления, описываемого этими данными … Социологический словарь Socium
При анализе информации вы часто будете сталкиваться с тем, что теоретическое великолепие методов анализа разбивается о действительность. Ведь вроде все давно решено, известно множество методов решения задач анализа. Почему же довольно часто они не работают?
Дело в том, что безупречные с точки зрения теории методы имеют мало общего с действительностью. Чаще всего аналитик сталкивается с ситуацией, когда трудно сделать какие-либо четкие предположения относительно исследуемой задачи. Модель не известна, и единственным источником сведений для ее построения является таблица экспериментальных данных типа "вход – выход", каждая строка которой содержит значения входных характеристик объекта и соответствующие им значения выходных характеристик.
В результате они вынуждены использовать всякого рода эвристические или экспертные предположения и о выборе информативных признаков, и о классе моделей, и о параметрах выбранной модели. Эти предположения аналитика основываются на его опыте, интуиции, понимании смысла анализируемого процесса. Выводы, получаемые при таком подходе, базируются на простой, но фундаментальной гипотезе о монотонности пространства решений, которую можно выразить так: "Похожие входные ситуации приводят к похожим выходным реакциям системы". Идея на интуитивном уровне достаточно понятная, и этого обычно достаточно для получения практически приемлемых решений в каждом конкретном случае.
В результате применения такого метода решений академическая строгость приносится в жертву реальному положению вещей. Собственно, в этом нет ничего нового. Если какие – то подходы к решению задачи вступают в противоречие с реальностью, то обычно их изменяют. Возвращаясь к анализу данных, или, вернее, к тому, что сейчас называют Data Mining, следует обратить внимание еще на один момент: процесс извлечения знаний из данных происходит по той же схеме, что и установление физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты очевидными и, во-вторых, дает возможность предсказать новые факты. При этом имеется ясное понимание того, что наши знания об анализируемом процессе, как и любом физическом явлении, в какой – то степени приближение. Вообще, всякая система рассуждений о реальном мире предполагает разного рода приближения. Фактически термин Data Mining – это попытка узаконить физический подход в отличие от математического к решению задач анализа данных. Что же мы вкладываем в понятие "физический подход"?
Это такой подход, при котором аналитик готов к тому, что анализируемый процесс может оказаться слишком запутанным и не поддающимся точному анализу с помощью строгих аналитических методов. Но можно все же получить хорошее представление о его поведении в различных обстоятельствах, подходя к задаче с различных точек зрения, руководствуясь знанием предметной области, опытом, интуицией и используя различные эвристические подходы. При этом мы движемся от грубой модели ко все более точным представлениям об анализируемом процессе. Слегка перефразировав Р. Фейнмана, скажем так: можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью.
Общая схема работы при этом выглядит следующим образом:
Таким образом, данный подход подразумевает, что:
- При анализе нужно отталкиваться от опыта эксперта.
- Необходимо рассматривать проблему под разными углами и комбинировать подходы.
- Не стоит стремиться сразу к высокой точности. Двигаться к решению нужно от более простых и грубых моделей ко все более сложным и точным.
- Стоит останавливаться как только получим приемлемый результат, не стремясь получить идеальную модель.
- По прошествии времени и накоплению новых сведений нужно повторять цикл – процесс познания бесконечен.
Пример работы
В качестве примера можно в общих чертах рассмотреть процесс анализа рынка недвижимости в г. Москве. Цель – оценка инвестиционной привлекательности проектов. Одна из задач, решаемых при этом, – построение модели ценообразования для жилья в новостройках, другими словами, количественную зависимость цены жилья от ценообразующих факторов. Для типового жилья таковыми, в частности, являются:
- Местоположение дома (престижность района; инфраструктура района; массовая или точечная застройка; окружение дома (напр. нежелательное соседство с промышленными предприятиями, "хрущевками", рынками и т.д.); экология района (близость к лесопарковым массивам))
- Местоположение квартиры (этаж – первые и последние этажи дешевле; секция – квартиры в торцевых секциях дешевле; ориентация квартиры по сторонам света – северная сторона дешевле; вид из окон).
- Тип дома (самая популярная серия П-44Т).
- Площадь квартиры.
- Наличие лоджий (балконов)
- Стадия строительства (чем ближе к сдаче дома, тем выше цена за кв.м).
- Наличие отделки ("черновая" отделка, частичная отделка, под ключ. Большинство новостроек сдаются с черновой отделкой).
- Телефонизация дома.
- Транспортное сообщение (близость к метро, удаленность от крупных магистралей, удобный подъезд, наличие автостоянки около дома (наличие парковочных мест)).
- Кто продает квартиру ("из первых рук" (инвестор, застройщик) или посредники (риэлтеры). Риэлтеры, как правило, берут за свои услуги – 3-6%).
Это далеко неполный перечень, но и он повергает в уныние. Вот тут-то очень кстати приходится высказывание Р. Фейнмана ("можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью"). Для начала из имеющейся истории продаж мы ограничились данными для одного района Москвы. В качестве входных факторов взяли ограниченный набор характеристик с точки зрения экспертов, очевидно влияющих на продажную цену жилья: серия дома, отделка, этаж (первый, последний, средний), готовность объекта, количество комнат, секция (угловая, обычная), метраж. Выходным значением являлась цена за квадратный метр, по которой продавались квартиры. Получилась вполне обозримая таблица с разумным количеством входных факторов.
На этих данных обучили нейросеть, то есть построили довольно грубую модель. При всей своей приблизительности у нее было одно существенное достоинство: она правильно отражала зависимость цены от учитываемых факторов. Например, при прочих равных условиях квартира в угловой секции стоила дешевле, чем в обычной, а стоимость квартир по мере готовности объекта возрастала. Теперь оставалось ее лишь совершенствовать, делать более полной и точной.
На следующем этапе в обучающее множество были добавлены записи о продажах в других районах Москвы. Соответственно, в качестве входных факторов стали учитываться такие характеристики, как престижность района, экология района, удаленность от метро. Так же в обучающую выборку была добавлена цена за аналогичное жилье на вторичном рынке. Специалисты, имеющие опыт работы на рынке недвижимости, имели возможность в процессе совершенствования модели безболезненно экспериментировать, добавляя или исключая факторы, т. к., напомню, процесс поиска более совершенной модели сводился к обучению нейросети на разных наборах данных. Главное здесь вовремя понять, что процесс этот бесконечен.
Это пример, как нам кажется, довольно эффективного подхода к анализу данных: использование опыта и интуиции специалиста в своей области для последовательного приближения ко все более точной модели анализируемого процесса. Основное требование при этом – наличие качественной информации достаточного объема, что невозможно без системы автоматизации сбора и хранения информации, о чем всегда надо помнить тем, кто серьезно занимается информационным обеспечением бизнеса. Но данная тема выходит за рамки статьи.
Вывод
Описанный подход позволяет решать реальные задачи с приемлемым качеством. Конечно, можно найти у данной методики множество недостатков, но в действительности реальной альтернативы ей нет, разве что отказаться от анализа вообще. Хотя если физики с успехом используют такие методы анализа уже много веков, почему бы не взять его на вооружение и в других областях?
Механизм анализа данных и прогнозирования предоставляет пользователям (экономистам, аналитикам и т.д.) возможность осуществлять поиск неочевидных закономерностей в данных, накопленных в информационной базе. Этот механизм позволяет:
- осуществлять поиск закономерностей в исходных данных информационной базы;
- управлять параметрами выполняемого анализа как программно, так и интерактивно;
- осуществлять программный доступ к результату анализа;
- автоматически выводить результат анализа в табличный документ;
- создавать модели прогноза, позволяющие автоматически прогнозировать последующие события или значения неких характеристик новых объектов.
Механизм анализа данных представляет собой набор взаимодействующих друг с другом объектов встроенного языка, что позволяет разработчику использовать его составные части в произвольной комбинации в любом прикладном решении. Встроенные объекты позволяют легко организовать интерактивную настройку параметров анализа пользователем, а также позволяют выводить результат анализа в удобной для отображения форме в табличный документ.
Механизм позволяет работать как с данными, полученными из информационной базы, так и с данными, полученными из внешнего источника, предварительно загруженными в таблицу значений или табличный документ:
Применяя к исходным данным один из видов анализа, можно получить результат анализа. Результат анализа представляет собой некую модель поведения данных. Результат анализа может быть отображен в итоговом документе, или сохранен для дальнейшего использования.
Дальнейшее использование результата анализа заключается в том, что на его основе может быть создана модель прогноза, позволяющая прогнозировать поведение новых данных в соответствии с имеющейся моделью.
Например, можно проанализировать, какие товары приобретаются вместе (в одной накладной) и сохранить этот результат анализа в базе данных. В дальнейшем, при создании очередной накладной:
на основании сохраненного результата анализа можно построить модель прогноза, подать ей "на вход" новые данные, содержащиеся в этой накладной, и "на выходе" получить прогноз, - список товаров, которые контрагент Петров Б.С. тоже, скорее всего, приобретет, если их ему предложить:
В механизме анализа данных и прогнозирования реализовано несколько типов анализа данных:
Реализованные типы анализа
Общая статистика
Представляет собой механизм для сбора информации о данных, находящихся в исследуемой выборке. Этот тип анализа предназначен для предварительного исследования анализируемого источника данных.
Анализ показывает ряд характеристик числовых и непрерывных полей. При выводе отчета в табличный документ заполняются круговые диаграммы для отображения состава полей.
Поиск ассоциаций
Данный тип анализа осуществляет поиск часто встречаемых вместе групп объектов или значений характеристик, а также производит поиск правил ассоциаций. Поиск ассоциаций может использоваться, например, для определения часто приобретаемых вместе товаров, или услуг:
Этот тип анализа может работать с иерархическими данными, что позволяет, например, находить правила не только для конкретных товаров, но и для их групп. Важной особенностью этого типа анализа является возможность работать как с объектным источником данных, в котором каждая колонка содержит некоторую характеристику объекта, так и с событийным источником, где характеристики объекта располагаются в одной колонке.
Для облегчения восприятия результата предусмотрен механизм отсечения избыточных правил.
Поиск последовательностей
Тип анализа поиск последовательностей позволяет выявлять в источнике данных последовательные цепочки событий. Например, это может быть цепочка товаров или услуг, которые часто последовательно приобретают клиенты:
Этот тип анализа позволяет осуществлять поиск по иерархии, что дает возможность отслеживать не только последовательности конкретных событий, но и последовательности родительских групп.
Набор параметров анализа позволяет специалисту ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.
Кластерный анализ
Кластерный анализ позволяет разделить исходный набор исследуемых объектов на группы объектов, таким образом, чтобы каждый объект был более схож с объектами из своей группы, чем с объектами других групп. Анализируя в дальнейшем полученные группы, называемые кластерами, можно определить, чем характеризуется та или иная группа, принять решение о методах работы с объектами различных групп. Например, при помощи кластерного анализа можно разделить клиентов, с которыми работает компания, на группы, для того, чтобы применять различные стратегии при работе с ними:
При помощи параметров кластерного анализа аналитик может настроить алгоритм, по которому будет производиться разбиение, а также может динамически изменять состав характеристик, учитываемых при анализе, настраивать для них весовые коэффициенты.
Результат кластеризации может быть выведен в дендрограмму - специальный объект, предназначенный для отображения последовательных связей между объектами.
Дерево решений
Тип анализа дерево решений позволяет построить иерархическую структуру классифицирующих правил, представленную в виде дерева.
Для построения дерева решений необходимо выбрать целевой атрибут, по которому будет строиться классификатор и ряд входных атрибутов, которые будут использоваться для создания правил. Целевой атрибут может содержать, например, информацию о том, перешел ли клиент к другому поставщику услуг, удачна ли была сделка, качественно ли была выполнена работа и т.д. Входными атрибутами, для примера, могут выступать возраст сотрудника, стаж его работы, материальное состояние клиента, количество сотрудников в компании и т.п.
Результат работы анализа представляется в виде дерева, каждый узел которого содержит некоторое условие. Для принятия решения, к какому классу следует отнести некий новый объект, необходимо, отвечая на вопросы в узлах, пройти цепочку от корня до листа дерева, переходя к дочерним узлам в случае утвердительного ответа и к соседнему узлу в случае отрицательного.
Набор параметров анализа позволяет регулировать точность полученного дерева:
Модели прогноза
Модели прогноза, создаваемые механизмом, представляют собой специальные объекты, которые создаются из результата анализа данных, и позволяют в дальнейшем автоматически выполнять прогноз для новых данных.
Например, модель прогноза поиска ассоциаций, построенная при анализе покупок клиентов, может быть использована при работе с осуществляющим покупку клиентом, для того, чтобы предложить ему товары, которые он с определенной степенью вероятности приобретет вместе с выбранными им товарами.
Использование механизма анализа данных в прикладных решениях
Для ознакомления разработчиков прикладных решений с механизмом анализа данных, на диске «Информационно-технологическое сопровождение» (ИТС) размещена демонстрационная информационная база. В ее состав входит универсальная обработка "Консоль анализа данных", которая позволяет выполнять анализ данных в любом прикладном решении, без доработки конфигурации.
Введение
Настоящий выпуск является вторым из серии выпусков, в которых излагается курс «Математическое моделирование геологических объектов», сопровождаемый учебно-методическими рекомендациями, контрольными вопросами и комментариями. В этом выпуске первоочередное внимание уделяется анализу данных как самостоятельной научной дисциплине и в его сопряжении с прикладной статистикой. Излагается, конечно, не «весь» анализ данных, а только отдельные его фрагменты, необходимые для понимания курса в целом. Приводятся минимально необходимые сведения о прикладной статистике.
Математическое моделирование геологических объектов тесно связано с анализом данных, как самостоятельной научной дисциплиной, и прикладной статистикой.
Каким образом анализ данных, математическое моделирование и прикладная статистика совместно используются при решении конкретных геологических задач и, в частности, при создании моделей геологических объектов? Обычно создание модели геологического объекта разбивается на ряд подзадач, образующих единую блок-схему с последовательным и параллельным движением обрабатываемой информации от исходных процедур к конечному результату – синтезу модели.
Решение каждой из таких подзадач сводится либо к построению и анализу некоторой частной модели, либо к поиску стохастической зависимости между некоторыми параметрами, либо к решению той или иной типовой задачи анализа данных и т.п. В последнем случае выбирается алгоритм, удовлетворяющий требованиям, предъявляемым исходной информацией. Требования эти могут иметь как чисто формальный характер (например, наличие в таблице разнотипных признаков делает невозможным применение некоторых алгоритмов), так и представлять собой «трудно» формализуемые представления о системе исследуемых объектов, которыми тоже не следует пренебрегать.
В настоящее время не существует универсального формально-математического способа для выбора подходящего алгоритма. Поэтому при выборе алгоритма наряду с проверкой его формально-математической пригодности рекомендуется ориентироваться и на его относительную простоту и содержательную интерпретируемость используемого математического аппарата в конкретной задаче, опыт применения алгоритма при решении аналогичных задач.
Распознавание образов
Основные подзадачи
Основными подзадачами задачи распознавания являются:
1 ) создание исходного списка признаков;
2 ) выбор классов объектов;
3 ) подготовка таблицы (таблиц) обучения;
4 ) выбор семейства решающих правил;
5 ) поиск оптимального (относительно некоторого критерия или критериев) решающего правила в этом семействе;
6 ) подготовка описаний проб;
7 ) распознавание проб.
На этапах 1 -3 производится выбор и экспликация признаков (см. пособие Красавчикова, 2008) и составление базы данных.
При создании исходного перечня признаков могут быть реализованы два подхода:
А ) всестороннее описание объектов, характерное для ситуаций, когда исследователь не знает, из каких признаков должен быть составлен окончательный список (информативная система признаков), по которому будет производиться распознавание проб. Поэтому он отбирает такие признаки, которые, в принципе, могут содержать полезную информацию (хотя, на первый взгляд, их связь с решаемой задачей может быть и не очевидна), и полагается в выборе информативной системы признаков на алгоритм и реализующую его программу.
Б ) описание объектов, основанное на некоторой геологической модели, для которой список признаков заранее известен.
При выборе классов объектов исходят не только из постановки задачи (например, разбраковать локальные поднятия на перспективные и бесперспективные по результатам интерпретации данных сейсморазведки), но и основываются на геологическом смысле и опыте решения аналогичных задач. Возможно, придётся проводить декомпозицию задачи и осуществлять поэтапное решение в рамках последовательно-параллельной блок-схемы несколько задач распознавания.
При подготовке таблицы (таблиц) обучения следует, по-возможности, избегать появления характеристических признаков, замеренных в шкале наименований (номинальных) с числом принимаемых ими значений, превосходящим два, поскольку они резко ограничивают выбор алгоритма распознавания. Они могут содержать весьма существенную информацию, но лучше, чтобы они не входили в список характеристических признаков. Обычно, по значениям таких признаков формируются классы.
Выбор семейства решающих правил не является формальной процедурой. Однако, при этом выборе есть и формальные требования. Например, если среди признаков есть номинальные или ранговые, то можно использовать только те алгоритмы, которые способны работать с информацией, представленной в качественных шкалах.
Одним из главных критериев выбора решающего правила является его «простота». Практика показала, что предпочтение следует отдавать более простым решающим правилам. Если среди «простых» решающих правил (причём, доступных исследователю в программной реализации) не удаётся найти способного справиться с поставленной задачей (или, в случае (а ), радикально сократить размерность описания), то переходят к более сложным и т.д.
Формализовать понятие простоты не так-то просто! В математической логике и теории алгоритмов есть целое направление, связанное с формализацией и изучением простоты математических конструкций, но знакомство с этой тематикой не входит в задачи курса. Поэтому будем относиться к этой проблематике как интуитивно ясной. По всей видимости, примером наиболее простых решающих правил могут служить линейные (см. ниже). Если есть два линейных решающих правила, то более простым, очевидно, является то, которое использует меньшее число признаков.
В случае (а ) при выборе семейства решающих правил следует обращать особое внимание на способность радикального сокращения размерности описания.
После выбора семейства проводится поиск решающей функции и соответствующего правила, которые в этом семействе обладают «наилучшим качеством» по отношению к материалу обучения и экзамена.
Для оценки качества решающего правила используются функционалы наподобие нижеприведённого:
Δ(F,λ,ε)=p 1 M 1 + p 2 M 2 +p 3 M 3 + p 4 M 4 ,
где для материала обучения и экзамена
M 1 – число ошибочно распознанных объектов первого класса;
M 2 – число ошибочно распознанных объектов второго класса;
M 3 – число отказов для объектов первого класса;
M 4 – число отказов для объектов второго класса.
Коэффициенты p j , j=1,…,4, – «штрафы» за ошибку соответствующего типа. Чем меньше значение Δ(F,λ,ε) (при фиксированных списках объектов обучения и экзамена), тем выше качество решающего правила.
После того, как для всех объектов обучения и экзамена вычислены значения решающей функции, управляющие параметры алгоритма λ, ε могут быть выбраны оптимальным образом, т.е. так, чтобы функционал качества решающего правила достигал минимума:
Δ(F,λ * ,ε *)=min Δ(F,λ,ε),
где минимум берётся по всемλ, ε и ε>0.
В случае (а ) ещё одним (и не менее важным) критерием качества является резко сокращение числа признаков, используемых в распознавании, по сравнению с исходным списком. Это обусловлено тем, что
Малое число признаков уменьшает влияние «информационных шумов», что делает распознавание более надёжным;
Сокращается время на подготовку описаний проб. Так, при распознавании в узлах сеток уменьшается число карт, которые приходится строить;
Появляется возможность содержательно проинтерпретировать решающее правило и т.д.
Описание проб производится по признакам, используемым в оптимальном решающем правиле. В случае (а ) это особенно важно, т.к., в частности, существенно сокращается время на подготовку описаний.
Примеры алгоритмов распознавания
К настоящему времени опубликованы сотни методов распознавания. Они объединяются в семейства. Зачастую, эти семейства описываются в виде решающих функций (либо правил) с неопределёнными параметрами. Устоявшейся общепризнанной классификации семейств алгоритмов распознавания не существует. Поэтому ограничимся кратким описанием нескольких семейств алгоритмов, показавших свою эффективность при решении прикладных геологических задач, особенно в геологии нефти и газа.
Для подробного ознакомления с применением методов распознавания в геологии нефти и газа отсылаем читателя к публикациям 60-80 годов прошлого века, когда их использование при решения задач прогнозно-поискового профиля было массовым. Методы распознавания применялись, в частности, при решении задач прогноза гигантских нефтяных месторождений, продуктивности локальных поднятий, фазового состояния УВ в залежах и др. (Распознавание образов…, 1971; Раздельное прогнозирование…, 1978, Прогноз месторождений …, 1981 и др.).
4.3.1. Байесовские решающие правила
Эти решающие правила подробно охарактеризованы в учебном пособии Дёмина (2005), куда мы и отсылаем читателя. Для более глубокого ознакомления с приложениями байесовской теории принятия решений в геологии нефти и газа рекомендуем обратиться к монографии (Прогноз месторождений…, 1981).
4.3.2. Комбинаторно-логические методы в распознавании
Применение этих методов рассмотрим на примере одной конкретной схемы распознавания, основанной на аппарате дискретной математики и математической логики.
Пусть сначала для простоты изложения все признаки X 1 ,…,X n – бинарные. Согласно Журавлёву (1978) назовём произвольную совокупность W наборов признаков вида w=(X j (1) ,…,X j (k)), где k=1,…,n, системой опорных множеств, W={w 1 , w 2 ,…, w N }, а её элементы w r – опорными множествами.
Пусть wÎW, w=(X j (1) ,…,X j (L)), S k – строка таблицы , Q p – строка таблицы . Строки S k и Q p различаются по набору признаков w, если найдётся входящий в w признак X j (r) такой, что X j (r) (S k)¹X j (r) (Q p). В противном случае будем говорить, что они не различаются.
Определение 1 .Набор признаков wÎW голосует за отнесение строки S к первому классу, если в таблице T 1 найдётся строка S k , такая, что по набору w строки S и S k не различаются; w голосует за отнесение строки S ко второму классу, если в таблице T 2 найдётся строка Q p , такая, что по набору w строки S и Q p не различаются.
при Г 1 (S) > Q p) и Г 2 (S) ≤ Г 2 (S i) объект S относится к классу K 1 ;
при Г 2 (S) > S i) и Г 1 (S) ≤ Г 1 (Q p) объект S относится к классу K 2 ;
в остальных случаях S не распознаётся.
Смысл этого решающего правила заключается в том, что для отнесения пробы S к классу K j , где j=1,2, она должна получить
Эта схема представляет собой один из простейших вариантов голосования по системе опорных множеств. Алгоритм представляет собой реализацию так называемого «принципа частичной прецедентности» (Журавлёв, 1978), при котором заключение о принадлежности объекта к классу выносится на основе анализа совпадений фрагментов его описания с соответствующими фрагментами описаний объектов этого класса. Совпадение фрагментов описаний объекта обучения и пробы является частичным прецедентом.
Пример системы опорных множеств: тестовая конструкция. Её основой являются понятия теста и тупикового теста, предложенные С.В. Яблонским в качестве математического аппарата диагностики технических устройств (Журавлёв, 1978).
Определение 2. Набор столбцовw называется тестом для пары таблиц T 1 , T 2 если по нему нет совпадений между строками S i и Q p , где
Определение 3 .Тест называетсятупиковым, если из него нельзя удалить ни одного столбца без того, чтобы он перестал быть тестом.
Дмитриев, Журавлёв, Кренделев (1966) воспользовались аппаратом тупиковых тестов для создания алгоритмов классификации предметов и явлений.
В геологии нефти и газа комбинаторно-логические методы впервые были применены при решении задач прогноза гигантских нефтяных месторождений (Распознавание образов …, 1971), где была использована тестовая конструкция. Под руководством А.А. Трофимука тестовый подход применён также и к решению других важнейших прогнозных задач геологии нефти и газа (Раздельное прогнозирование…, 1978 и др.). Ряд сделанных А.А. Трофимуком прогнозов, не нашедших поддержки в момент опубликования, в дальнейшем блестяще подтвердились.
Константиновым, Королёвой, Кудрявцевым (1976) на представительном фактическом материале по прогнозу рудоносности была подтверждена эффективность алгоритмов тестового подхода по сравнению с другими алгоритмами распознавания, применявшимися для решения задач рудопрогноза.
В геологии нефти и газа другие системы опорных множеств не применялись.
Если в таблицах встречаются признаки, замеренные в количественных шкалах, то для них используются пороговые меры различимости значений (см. Красавчиков, 2009).
4.3.1. Линейные методы
Линейные методы стали применяться для решения задач распознавания образов одними из первых (см.. Ту, Гонсалес, 1978) в середине прошлого века.
Пусть F(u 1 ,…,u n)=a 1 u 1 + a 2 u 2 + … +a n u n – линейная функция n переменных u 1 ,…,u n . Методы отыскания линейных решающих функций и правил принято называть линейными. Общий вид линейных решающих правил может быть задан следующим образом:
при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≥λ+ε объект S относится к К 1 ;
при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≤λ-ε объект S относится к К 2 ;