Необходимые преобразования матрицы данных. этап. Определение сходства объектов

Определения

Пусть - множество объектов (ситуаций, прецедентов). Что есть объект, определяется спецификой предметной области. Например, в задачах медицинской диагностики объектами являются пациенты. В задаче кредитного скоринга объектами являются заёмщики. В задаче обнаружения спама объектами являются письма электронной почты.

Признак

Признаком (feature) называется результат измерения некоторой характеристики объекта. Формально, признак - это отображение , где - множество допустимых значений признака. В зависимости от природы этого множества признаки делятся на следующие типы:

В прикладных задачах встречаются и более сложные случаи. Значениями признаков могут быть числовые последовательности, изображения, тексты, функции, графы, результаты запросов к базе данных, и т. д.

Если все признаки имеют одинаковый тип, то исходные данные называются однородными , в противном случае - разнородными .

Признаковое описание объекта

Пусть имеется набор признаков . Вектор называется признаковым описанием объекта . В машинном обучении не делается различия между объектом и его признаковым описанием; полагается, что .

Матрица объектов–признаков

Совокупность признаковых описаний всех объектов обучающей выборки , записанную в виде таблицы размером , называют матрицей объектов–признаков , матрицей информации или просто матрицей исходных данных :

Строки матрицы - это признаковые описания обучающих объектов. Столбцы матрицы соотвествуют признакам.

Матрица «объекты × признаки» является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии . Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. Например, в задаче обнаружения спама объекты (письма) представляются текстами произвольной длины; к тому же , в письмо могут быть вложены файлы произвольного формата. В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот приём называется извлечением признаков из данных (features extraction) или генерацией признаков (features generation).

Таким образом, признаки - это характеристики объектов, которые либо измеряются непосредственно, либо вычисляются по «сырым» исходным данным. Любое отображение из множества можно рассматривать как признак.

В том числе , любой алгоритм регрессии или классификации, как отображение вида , также может рассматриваться в роли признака. Хотя это наблюдение тривиально, тем не менее, оно даёт ключ к построению суперпозиций или композиций алгоритмов . Всегда имеется возможность, построив один или несколько алгоритмов, присоединить их к признаковому описанию в роли новых признаков и использовать при построении следующего алгоритма.

Исходные данные в пространствах объектов и признаков

Независимо от природы наблюдаемых явлений или процессов в большинстве ситуаций исходные данные представляются в виде матрицы (таблицы) объект-признак, где строками являются объекты, а столбцами - признаки. Под объектом подразумевается любой предмет изучения, например, страна, фирма, регион, студенческая группа и т. п. Признак определяет характеристики рассматриваемого объекта, например, если объектом исследования является фирма, то к числу признаков, ее характеризующих, можно отнести численность персонала, ежемесячный объем расходов и доходов, число контрагентов и другие характеристики. Такая матрица исходных данных имеет вид, показанный на рис. 1.

Рис. 1. Матрица данных объект-признак

Объекты наблюдений представляют собой многомерные величины, для обработки которых используются методы многомерного статистического анализа (МСА). Основой этих методов является геометрическое представление объектов. Исследуемые объекты располагаются в теоретическом пространстве размерностью, соответствующей числу признаков, которыми они характеризуются. В том случае, когда число признаков не превышает трех, возможна визуализация объектов в пространстве признаков. В противном случае возможна лишь математическая идеализация представления объектов в многомерном пространстве, либо необходим переход к некоторым агрегированным признакам, позволяющим снизить размерность наблюдений.

В многомерном пространстве признаки или объекты имеют определенные количественные характеристики. Все принимаемые значения признаков (объектов) представляют собой множества вещественных чисел. При использовании методов МСА необходимо принимать во внимание следующие особенности:

  • в m-мерном пространстве сохраняют силу принципиальные положения и аксиомы евклидовой геометрии;
  • в МСА, как правило, используется большое число признаков, разнородных по своей природе. В связи с этим на первом этапе исследования обычно возникает проблема приведения всех признаков к одному основанию: сопоставимому виду. Подобные проблемы решаются нормированием данных, что геометрически означает изменение масштаба, и другими преобразованиями координатной системы.
  • обработка m-мерных совокупностей включает большое число сложных и трудоемких арифметических операций, поэтому осуществляется на основе пошаговых алгоритмов.

При обработке многомерных данных следует учитывать дуализм представления, так как имеются возможности визуализации как объектов в пространстве признаков, так и признаков в пространстве объектов.

Кроме представления исходных данных в виде матрицы объект-признак, имеются и другие возможности представления. Например, с помощью коэффициента корреляции между признаками, который вычисляется по формуле

где - среднее значение произведения величин признаков x i , x k ; , (- среднее значение признака x i , (x k); s i (s k) - среднеквадратичное отклонение соответствующих признаков, можно представить исходные данные в виде матрицы признак-признак (рис. 2).

Рис. 2. Матрица признак-признак

Эта матрица в отличие от предыдущей имеет размерность . В каждой ячейке матрицы расположены значения коэффициента корреляции между соответствующими признаками; на диагонали матрицы стоят единицы, так как корреляция признака с самим собой максимальна и равна единице. Матрица симметрична относительно своей диагонали. Такая матрица применяется при вычислении главных компонентов.

Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается n признаками, то он может быть представлен как точка в n -мерном пространстве, и его сходство с другими объектами будет определяться как соответствующее расстояние. Указанное обстоятельство позволяет перейти к еще одному виду представления исходных данных, а именно, к матрице объект-объект, представляющей собой таблицу расстояний между анализируемыми объектами. В этом случае в каждой ячейке матрицы находится величина расстояния, допустим, евклидова, рассчитываемого по формуле

.

Здесь x ij , x kj - значения j -го признака, соответственно, у i -го и k -го объектов.

Такая матрица, размерностью , имеет вид, показанный на рис. 3.

Рис. 3. Матрица объект-объект

На диагонали матрицы находятся нули, поскольку расстояние от точки до нее самой равно нулю. Элементы матрицы симметричны относительно диагонали.

Таким образом, исходные данные могут быть представлены в виде матриц трех типов:

  • матрицы объект-признак;
  • матрицы признак-признак;
  • матрицы объект-объект.

Метод главных компонентов

Любое исследование многомерных данных невозможно без использования метода главных компонентов (ГК). Сущность этого метода заключается в снижении размерности данных путем определения незначительного числа линейных комбинаций исходных признаков, которые объясняют большую часть изменчивости данных в целом. Метод ГК связан с переходом к новой системе координат, которая является системой ортонормированных линейных комбинаций. Этот метод дает возможность по n исходным признакам объектов построить такое же количество ГК, являющихся обобщенными (агрегированными) признаками. На первый взгляд, такой переход не дает никакого преимущества в представлении данных, но существует возможность сохранения информации о рассматриваемых данных даже в том случае, если сократить количество вычисленных ГК. Кроме того, при сохранении двух или трех ГК реализуется возможность визуализации многомерных объектов в сокращенном признаковом пространстве. Метод ГК обладает рядом свойств, делающим его эффективным для визуализации структуры многомерных данных. Все они касаются наименьшего искажения геометрической структуры точек (объектов) при их проектировании в пространстве меньшей размерности.

Математическая модель ГК базируется на допущении, что значения множества взаимосвязанных признаков порождают некоторый общий результат. В этой связи при представлении исходных данных, о чем говорилось в предыдущем параграфе, как раз и важна матрица признак-признак, в которой содержится вся информация о попарной связи между признаками. Предположив линейную форму связи между признаками, можно записать в матричной форме уравнение зависимости результата F от признаков Х в виде

где В - вектор параметрических значений линейного уравнения связи.

Условием выполнения такого равенства является соответствие дисперсий, т. е. D (X )= D (XB ). Поскольку Х является многомерной случайной величиной, то ее дисперсионная оценка - это ковариационная матрица S. Постоянная величина В выносится за знак дисперсии и возводится в квадрат, в результате чего получаем D (F )= B " SB .

Первым ГК f 1 (х) набора первичных признаков Х=(х 1 ,х 2 ,…,х n ) называется такая линейная комбинация этих признаков, которая среди прочих линейных комбинаций обладает наибольшей дисперсией. Геометрически это означает, что первый ГК ориентирован вдоль направления наибольшей вытянутости гиперэллипсоида рассеивания исследуемой совокупности данных. Второй ГК имеет наибольшую дисперсию рассеивания среди всех линейных преобразований, некоррелированных с первым ГК, и представляет собой проекцию на направление наибольшей вытянутости наблюдений в гиперплоскости, перпендикулярной первому ГК. Вообще, j –м ГК системы исходных признаков Х=(х 1 , х 2 ,…,х n ) называется такая линейная комбинация этих признаков, которая некоррелирована с (j -1) предыдущими ГК и среди всех прочих некоррелированных с предыдущими (j -1) ГК обладает наибольшей дисперсией. Отсюда следует, что ГК занумерованы в порядке убывания их дисперсий, т.е. , а это дает основу для принятия решения о том, сколько последних ГК можно без ущерба изъять из рассмотрения.

Поиск ГК сводится к задаче последовательного выделения первого ГК с наибольшей дисперсией, второго ГК и т. д. Подобная задача имеет место при условии введения ограничений. Пусть

При максимизируем , используя метод множителей Лагранжа, в результате чего получим

С учетом последнего равенства для характеристического уравнения, позволяющего найти значения j , имеем

где Е - единичная матрица.

Из множества значений характеристических (собственных) чисел j определяем наибольшее 1 и находим соответствующий собственный вектор В 1 , который используется при вычислении первого ГК. Для вычисления второго ГК определяются следующее по величине собственное число 2 и собственный вектор В 2 и т.д.

Если исходную матрицу данных Х предварительно стандартизировать, то матрица ковариаций S перейдет в матрицу парных корреляций R , и вектор B будет собственным вектором по стандартизованным данным U . Решающее уравнение в матричной форме принимает вид

Полученное уравнение называется характеристическим для матрицы R и представляет собой алгебраическое уравнение n -й степени относительно переменной l . Окончательно, соотношения для определения всех n ГК исходного n -мерного вектора Х могут быть представлены в виде

F = B Х.

Отметим основные свойства ГК:

  • математическое ожидание ГК равно нулю;
  • ГК некоррелированы между собой;
  • сумма дисперсий исходных признаков равна сумме дисперсий всех ГК;
  • значимость каждого ГК убывает с его номером и определяется соответствующим собственным числом.

Учитывая указанные свойства, можно предложить критерий для определения количества ГК, которые полезно оставить в качестве агрегированных признаков. Этот критерий может быть записан в виде

где n * - число оставленных в наборе агрегированных признаков.

Этот критерий достигает максимума, равного единице, только при n *= n .

Вычислительная схема метода главных компонентов

Решение задачи методом ГК сводится к поэтапному преобразованию матрицы исходных данных. Основные шаги метода показаны на схеме, приведенной на рис. 4.

Рис. 4. Вычислительная схема метода главных компонентов

Прокомментируем этапы вычислений. В качестве исходных данных обычно выбирается матрица объект-признак Х . Поскольку характеристиками объектов могут служить признаки различной природы, то данные необходимо стандартизировать, т. е. провести центрирование (вычитание среднего значения) и нормирование (деление на среднеквадратичное значение) данных.

На следующем шаге вычисляется матрица корреляций R между признаками, т.е. осуществляется переход к матрице признак-признак. Диагональные элементы этой матрицы равны единице, а сама матрица симметрична относительно этой диагонали, так как r ij = r ji .

Далее определяется матрица собственных векторов В , которая, также, как и предыдущая, является квадратной и состоит из n строк и n столбцов. Компоненты каждого собственного вектора представлены в виде вектора-столбца, сумма квадратов составляющих которого вследствие ортогональности равна единице.

На следующем этапе проводится расчет матрицы собственных чисел , которая в отличие от предыдущих матриц является диагональной, т. е. здесь только на диагонали матрицы находятся собственные числа: все прочие элементы матрицы равны нулю. Размерность этой матрицы, как и двух предыдущих, составляет . Каждое значение j определяет дисперсию каждого ГК. Суммарное значение равняется сумме дисперсий исходных признаков. При условии стандартизации исходных данных

На последнем шаге вычисляются ГК:

Например, при выборе только первых двух наибольших собственных чисел определяем соответствующие им составляющие собственных векторов (два столбца матрицы В ), которые перемножаем на строки матрицы Х. Перемножение первого столбца матрицы В на первую строку матрицы Х даст значение первого ГК для первого объекта, умножение того же столбца на вторую строку определяет значение первого ГК для второго объекта и т.д. После выполнения таких же операций со вторым выбранным вектором получаем возможность построить все объекты в плоскости первых двух ГК, где их взаимное расположение позволяет сделать предварительные выводы о сходстве (различии) объектов.

Проведение вычислений ГК по приведенной схеме возможно лишь на компьютере, на котором установлен подходящий пакет программного обеспечения из области многомерной статистики. Хотя в литературе и указываются вычислительные методы (в частности, метод Фаддеева), позволяющие определить ГК с помощью калькулятора , на самом деле такой прием возможен лишь в ситуации, когда число признаков не превышает трех. В реальной ситуации число признаков может достигать намного больших значений, поэтому необходима помощь ПК.

Из опыта работы автора наиболее приемлемыми пакетами для расчета ГК могут служить пакеты Statgraphics и Statistica, причем в силу большей простоты предпочтение следует отдать первому. В качестве примера на рис. 5 показан график, где в плоскости первых двух ГК представлена совокупность из 10 объектов, каждый из которых первоначально характеризуется 5 признаками.

Рис. 5. Объекты в плоскости первых двух ГК

Как видно из графика, можно получить некоторые выводы о сходстве (различии) объектов при переходе к сокращенному двумерному пространству. Например, достаточно четко прослеживается деление объектов на две группы (объекты с номерами 1-5 и 6-10) и значительное рассеяние внутри этих групп. Таким образом, от пятимерного признакового пространства с помощью ГК осуществлен переход к двумерному пространству агрегированных признаков и визуализация многомерных объектов.

Версия для печати

Хрестоматия

Название работы Аннотация

Первые три этапа процедуры кластеризации целесообразно рассмотреть совместно, так как и в теории, и, тем более, на практике они тесно взаимосвязаны между собой.

Получение исследователем выборки эмпирических данных, представляющих собой результаты измерения ряда признаков (например, характеристик психических процессов, состояний, свойств)

Выполненного у некоторой совокупности объектов (например, респондентов) , с необходимостью предполагает

наличие определенных измерительных методик. Согласно этим методикам результаты измерения могут быть представлены в измерительной шкале того или иного типа (номинальной, порядковой, интервальной, отношений). Как и во многих других случаях, предпочтительными с точки зрения математических оснований здесь являются интервальные шкалы и шкалы отношений, но, в то же время, в кластерном анализе, в отличие, например, от факторного, дискриминантного или дисперсионного анализа, требования к типу шкалы являются не такими жесткими: они, скорее, влияют на выбор конкретного метода кластеризации, а не на принципиальную допустимость кластеризации как таковой.

Нередко в психологических исследованиях результаты измерения различных признаков получают в шкалах разных типах: например, часть признаков измерена в интервальной шкале, а другая часть – в номинальной. В подобных случаях наличия смешанного типа шкал вопрос о выборе подходящего метода кластеризации должен решаться с большой осторожностью. Теоретические основы использования в кластерном анализе смешанных шкал исследованы недостаточно, поэтому велика опасность получения некорректных результатов. Наиболее надежными выходами из данной ситуации являются следующие возможности:

вполне корректным здесь будет применение метода, предназначенного для самого низшего из имеющихся типов шкал (в приведенном примере – для номинальной), однако для использования подобных методов иногда необходимо соответствующим образом преобразовывать результаты, полученные в шкалах более высокого уровня;

можно на последующих этапах процедуры кластеризации выбрать метрику (меру расстояния), специально предназначенную для шкал смешанного типа, однако набор таких метрик весьма ограничен и применяются они относительно редко;

и, наконец, наиболее простой путь – стремиться избегать использования шкал разного типа при получении данных, предназначенных для кластеризации.

Итак, все методы кластеризации теоретически можно было бы разделить на виды по типу измерительной шкалы, в которой получены эмпирические данные, различая, например, методы, предназначенные для интервальных, порядковых и номинальных шкал. Однако такое деление было бы преждевременным, так как сам по себе тип шкалы еще не определяет характера всей процедуры кластеризации в целом. Точнее, использованные при получении эмпирических данных измерительные шкалы влияют на выбор подходящего метода кластерного анализа не прямо, а косвенно – через выбор метрики необходимого для осуществления кластеризации метрического пространства, обсуждаемый ниже.

Полученные эмпирические данные должны быть представлены в виде матрицы «объект – признак» , то есть прямоугольной таблицы чисел, строки которой соответствуют измеренным объектам (например, респондентам), а столбцы – измеряемым признакам (например, характеристикам психических процессов, состояний или свойств). Исследователь сначала заносит полученные данные в таблицу «объект-признак», общий вид которой показан в табл. 11.2-1. Матрица «объект-признак» будет отличаться от таблицы «объект-признак» только тем, что в матрице явно не присутствуют заголовки строк и столбцов. Таким образом, таблице 11.2-1 будет соответствовать матрица «объект-признак» (в фундаментальном справочнике – матрица «объект-свойство»), имеющая размеры , (то есть, в общем случае, прямоугольная), обозначенная через и приведенная в формуле 11.2-1.

Таблица 11.2-1

Общий вид таблицы «объект-признак»

При построении матрицы «объект – признак» нередко возникает серьезная проблема, связанная с тем, что признаки рассматриваемых объектов могут оказаться измеренными в разномасштабных единицах измерения: в этом случае для адекватного определения расстояния между объектами целесообразно применить нормирование показателей, переводящее их в безразмерные величины (или к единому общему масштабу). Нормирование представляет собой переход к некоторому единообразному описанию для всех признаков, к введению новой условной единицы измерения, допускающей формальные сопоставления объектов. Наиболее распространенные способы нормирования показателей (переход от исходных значений a к нормированным значениям z ) представлены в табл. 11.2-2.

Цель работы: ознакомить студентов с видами представления исходных данных и обучить практическим навыкам визуализации многомерных данных в среде Statistica.

1 Основные сведения

1.1 Виды представления многомерных данных

Независимо от природы наблюдаемых явлений или процессов в большинстве ситуаций исходные данные представляются в виде матрицы (таблицы) объект-признак , где строками являются объекты, а столбцами ─ признаки. Под объектом подразумевается любой предмет изучения, например, страна, фирма, регион, студенческая группа и т. п. Признак определяет характеристики рассматриваемого объекта, например, если объектом исследования является фирма, то к числу признаков, ее характеризующих, можно отнести численность персонала, ежемесячный объем расходов и доходов, число контрагентов и другие характеристики. Каждый элемент такой матрицы Х обозначается как x ij , где - номер объекта; - номер признака. Размерность этой матрицы составляет . Матрица Х описывает m объектов в терминах n признаков, причем значения m и n обычно достаточно велики. Считается, что для получения статистически достоверных результатов число объектов должно превышать число признаков в несколько раз.

При обработке многомерных данных следует учитывать дуализм представления, так как имеются возможности визуализации как объектов в пространстве признаков, так и признаков в пространстве объектов. Кроме представления исходных данных в виде матрицы объект-признак, имеются и другие возможности представления. Например, с помощью коэффициента корреляции между признаками, который вычисляется по формуле

где ─ среднее значение произведения величин признаков x i , x k ; , ─ среднее значение признака x i , (x k); s i (s k) ─ среднеквадратичное отклонение соответствующих признаков, можно представить исходные данные в виде матрицы признак-признак.

Эта матрица R в отличие от предыдущей имеет размерность . В каждой ячейке матрицы расположены значения коэффициента корреляции между соответствующими признаками; на диагонали матрицы стоят единицы, так как корреляция признака с самим собой максимальна и равна единице. Матрица симметрична относительно своей диагонали.

Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается n признаками, то он может быть представлен как точка в n -мерном пространстве, и его сходство с другими объектами будет определяться как соответствующее расстояние. Указанное обстоятельство позволяет перейти к еще одному виду представления исходных данных, а именно, к матрице D объект-объект , представляющей собой таблицу расстояний между анализируемыми объектами. В этом случае в каждой ячейке матрицы находится величина расстояния, допустим, евклидова, рассчитываемого по формуле:

.

Здесь x ij , x kj ─ значения j -го признака, соответственно, у i -го и k -го объектов.

На диагонали матрицы находятся нули, поскольку расстояние от точки до нее самой равно нулю. Элементы матрицы симметричны относительно диагонали.

Таким образом, исходные данные могут быть представлены в виде матриц трех типов:

· матрицы объект-признак;

· матрицы признак-признак;

· матрицы объект-объект.

1.2 Визуализация многомерных данных

Любое исследование многомерных данных невозможно без использования метода главных компонентов (ГК). Сущность этого метода заключается в снижении размерности данных путем определения незначительного числа линейных комбинаций исходных признаков, которые объясняют большую часть изменчивости данных в целом. Метод ГК связан с переходом к новой системе координат, которая является системой ортонормированных линейных комбинаций. Этот метод дает возможность по n исходным признакам объектов построить такое же количество ГК, являющихся обобщенными (агрегированными) признаками. На первый взгляд, такой переход не дает никакого преимущества в представлении данных, но существует возможность сохранения информации о рассматриваемых данных даже в том случае, если сократить количество вычисленных ГК. Кроме того, при сохранении двух или трех ГК реализуется возможность визуализации многомерных объектов в сокращенном признаковом пространстве. Метод ГК обладает рядом свойств, делающим его эффективным для визуализации структуры многомерных данных. Все они касаются наименьшего искажения геометрической структуры точек (объектов) при их проектировании в пространстве меньшей размерности.

Математическая модель ГК базируется на допущении, что значения множества взаимосвязанных признаков порождают некоторый общий результат. В этой связи при представлении исходных данных как раз и важна матрица признак-признак, в которой содержится вся информация о попарной связи между признаками.

Первым ГК набора первичных признаков Х=(х 1 ,х 2 ,…,х n) называется такая линейная комбинация этих признаков, которая среди прочих линейных комбинаций обладает наибольшей дисперсией. Геометрически это означает, что первый ГК ориентирован вдоль направления наибольшей вытянутости гиперэллипсоида рассеивания исследуемой совокупности данных. Второй ГК имеет наибольшую дисперсию рассеивания среди всех линейных преобразований, некоррелированных с первым ГК, и представляет собой проекцию на направление наибольшей вытянутости наблюдений в гиперплоскости, перпендикулярной первому ГК. Вообще, j–м ГК системы исходных признаков Х=(х 1 ,х 2 ,…,х n) называется такая линейная комбинация этих признаков, которая некоррелирована с (j-1) предыдущими ГК и среди всех прочих некоррелированных с предыдущими (j-1) ГК обладает наибольшей дисперсией. Отсюда следует, что ГК занумерованы в порядке убывания их дисперсий, т.е. , а это дает основу для принятия решения о том, сколько последних ГК можно без ущерба изъять из рассмотрения.

Решение задачи методом ГК сводится к поэтапному преобразованию матрицы исходных данных. Основные шаги метода показаны на схеме, приведенной на рис.1.

Рис. 1. Вычислительная схема метода главных компонентов

Прокомментируем этапы вычислений. В качестве исходных данных обычно выбирается матрица объект-признак Х . Поскольку характеристиками объектов могут служить признаки различной природы, то данные необходимо стандартизировать, т. е. провести центрирование (вычитание среднего значения) и нормирование (деление на среднеквадратичное значение) данных.

На следующем шаге вычисляется матрица корреляций R между признаками, т. е. осуществляется переход к матрице признак-признак. Диагональные элементы этой матрицы равны единице, а сама матрица симметрична относительно этой диагонали, так как r ij =r ji .

Далее определяется матрица собственных векторов В , которая, также, как и предыдущая, является квадратной и состоит из n строк и n столбцов. Компоненты каждого собственного вектора представлены в виде вектора-столбца, сумма квадратов составляющих которого вследствие ортогональности равна единице.

На следующем этапе проводится расчет матрицы собственных чисел Λ , которая в отличие от предыдущих матриц является диагональной, т. е. здесь только на диагонали матрицы находятся собственные числа: все прочие элементы матрицы равны нулю. Размерность этой матрицы, как и двух предыдущих, составляет . Каждое значение λ j определяет дисперсию каждого ГК. Суммарное значение равняется сумме дисперсий исходных признаков. При условии стандартизации исходных данных

На последнем шаге вычисляются ГК:

· с помощью матрицы Λ находятся два или три наибольших собственных числа (такой выбор обусловлен желанием визуализировать многомерные объекты в двумерной плоскости или трехмерном пространстве);

· по матрице В определяются собственные вектора (СВ), которые соответствуют выбранным собственным числам;

· найденные таким образом собственные вектора умножаются последовательно на строки исходной матрицы, формируя значения ГК для каждого объекта.

Например, при выборе только первых двух наибольших собственных чисел определяем соответствующие им составляющие СВ (два столбца матрицы В ), которые перемножаем на строки матрицы Х.

Перемножение первого столбца матрицы В на первую строку матрицы Х даст значение первого ГК для первого объекта, умножение того же столбца на вторую строку определяет значение первого ГК для второго объекта, т.е.

Y 1 = b 11 x 11 +b 21 x 12 + . . . + b n1 x 1n ,

где b 11 ,b 21 ,…, b n 1 - компоненты первого СВ; x 11 ,x 12 ,…, x 1 n - первая строка матрицы данных объект-признак.

После выполнения таких же операций со вторым выбранным вектором, рассчитанным по формуле

Y 2 = b 12 x 21 +b 22 x 22 + . . . + b n 2 x 2 n ,

получаем возможность построить все объекты в плоскости первых двух ГК, где их взаимное расположение позволяет сделать предварительные выводы о сходстве (различии) объектов.

2 Работа на компьютере

Выполнение данной работы производится с программным пакетом Statistica; версия 6.1.

2.1 Представление многомерных данных

1. Из папки Examples - Datasets открываем файл данных, озаглавленный Activities , в котором приведены различные характеристики образа жизни для 28 групп людей. В качестве активных переменных использовано семь видов социальной активности: work (работа), transport (транспорт), children (дети), household (домашний быт), shopping (покупки), personal care (личное время), meal (еда). Показателем является общее время, затраченное на данный вид деятельности представителями группы в часах. В качестве вспомогательных признаков выбраны: sleep (сон), TV (телевизор), leisure (досуг). В файл данных введена дополнительная переменная gender (пол), принимающая значения male (мужчины) и female (женщины). Для присвоения меток точкам на графиках добавлен группирующий признак geo. region (регион). Часть таблицы исходных данных приведена на рис.2.

Рис.2. Матрица объект-признак

2. Перейти к матрице признак – признак посредством следующих действий: в командной строке окна выбрать опцию Анализ , в которой указать позицию Основные статистики и таблицы . В открывшемся окне отметить Парные и частные корреляции и нажать OK. Далее выбрать первые семь переменных из первого списка. В итоге должна получиться матрица корреляций между признаками размерностью 7х7, вид которой показан на рис.3.

Рис.3. Матрица признак - признак

При обработке данных в этом случае строки с пропущенными данными исключаются из рассмотрения, поэтому из исходных 28 строк остается 23.

3. Перейти к матрице объект-объект следующими операциями: в командной строке окна выбрать опцию Анализ , в которой указать позицию и далее - Кластерный анализ - Иерархическая кластеризация , после чего нажать ОК. В открывшемся окне кластерного анализа на вкладке Дополнительно, в опции Объекты выбрать Наблюдения (строки) (рис.4), нажать ОК, далее отметить в окне те же 7 переменных и нажать ОК.

Рис.4. Окно кластерного анализа

В открывшемся окне выбрать Матрицу расстояний , которая и представляет собой матрицу «объект-объект», размерностью 23х23. Часть этой таблицы приведена на рис.5.

Рис.5. Матрица объект-объект

Пользуясь такой матрицей, можно построить дендрограмму объединения объектов, сходных или различных по семи признакам. Для этого в окне Результаты иерархической кластеризации нажать клавишу Вертикальная дендрограмма , в результате чего приходим к графику, показанному на рис.6.

Полученная дендрограмма указывает порядок и уровень объединения объектов, сходных между собой, а также сформировавшиеся кластеры (группы) сходных объектов. В данном примере образовано 4 кластера.

Рис.6. Дендрограмма объектов

2.2 Метод главных компонентов

1. Из папки Examples - Datasets открываем тот же самый файл данных Activities .

2. В командной строке окна выбрать опцию Анализ , в которой указать позицию Многомерный разведочный анализ и далее - Анализ главных компонент и классификация . В стартовой панели модуля на вкладке Дополнительно нажать кнопку Переменные . В открывшемся окне Выберите переменные… в поле Переменные анализа выделить первые 7 переменных; в поле Вспомогательные - переменные sleep - leisure; в поле С основными наблюдениями - gender ; в поле Группирующая - geo. region. После этих процедур окно Выберите переменные … принимает вид, показанный на рис. 7.

Рис.7. Окно выбора переменных

После нажатия ОК стартовая панель имеет вид, показанный на рис.8.

Рис.8. Стартовая панель после выбора переменных

Кроме того, на стартовой панели в поле Код для основных наблюдений указать значение переменной female. Здесь же в рамке Анализ основан на … выбрать опцию корреляцияхs , так как средние значения и дисперсии каждой переменной могут значительно различаться между собой. В рамке Удаление пропущенных данных указать опцию Замена средним , а в рамке Оценка дисперсии - опцию SS/ N-1 , поскольку данных не очень много, и выбор другой опции может привести к смещенным оценкам дисперсии. После выбора этих опций нажать ОК.

3. В появившемся окне результатов анализа в информационной части указано количество основных и вспомогательных переменных и наблюдений (рис. 9).

Рис.9. Окно результатов анализа

После нажатия кнопки График каменистой осыпи на вкладке Переменные программа построит график изменения собственных чисел (СЧ) корреляционной матрицы, показанный на рис.10.

Рис.10. График изменения собственных чисел

Сами СЧ можно увидеть после нажатия кнопки Собственные значения в появившейся таблице (рис.11).

Рис.11. Собственные числа

Анализ графика и таблицы позволяет выбрать число выделяемых ГК. Например, по графику можно определить СЧ, начиная с которого график теряет свою кривизну, и убывание СЧ максимально замедляется. Из графика видно, что такими СЧ являются 2 или 3, поэтому число выделяемых ГК может быть равно 2 или 3. Выбрав число, равное 2, введем его в поле Число факторов (рис.8), после чего Качество представления изменит свое значение со 100% на 81% (рис.12).

Рис.12. Качество представления при двух факторах

Тот же самый вывод следует из таблицы рис.10, где в последнем столбце приведены значения накопленной суммы СЧ: видно, что при двух оставляемых в анализе СЧ эта сумма составляет примерно 81%. Следовательно, потеря информативности при переходе от 7 СЧ к 2 СЧ составляет около 19%, но зато появляется возможность визуализации многомерных исходных данных.

4. Нажать кнопку Факторные координаты для получения таблицы координат исходных переменных в пространстве новых выделенных факторов (ГК) (рис.13).

Рис.13. Координаты исходных переменных в пространстве главных компонентов (факторов)

Эта таблица дает возможность интерпретации ГК в терминах корреляции: большее абсолютное значение координат (факторной нагрузки) исходного признака с каким-либо ГК (фактором) говорит о том, что переменная сильнее связана с этим фактором. Другими словами, чем больше величина координаты признака, тем лучше переменные показывают структуру, представленную этим фактором.

Рис.14. Переменные (признаки) в плоскости первых двух факторов (главных компонентов)

Как видно из рис.14, все переменные изображены в виде точек на единичном круге, так как корреляции (координаты точек) наблюдений с факторными осями принимают значения (по модулю) из интервала .

Горизонтальная ось соответствует фактору 1, вертикальная - фактору 2. Координаты точек - в таблице рис.12. Кроме того, этот рисунок дает возможность оценить корреляцию между признаками: чем меньше угол между радиус-векторами определенных признаков, тем сильнее корреляция между ними. Например, переменные work и transport находятся достаточно близко между собой, что свидетельствует об их сильной корреляции. Этот же вывод следует и из матрицы признак-признак.

5. На вкладке Наблюдения нажать кнопку 2М графики факторных наблюдений. Появится график (рис.15), на котором изображены все наблюдения (строки), использованные при расчете. При этом основные наблюдения (female) указаны кружочками синего цвета, а вспомогательные (male ) отмаркированы квадратиками красного цвета. Из графика видно, что основные и вспомогательные наблюдения сгруппированы в разных областях плоскости, т.е. они объединены в разные кластеры.

Рис.15. Наблюдения (строки) в плоскости первых двух факторов (главных компонентов)

3. Задание

В пакет Statistica ввести данные по результатам сессии 9 студенческих групп, сдавших по 4 экзамена (табл.). Ввод данных осуществляется через Файл -Создать , где в появившемся окне указать число переменных, равное 4, а число строк - 9. В таблице приведены средние баллы экзаменов по каждой дисциплине (ОИ - отечественная история; ЭТ – экономическая теория; МА – математический анализ; ЛА – линейная алгебра) для каждой из 9 групп.

Таблица Средние баллы каждой группы по 4 дисциплинам

Номер группы Отечественная история Экономическая теория Математический анализ Линейная алгебра
4,59 4,77 4,82 4,59
4,68 4,73 4,27 4,38
4,52 4,29 3,95 3,95
4,64 4,5 4,45 4,41
4,32 4,09 4,14 4,23
4,36 4,27 4,05 4,23
4,05 4,05 3,62 4,0
3,9 3,95 3,63 3,86
3,76 3,33 3,48

Вычислить:

1. Корреляцию между дисциплинами (построить матрицу признак-признак).

2. Расстояние между группами (построить матрицу группа-группа).

3. Собственные числа и главные компоненты (ГК).

4. Качество представления при двух ГК.

Построить графики:

1. Дендрограмму студенческих групп.

2. Дисциплины в плоскости ГК.

3. Группы в плоскости ГК.

4. Дисциплины в плоскости ГК.

Вопросы к защите работы

1. Как рассчитываются матрицы «объект-объект», «признак-признак»?

2. Что определяет собой дендрограмма?

3. Какая из матриц представления данных используется при кластерном анализе?

4. Как вычисляются ГК?

5. Какова размерность ГК?

6. Как выбирается число ГК?

7. Можно ли оценить потери информации при переходе к ГК?

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-11-19

Этапы кластерного анализа (1-2)

Рассмотрим этапы кластерного анализа с позиций математического содержания и методики.

этап. Представление исходных данных в виде матрицы

На первоначальном этапе исходные данные представляются в виде матрицы. Очевидно, что матрица может иметь как прямоугольную, так и квадратную форму.

Прямоугольная матрица исходных данных в многомерном статистическом анализе чаще упоминается как матрица "объект – свойство" и является наиболее распространенной формой представления исходных данных.

В табл. 10.2 наглядно изображена в общем виде прямоугольная матрица исходных данных с п элементами – объектами исследования. В этом качестве могут выступать предприятия машиностроения, коммерческие банки, студенты университета, которые описываются посредством k признаков.

В матрице значение Ху соответствует г-му объекту, который характеризуется j- м показателем, где г = 1,2,..., n,j= 1,2,..., к.

Таблица 10.2

Прямоугольная матрица исходных данных

(элемент)

Переменная

п

В случае если мы производим попарные сравнения объектов по некоторому свойству, матрица исходных данных представляет собой квадратную матрицу. Например, расстояние между городами России, результаты футбольного матча между командами и т.п. В табл. 10.3 представлена квадратная матрица исходных данных, у которой число строк и столбцов одинаково.

Таблица 10.3

Квадратная матрица исходных данных

Объекты (элементы)

п

(элементы)

п

В многомерном статистическом анализе такая матрица называется "матрицей парных сравнений". Представим содержание таблицы в виде матрицы

(10.1)

где i=l,2,..., п; т = 1,2,..., п; Ху – результат сравнения г-го объекта с т -м объектом.

На результаты вычислений при кластерном анализе оказывает влияние то, какие используются единицы измерения и какую величину (масштаб) имеют переменные. Устранить зависимость переменных от единиц измерения и масштаба позволяет процедура стандартизации исходных данных. Таким образом, переменные приобретают одинаковый вес при кластеризации.

В ходе стандартизации осуществляется переход от матрицы исходных данных xj к матрице стандартизированных значений z,y. Чаще всего используется формула перехода:

где Xj – среднее значение у-го признака; σ, – среднее квадратическое отклонение у-го признака.

Среднее значение у-го признака рассчитывается по следующей формуле:

где п – число элементов (объектов).

Среднее квадратическое отклонение у-го признака рассчитывается как:

При процедуре стандартизации все числовые пропорции сохраняются, но все переменные не имеют единиц измерения. Это позволяет проводить с ними вычислительные операции, как для переменных, имеющих одинаковые единицы измерения.

В том случае, если исходные переменные имеют одинаковые единицы измерения, проводить стандартизацию нет необходимости.

этап. Определение сходства объектов

Определение сходства объектов связано с понятием однородности объектов. Определение критерия однородности объектов является наиболее трудным этапом кластерного анализа и в связи с этим наименее формализованным в задаче автоматической классификации. Однородность объектов определяется мерой степени близости (сходства) объектов или различия между объектами.

В качестве меры различия чаще используется расстояние между объектами, обозначаемое как du (от слова "distance"), обеспечивающее более простой алгоритм действий. К тому же этот алго

ритм хорошо реализован в компьютерных программах, таких как Statistica, SPSS и др.

В зависимости от исходных данных может быть использован тот или иной вид расстояний. Важно отметить, что критерием выбора вида расстояния является правильная (точнее сказать адекватная) интерпретация профиля (особенностей) кластеров.




Top