Технология визуализации учебной информации. Статистика и отчеты. Данные везде, данные повсюду

Создание визуального контента - это порой дорого, трудно и отнимает много времени. Резонный вопрос: стоит ли этим заниматься?

Данные везде, данные повсюду.

Как говорит Дэвид Маккэндлесс, дизайнер, писатель и журналист в области инфографики, а также автор известной книги «Инфографика. Самые интересные данные в графическом представлении», сегодня человечество живет в информационных джунглях.

Каждую минуту в нашей жизни появляется немыслимое количество новой информации. Мы даже не замечаем этого. Одни лишь твиты, лайки и загрузки фотографий на социальные платформы исчисляются цифрами с 5-6 нулями. Не говоря уже о бесконечном количестве статей, видео-роликов, финансовых операций, аналитических отчетов и многих других вещей, которые сразу могут не прийти в голову, но, безусловно, существует в нашей жизни.

Если верить исследованиям компании Domosphere, предоставляющей программные решения для обработки, систематизации и визуализации бизнес-информации, то с 2013 года количество интернет-пользователей во всем мире выросло с 2,4 млрд. человек до 3,2 млрд человек.

Такой стремительный рост дает огромный толчок развитию высоких технологий и в результате буквально каждый год мы видим, как на рынок выходят все новые системы и гаджеты.

Например, компания, разработавшая мобильное приложение Vine для создания коротких (менее 6 секунд длительностью) видео-роликов, была основана буквально 3 года назад, в июне 2012 года. Twitter выкупила стартап в октябре и открыла для широкой публики в январе 2013. Сегодня каждую секунду в мире просматривается более 1 млн. вайн-роликов, а популярные вайнеры зарабатывают десятки сотен долларов на ведении аккаунтов компаний или на размещении срытой рекламы в своих видео.

Если говорить о других популярных социальных платформах, блогах и приложениях, то с 2013 года

  • количество твитов, отправляемых пользователями за в минуту, увеличилось со 100 до 347 тыс,
  • количество часов видео, загружаемого на YouTube – c 72 до 300 часов,
  • число скачиваний приложений Apple – c 48 до 51 тыс,
  • а количество пинов на Pinterest – c 3,5 до 9,7 тыс.

Как результат, общая картина роста информации в интернете за 1 минуту времени сегодня выглядит приблизительно следующим образом.

Инфографика: рост количества информации в интернете за минуту в 2015 году.

Добро пожаловать в 2015 год!

По прогнозам Комиссии по широкополосному соединению и развитию цифровых технологий число интернет-пользователей к 2020 году увеличится в 2 раза. Соответственно также возрастут объемы информации, которые уже сейчас измеряются в огромными числами.

Петабайт

Если верить Векипедии, то сегодня:

– Google ежедневно обрабатывает около 24 петабайт данных.

– Через сети американского провайдера AT&T еженедельно проходит 19 петабайт трафика.

– Размер результатов экспериментов, проводимых на большом адронном коллайдере за год, достигает 4 петабайта .

Для сравнения:

Все письменное наследие человечества на всех языках мира с момента зарождения письменности составляет всего около 50 петабайт информации. (Из книги «Игфографика. Визуальное представление данных» Рэнди Крам)

Конечно, доступ к таким большим объемам данных открывает перед человечеством безграничные возможности. Позволяет более детально изучать окружающий мир, ломает стереотипы и помогает прогнозировать будущее. Тем не менее, если использовать только традиционные способы работы с информацией, то человек физически не способен справится с объемами и вынужден искать варианты решения проблемы.

Сила визуализации

Как наш мозг воспринимает информацию

Данные, которые выглядят, как абсолютная тарабарщина в обычном виде, становятся понятными и логичными, стоит их преобразовать в графики, диаграммы или видео. Если у нас получается грамотно представить информацию визуально, то мы получаем возможность лучше понимать окружающих людей. Тем не менее, очень многие беспокоятся о том, что визуальное представление значительно упрощает информацию и мы теряем много важный данных в процессе преобразования цифр и текста в графику. Так ли это на самом деле?

Теряем ли мы данные, когда преобразуем цифры и текст в графику?

В 2011 году учеными Эмре Сойер и Рибином Хогартом было проведено исследование среди экономистов. Испытуемых разделили на три группы в зависимости от формы представления информации, которую им предстояло изучить, и попросили ответить на 3 вопроса. В итоге были получены следующие результаты:

1 группа: получила данные в виде классической статистической отчетности - 72% человек дали неверный ответ;

2 группа: получила данные в виде классической статистической отчетности и в виде графика - 61% дали неверный ответ;

3 группа: получила данные только в виде графической информации - ошиблись только 3%.

Вывод очевиден: визуализация данных в некоторых случаях позволяет намного лучше воспринимать информацию, чем цифры и текст!

Посмотрите выступление Дэвида Маккэндлесса на TED Talks. Насколько очевидными становятся многие вещи, когда мы получаем возможность оценить их визуально.

Дэвид Маккэндлесс на TED Talks.

Визуализация информации и развитие технологий.

Безусловно, рост спроса на визуализацию данных стимулирует развитие технологий. Хотя обратное тоже верно и новые технологии повышают требования к качеству графики. В любом случае, сегодня составить презентацию на основе графиков и диаграмм, сделать инфографику или снять видео-ролик, не является большой проблемой. Огромное количество графических онлайн и оффлайн программ можно легко найти, изучить и реализовать с их помощью свои самые фантастические идеи.

Можно установить Photoshop или Illustrator и создать визуализацию с нуля. Можно воспользоваться более специализированными графическими приложениями, такими как Piktochart, Easel.ly или Visual.ly и разрабатывать графику на основе шаблонов. Даже не буду пытаться перечислить то бесконечное количество фотостоков, стоков с 3D- и видео-графикой, которые сегодня существует на бескрайних просторах интернета. За небольшую плату их ресурсы смогут стать достойным украшением любой вашей инфографики или видео-презентации

Picktochart

Визуализация и социальные платформы.

Взгляните еще раз на инфографику о росте скорости информации и посчитайте, какое примерное количество ресурсов, перечисленных в ней, являются графическими платформами. Instagram, Pinterest, YouTube, Vine, Netflix, Snapchart – все они были разработаны специально для публикации визуального контента. Частично к этой группе можно также отнести Twitter, Facebook и другие популярные социальные сети, так как их интерфейс не предполагает публикацию длинных текстовых зарисовок. Зато на них очень хорошо смотрятся видео-материалы, фотографии и любая другая графика. Стоит ли упоминать, что среди всех перечисленных ресурсов, вы не найдете ни одного, где бы графический контент вообще не использовался.

Все интернет-исследования из года в год повторяют одно и тоже: визуальные материалы способствуют популяризации аккаунтов, групп и блогов. Использование графического контента в Twitter увеличивает число репостов на 35%, в Facebook – на 87%. Популярность блогов с графикой возрастает на 47%.

Статистика по Twitter

Статистика по Facebook

Сравните два варианта передачи информации, по смыслу абсолютно равнозначные. Какой из них больше привлечет ваше внимание?

Графика vs. Текст

Как визуализация влияет на уровень доверия читателей?

Научно доказано, что визуальный контент способствует росту доверия к текстовым материалам.

Некоторой группе интернет-пользователей было предложено подтвердить или опровергнуть ряд высказываний. Один из примеров: «Орехи макадамия и персики принадлежат к одному и тому же семейству.» В 50 случаях из 100 утверждения, сопровождающиеся картинками, были оценены, как правдивые вне зависимости от того, являются они таковыми или нет.

Орехи макадамия

Другими словами, участники в большей степени доверяли именно тем высказываниям, которые сопровождались фотографиями.

Заключение

В заключении хочется отметить, что любая визуализация данных - инфографика, видео-ролики или просто обычные фотографии - приносит пользу, тогда и только тогда, когда она интересно придумана, талантливо реализована и вовремя и к месту опубликована. Волшебство происходит, только если хорошая идея сочетается с грамотным дизайном и поддерживается умелым маркетингом. В противном случае все вышеперечисленные плюсы мгновенно самоликвидируются и вы принесете проекту больше вреда, чем пользы.

Данная статья написана представителем компании DevExpress и опубликована в блоге на ХабраХабре.

Медицинские исследователи установили, что если в инструкции к лекарству находится только текст, человек усваивает из нее лишь 70% информации. Если же в инструкцию добавить картинки, человек усвоит уже 95%.

Очевидно, что человек предрасположен обрабатывать именно визуальную информацию. Помимо прекрасной обработки нашим мозгом, визуализация данных имеет несколько преимуществ:

  • Акцентирование внимания на разных аспектах данных


С помощью графиков можно легко обратить внимание читателя на красные показатели.

  • Анализ большого набора данных со сложной структурой
  • Уменьшение информационной перегрузки человека и удерживание его внимания
  • Однозначность и ясность выводимых данных
  • Выделение взаимосвязей и отношений, содержащихся в информации


На графике легко можно заметить важные данные.

Эстетическая привлекательность


Эстетически привлекательные графики делают подачу данных эффектной и запоминающейся.

Эдвард Тафти, автор одних из лучших книг по визуализации, описывает ее как инструмент для показа данных; побуждения зрителя задуматься о сути, а не методологии; избежания искажения того, что должны сказать данные; отображения многих чисел на небольшом пространстве; показа большого набора данных связным и единым целым; побуждения зрителя сравнивать фрагменты данных; служения достаточно четким целям: описанию, исследованию, упорядочиванию или украшению ().

Как правильно использовать визуализацию данных?

Успех визуализации напрямую зависит от правильности ее применения, а именно от выбора типа графика, его верного использования и оформления.


60% успеха визуализации зависит от выбора типа графика, 30% - от его правильного использования и 10% - от его верного оформления.

Правильный тип графика

График позволяет выразить идею, которую несут данные, наиболее полно и точно, поэтому очень важно выбрать подходящий тип диаграммы. Выбор можно осуществить по алгоритму:

Цели визуализации - это реализация основной идеи информации, это то, ради чего нужно показать выбранные данные, какого эффекта нужно добиться - выявления отношений в информации, показа распределения данных, композиции или сравнения данных.


В первом ряду показаны графики с целями показа отношений на данных и распределения данных, а во втором ряду целями являются показ композиции и сравнения данных.

Отношения в данных - это то, как они зависят друг от друга, связь между ними. С помощью отношений можно выявить наличие или отсутствие зависимостей между переменными. Если основная идея информации содержит фразы «относится к», «снижается/повышается при», то нужно стремиться показать именно отношения в данных.
Распределение данных - то, как они располагаются относительно чего-либо, сколько объектов попадает в определенные последовательные области числовых значений. Основная идея при этом будет содержать фразы «в диапазоне от x до y», «концентрация», «частотность», «распределение».

Композиция данных - объединение данных с целью анализа общей картины в целом, сравнения компонентов, составляющих процент от некоего целого. Ключевыми фразами для композиции являются «составило x%», «доля», «процент от целого».

Сравнение данных - объединение данных, с целью сравнения некоторых показателей, выявление того, как объекты соотносятся друг с другом. Также это сравнение компонентов, изменяющихся с течением времени. Ключевые фразы для идеи при сравнении - «больше/меньше чем», «равно», «изменяется», «повышается/понижается».

После определения цели визуализации требуется определить тип данных. Они могут по своему типу и структуре быть очень разнородными, но в самом простом случае выделяют непрерывные числовые и временные данные, дискретные данные, географические и логические данные. Непрерывные числовые данные содержат в себе информацию зависимости одной числовой величины от другой, например графики функций, такой как y=2x. Непрерывные временные содержат в себе данные о событиях, происходящих на каком-либо промежутке времени, как график температуры, измеряемой каждый день. Дискретные данные могут содержать в себе зависимости категорийных величин, например график количества продаж товаров в разных магазинах. Географические данные содержат в себе различную информацию, связанную с местоположением, геологией и другими географическими показателями, яркий пример - это обычная географическая карта. Логические данные показывают логическое расположение компонентов относительно друг друга, например генеалогическое древо семьи.


Графики непрерывных числовых и временных данных, дискретных данных, географических и логических данных.

В зависимости от цели и данных можно выбрать наиболее подходящий им график. Лучше всего избегать разнообразия ради разнообразия и выбирать по принципу «чем проще, тем лучше». Только для специфичных данных использовать специфичные типы диаграмм, в остальных же случаях хорошо подойдут самые распространенные графики:

  • линейный (line)
  • с областями (area)
  • колонки и гистограммы (bar)
  • круговая диаграмма (pie, doughnut)
  • полярный график (radar)
  • точечный график (scatter, bubble)
  • карты (map)
  • деревья (tree, mental map, tree map)
  • временные диаграммы (time line, gantt, waterfall).

Линейные диаграммы, графики с областями и гистограммы могут содержать в одном аргументе для одной категории несколько значений, которые могут быть как абсолютными (тогда к таким видам графикам прибавляется приставка stacked), так и относительными (full stacked).


График со stacked значениями и с full stacked

При выборе подходящего графика можно руководствоваться следующей таблицей, составленной на основе этой диаграммы и :


Правильное использование графика

Важно не только верно выбрать тип графика, но и правильно его использовать:

  • Не нужно нагружать график большим количеством информации. Оптимальное количество разных типов данных, категорий - это не более 4-5, иначе же целесообразнее разделить такую диаграмму на несколько штук.


Такой график можно сравнить со спагетти и лучше разделить на несколько диаграмм.

Верно выбрать шкалу и ее масштаб для графика. Для гистограмм и графиков с областями предпочтительнее начинать шкалу значений с нуля. Постараться не использовать инвертированные шкалы - это очень часто вводит зрителя в заблуждение относительно данных.


Неверная шкала отрицательно влияет на восприятие данных. В первом случае некорректно выбран масштаб, во втором шкала инвертирована.

  • Для круговых диаграмм и графиков, где показан процент от общей доли, сумма значений всегда должна составлять 100%.
  • Для лучшего восприятия данных информацию на оси лучше упорядочить - либо по значениям, либо по алфавиту, либо по логическому смыслу.

Правильное оформление графика

Ничто так не радует глаз, как правильно оформленные графики, и ничто так не портит диаграммы, как наличие графического «мусора». Основные принципы оформления:

  • использовать палитры похожих, не ярких цветов, и постараться ограничиться набором из шести штук
  • вспомогательные и второстепенные линии должны быть простыми и не бросающимися в глаза


Вспомогательные линии на графике не должны отвлекать внимание от основной идеи данных.

  • там, где возможно, использовать только горизонтальные надписи на осях;
  • для графиков с областями предпочтительнее использовать цвет с прозрачностью;
  • для каждой категории на графике использовать свой цвет.

Выводы

Визуализация - мощный инструмент донесения мыслей и идей до конечного потребителя, помощник для восприятия и анализа данных. Но как и все инструменты, ее нужно применять в свое время и в своем месте. В противном случае информация может восприниматься медленно, а то и некорректно.


На графиках изображены одни и те же данные, слева показаны основные ошибки визуализации, а справа они исправлены.

При умелом применении визуализация данных позволяет сделать материал впечатляющим, нескучным и запоминающимся.

Визуализация информации

По сложившейся уже традиции, начнем с определœения.

Визуализация информации – представление информации в виде графиков, диаграмм, структурных схем, таблиц, карт и т.д.

ecsocman.edu.ru

Зачем визуализировать информацию? "Глупый вопрос!" – воскликнет читатель. Конечно же, текст с картинками воспринимается лучше, чем "серый" текст, а картинки с текстом воспринимаются еще лучше. Недаром всœе мы так любим комиксы – ведь они позволяют нам буквально схватывать информацию на лету, казалось бы, не прикладывая ни малейших умственных усилий! А вспомните, насколько хорошо запоминался вам во время учебы материал тех лекций, которые сопровождались слайдами!

Первое, что приходит нам в голову при слове "визуализация", - ϶ᴛᴏ графики и диаграммы (вот она, сила ассоциаций!). С другой стороны, визуализировать таким образом можно только числовые данные, никому еще не удавалось построить график на базе связного текста. Для текста мы можем построить план, выделить основные мысли (тезисы) – сделать краткий конспект. О недостатках и вреде конспектирования мы поговорим чуть позже, а сейчас скажем о том, что если объединить план и краткий конспект – "развесить" тезисы по ветвям дерева, структура которого соответствует структуре (плану) текста͵ – то мы получим отличную структурную схему текста͵ которая запомнится намного лучше, чем любой конспект. В этом случае ветви будут играть роль тех "треков" – дорожек, связывающих понятия и тезисы, о которых мы говорили ранее.

Помните, как мы строили UML-диаграммы на базе описания проектируемой программной системы, полученного от ее будущих пользователœей? Полученные картинки воспринимались и клиентами, и разработчиками намного проще и быстрее, чем текстовое описание. Точно так же можно "изобразить" абсолютно любой текст, не только техническое задание на разработку системы. Подход, описанный нами выше, позволяет визуально представить абсолютно любой текст – будь это сказка, техническое задание, лекция, фантастический роман или результаты совещания – в виде удобного и простого для восприятия дерева. Строить его можно как угодно – лишь бы получилась наглядная и понятная схема, которую хорошо бы еще проиллюстрировать подходящими по смыслу рисунками.

Такие схемы удобно применять и в общении при обсуждении каких-либо вопросов и проблем. Как показывает практика, отсутствие четких стандартов нотации не создает абсолютно никаких коммуникативных сложностей для участников обсуждений. Наоборот, использование невербальных форм представления информации позволяет концентрировать внимание именно на ключевых точках проблемы. Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, визуализация является одним из наиболее перспективных направлений повышения эффективности анализа, представления, восприятия и понимания информации.

Ух, наконец-то мы покончили с нудным описанием научных теорий, методов и приемов, применяющихся для обработки, систематизации и визуализации информации! Предыдущая часть главы сильно утомила и автора, и читателœей, и тем не менее, она была необходима: в результате мы увидели, что особенности работы нашего мозга уже активно применяются учеными в самых разных областях науки, многие вещи, которые кажутся нам привычными, – персональные компьютеры, пользовательские интерфейсы, базы знаний и т.д. – изначально строились с учетом ассоциативного характера человеческого мышления и его склонности к иерархическому представлению и визуализации информации. Но вершиной и естественным графическим выражением мыслительных процессов человека является mind mapping, к обсуждению которого мы наконец-то переходим. А заодно попытаемся расширить наше понимание принципов визуального мышления.

Визуализация информации - понятие и виды. Классификация и особенности категории "Визуализация информации" 2017, 2018.

Которая занимается проектированием пользовательских интерфейсов. В общих чертах Юрий рассказывает о набирающих в последнее время популярность дизайнерских методиках — визуализации и инфографике, о сферах их применения и классификации, процессе создания, инструментах и примерах из практики.

Тема визуализации информации и инфографики регулярно всплывает при работе, да и в целом интересна как практика проектирования и дизайна. Хотя мы в компании работаем над веб-системами, где большинство задач решается стандартными средствами конструирования вроде форм или информационных блоков, иногда требуется емко и компактно подать большое количество информации. Часто это достаточно специфичные задачи, на продумывание интерфейса которых уходит немало времени. Правда, и задачи эти — одни из самых интересных.

У практики отображения информации в графическом виде много синонимов, но в последнее время чаще всего используются два: визуализация данных и инфографика. Существуют эти подходы уже достаточно давно , литературы по этому поводу написано много (среди наиболее известных авторов и дизайнеров: Edward Tufte, Stephen Few, Ben Fry), но в первую очередь интересно, где и как используется инфографика.

Применение

Сейчас существует множество интересных примеров визуализации, но многие из них — скорее объекты искусства, чем практически полезные носители информации. И для тех, и для других можно выделить следующие области использования:

Статистика и отчеты

Самодостаточный жанр, когда данные за некий период времени показываются вместе. Например, статической картинкой в приложении к отчету или настраиваемым графиком в сервисе статистики, с возможностью изменения параметров его отображения.

Справочная информация

Дополнение к основному тексту, наглядно иллюстрирующее его упоминаемыми данными. Скажем, дать общее представление о динамике одного из показателей, либо отобразить какой-то процесс и его этапы; может быть — показать структуру некого явления.

Интерактивные сервисы

Продукты и проекты, в которых инфографика является частью функциональности. Так, в качестве средства навигации по сервисам со сложным workflow может выступать диаграмма процесса. Почти все, что связано с работой с картами и вовсе редко обходится без смешения инфографики и интерактивности, не говоря уже о специализированных системах вроде диспетчерских и большей части компьютерных игр.

Иллюстрации

Не совсем чистый жанр — скорее, использование практик и подходов красивого отображения данных для создания самостоятельных иллюстраций. Они несут некий смысл, но это не основная их задача — основной ценностью является качество исполнения.

Эксперименты и искусство

Визуализация данных без особого практического смысла, скорее в качестве экспериментов или инсталляций. Чаще всего это сложные и громоздкие изображения, которые сложно «прочитать» бегло — объем данных и взаимосвязей между ними таков, что нужно разбираться с картинкой по частям; либо просто абстрактные изображения, автоматически сгенерированные. В последнее время направление все более популярно и периодически выходит за рамки компьютерной графики — например, в виде графиков-скульптур.

(внимание! более 9 мегабайт)

Классификация

Набор инструментов визуализации достаточно обширен — от простейших линейных графиков до сложных отображений множества связей. Разбить их можно на несколько типов:

Графики

Показывают зависимость данных друг от друга. Строятся по осям X и Y, хотя могут быть и трехмерными.

Линейный график (line chart, area chart)

Наиболее распространенный случай. Объединяет линией набор точек, соответствующих значениям по осям. Например, ежедневная посещаемость сайта за месяц. Может показывать сразу несколько наборов данных — например, статистику просмотров для 3 наиболее популярных страниц.

График рассеивания (scatterplot)

Показывает распределение ограниченного набора точек, соответствующих значениям по осям. Между точек часто рисуется выравнивающая кривая — она наглядно показывает закономерности среди значений. Например, связь между стажем работы и производительностью труда среди 50 сотрудников компании (просто соединить полученные точки в виде линейного графика нельзя — и смысл искажается, и линия будет дерганой).

Диаграммы сравнения

Показывают соотношения набора данных. Во многих случаях строятся вокруг осей, хотя и необязательно.

Столбиковая диаграмма (bar chart)

Показывает один или несколько наборов данных, сравнивая их между собой. Существует два варианта отображения в случае нескольких наборов: либо в виде нескольких стоящих рядом столбиков, либо в виде одного, но поделенного внутри в соответствии с долями значений. Например, ежегодная прибыль трёх компаний за последние 5 лет или их доли рынка за это же время.

Круговая диаграмма (pie chart)

Отображает процент, занимаемый каждым значением внутри набора данных, в виде разбитого на части круга. Например, доли рынка сотовых операторов. Может отображать сразу несколько наборов данных — в этом случае диаграммы наложены друг на друга, причем каждая из них меньше предыдущей. Например, доли рынка сотовых операторов за последение 3 года.

Площадная диаграмма (bubble chart)

Смесь графика и диаграммы — по двум осям расставлен набор точек, соответствующий значениям. При этом сами точки не соединены и имеют различную величину, которая задается третьим параметром. Например, сравнение количества купленных товаров, общей стоимости покупки и величины общего бюджета покупателя.

Кольцевая диаграмма (ring chart)

Показывает процент от максимального количества, которое занимает одно из значений в наборе данных, в виде частично закрашенного кольца. Например, количество завоеванных на чемпионате медалей относительно максимального. Часто используется сразу несколько таких диаграмм, сравнивающих разные значения.

Диаграмма разброса (span chart)

Показывает минимальную и максимальную величину значений внутри набора данных в виде урезанной столбиковой диаграммы. Начало столбика лежит не на горизонтальной оси, а в точке минимального значения по вертикали. Например, разброс стоимости квадратного метра жилья в разных районах города.

Лепестковая диаграмма (radar chart)

Сравнивает величины нескольких значений, каждая из которых соответствует точке на оси. Количество осей соответствует количеству значений, а точки объединены линями. Например, сравнение рентабельности каждого из 8 направлений деятельности компании.

Облако тегов (tag cloud)

Сравнивает ключевые слова или фразы (значения), содержащиеся внутри фрагмента текста (набора данных), задавая каждому из них свой размер шрифта. Размер шрифта зависит от величины параметра. Например, 25 самых часто упоминаемых в газетах слов за декабрь 2008 года.

Тепловая диаграмма (heat map)

Сравнивает значения внутри набора данных, закрашивая их одним из цветов в заранее выбранном спектре. Основой является изображение или другая диаграмма, на которой расставлены значения. Цвет зависит от величины параметра и чаще всего накладывается в виде пятен. Например, элементы главной страницы сайта, по которым пользователи кликают чаще всего.

Деревья и структурные диаграммы

Показывают структуру набора данных и взаимосвязи между его элементами.

Дерево (tree)

Показывает иерархию набора данных, в которой элементы являются родительскими или дочерними по отношению друг к другу. Выстраивается в виде соединенных линиями узлов, как правило, сверху вниз. Узел обычно отображается кругом или прямоугольником. Например, карта сайта.

Ментальная карта (mind map)

Показывает состав и структуру явления или понятия в виде дерева, в котором каждый узел имеет один или несколько дочерних элементов. Это частный случай дерева, с той разницей, что ветви расходятся из узла, расположенного в центре изображения. Например, конспект книги по управлению проектами, который отражает ее содержание и основные понятия.

Формализованные структурные диаграммы

Показывают состав и структуру системы или ее части в виде карточек, которые описаны с разной степенью детализации и связаны друг с другом как родительские и дочерние.
Отображается в стандартизованном виде — например, с помощью UML (Unified Modeling Language) или IDEFIX (Integration Definition for Information Modeling). Например, все сущности, необходимые для работы одного из модулей программной системы.

Диаграмма Венна-Эйлера (Venn/Euler diagram)

Показывает отношения между значениями набора данных в виде накладывающихся друг на друга кругов (чаще всего трёх). Область, в которой пересекаются все круги, показывает общее между ними. Например, пересечением соблюдения сроков, бюджета и поставленных задач является успех проекта.

Плоское дерево (tree map)

Показывает иерархию набора данных, в которой элементы являются родительскими или дочерними по отношению друг к другу. Отображается в виде набора вложенных прямоугольников, каждый из которых является ветвью дерева, а находящиеся внутри него — дочерними элементами и ветвями. Прямоугольники различаются по размеру в зависимости от параметра и имеют цвет, который задается другим параметром. Например, детальная структура бюджета компании, в котором цветом показан процент изменения каждого пункта по сравнению с предыдущим годом.

"Говорят, один рисунок стоит тысячи слов, и это действительно так, но при условии, что рисунок хороший." Боумена

С возрастанием количества накапливаемых данных, даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining, становится все сложнее "переваривать" и интерпретировать полученные результаты. А, как известно, одно из положений Data Mining - поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять.

В 1987 году по инициативе ACM SIGGRAPH IEEE Computer Society Technical Committee of Computer Graphics, в связи с необходимостью использования новых методов, средств и технологий данных, были сформулированы соответствующие задачи направления визуализации.

К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д.

Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.

Традиционные методы визуализации могут находить следующее применение:

представлять пользователю информацию в наглядном виде;

компактно описывать закономерности, присущие исходному набору данных;

снижать размерность или сжимать информацию;

восстанавливать пробелы в наборе данных;

находить шумы и выбросы в наборе данных.

Визуализация инструментов Data Mining

Каждый из алгоритмов Data Mining использует определенный подход к визуализации. В предыдущих лекциях мы рассмотрели ряд методов Data Mining. В ходе использования каждого из методов, а точнее, его программной реализации, мы получали некие визуализаторы, при помощи которых нам удавалось интерпретировать результаты, полученные в результате работы соответствующих методов и алгоритмов.

Для деревьев решений это визуализатор дерева решений, список правил, таблица сопряженности.

Для нейронных сетей в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.

Для карт Кохонена: карты входов, выходов, другие специфические карты.

Для линейной регрессии в качестве визуализатора выступает линия регрессии.

Для кластеризации: дендрограммы, диаграммы рассеивания.

Диаграммы и графики рассеивания часто используются для оценки качества работы того или иного метода.

Все эти способы визуального представления или отображения данных могут выполнять одну из функций:

являются иллюстрацией построения модели (например, представление структуры (графа) нейронной сети);

помогают интерпретировать полученный результат;

являются средством оценки качества построенной модели;

сочетают перечисленные выше функции (дерево решений, дендрограмма).

Визуализация Data Mining моделей

Первая функция (иллюстрация построения модели), по сути, является визуализацией Data Mining модели. Существует много различных способов представления моделей, но графическое ее представление дает пользователю максимальную "ценность". Пользователь, в большинстве случаев, не является специалистом в моделировании, чаще всего он эксперт в своей предметной области. Поэтому модель Data Mining должна быть представлена на наиболее естественном для него языке или, хотя бы, содержать минимальное количество различных математических и технических элементов.

Таким образом, доступность является одной из основных характеристик модели Data Mining. Несмотря на это, существует и такой распространенный и наиболее простой способ представления модели, как "черный ящик". В этом случае пользователь не понимает поведения той модели, которой пользуется. Однако, несмотря на непонимание, он получает результат - выявленные закономерности. Классическим примером такой модели является модель нейронной сети.

Другой способ представления модели - представление ее в интуитивном, понятном виде. В этом случае пользователь действительно может понимать то, что происходит "внутри" модели. Таким образом, можно обеспечить его непосредственное участие в процессе.

Такие модели обеспечивают пользователю возможность обсуждать ее логику с коллегами, клиентами и другими пользователями, или объяснять ее.

Понимание модели ведет к пониманию ее содержания. В результате понимания возрастает доверие к модели. Классическим примером является дерево решений. Построенное дерево решений действительно улучшает понимание модели, т.е. используемого инструмента Data Mining.

Кроме понимания, такие модели обеспечивают пользователя возможностью взаимодействовать с моделью, задавать ей вопросы и получать ответы. Примером такого взаимодействия является средство "что, если". При помощи диалога "системапользователь" пользователь может получить понимание модели.

Теперь перейдем к функциям, которые помогают интерпретировать и оценить результаты построения Data Mining моделей. Это всевозможные графики, диаграммы, таблицы, списки и т.д.

Примерами средств визуализации, при помощи которых можно оценить качество модели, являются диаграмма рассеивания, таблица сопряженности, график изменения величины ошибки.

Диаграмма рассеивания представляет собой график отклонения значений, прогнозируемых при помощи модели, от реальных. Эти диаграммы используют для непрерывных величин. Визуальная оценка качества построенной модели возможна только по окончанию процесса построения модели.

Таблица сопряженности используется для оценки результатов классификации. Такие таблицы применяются для различных методов классификации. Они уже использовались нами в предыдущих лекциях. Оценка качества построенной модели возможно только по окончанию процесса построения модели.

График изменения величины ошибки . График демонстрирует изменение величины ошибки в процессе работы модели. Например, в процессе работы нейронных сетей пользователь может наблюдать за изменением ошибки на обучающем и тестовом множествах и остановить обучение для недопущения "переобучения" сети. Здесь оценка качества модели и его изменения может оцениваться непосредственно в процессе построения модели.

Примерами средств визуализации, которые помогают интерпретировать результат, являются: линия тренда в линейной регрессии, карты Кохонена, диаграмма рассеивания в кластерном анализе.

Методы визуализации

Методы визуализации, в зависимости от количества используемых измерений, принято классифицировать на две группы :

представление данных в одном, двух и трех измерениях;

представление данных в четырех и более измерениях.

Представление данных в одном, двух и трех измерениях

К этой группе методов относятся хорошо известные способы отображения информации, которые доступны для восприятия человеческим воображением. Практически любой современный инструмент Data Mining включает способы визуального представления из этой группы.

В соответствии с количеством измерений представления это могут быть следующие способы:

одномерное (univariate) измерение, или 1-D;

двумерное (bivariate) измерение, или 2-D;

трехмерное или проекционное (projection) измерение, или 3-D.

Следует заметить, что наиболее естественно человеческий глаз воспринимает двухмерные представления информации.

При использовании двух- и трехмерного представления информации пользователь имеет возможность увидеть закономерности набора данных:

его кластерную структуру и распределение объектов на классы (например, на диаграмме рассеивания);

топологические особенности;

наличие трендов;

информацию о взаимном расположении данных;

существование других зависимостей, присущих исследуемому набору данных.

Если набор данных имеет более трех измерений, то возможны такие варианты:

использование многомерных методов представления информации (они рассмотрены ниже);

снижение размерности до одно-, двухили трехмерного представления. Существуют различные способы снижения размерности, один из них - факторный анализ - был рассмотрен в одной из предыдущих лекций. Для снижения размерности и одновременного визуального представления информации на двумерной карте используются самоорганизующиеся карты Кохонена.

Представление данных в 4 + измерениях

Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации.

Наиболее известные способы многомерного представления информации:

параллельные координаты;

∙ "лица Чернова";

лепестковые диаграммы.

Параллельные координаты

В параллельных координатах переменные кодируются по горизонтали, вертикальная линия определяет значение переменной. Пример набора данных, представленного в декартовых координатах и параллельных координатах, дан на рис. 16.1 . Этот метод представления многомерных данных был изобретен Альфредом Инселбергом (Alfred Inselberg) в 1985 году.




Top