Многомерные системы с потерями. STATISTICA Multivariate Exploratory Techniques Многомерные технологии анализа данных

Реляционная модель данных, которая была предложена Э.Ф. Коддом в 1970 году, и за которую десятилетие спустя он получил премию Тьюринга, служит основой современной многомиллиардной отрасли баз данных. За последние десять лет сложилась многомерная модель данных, которая используется, когда целью является именно анализ данных, а не выполнение транзакций. Технология многомерных баз данных - ключевой фактор интерактивного анализа больших массивов данных с целью поддержки принятия решения. Подобные базы данных трактуют данные как многомерные кубы, что очень удобно именно для их анализа.

Многомерные модели рассматривают данные либо как факты с соответствующими численными параметрами, либо как текстовые измерения, которые характеризуют эти факты. В розничной торговле, к примеру, покупка - это факт, объем покупки и стоимость - параметры, а тип приобретенного продукта, время и место покупки - измерения. Запросы агрегируют значения параметров по всему диапазону измерения, и в итоге получают такие величины, как общий месячный объем продаж данного продукта. Многомерные модели данных имеют три важных области применения, связанных с проблематикой анализа данных.

  • Хранилища данных интегрируют для анализа информации из нескольких источников на предприятии.
  • Системы оперативной аналитической обработки (online analytical processing - OLAP) позволяют оперативно получить ответы на запросы, охватывающие большие объемы данных в поисках общих тенденций.
  • Приложения добычи данных служат для выявления знаний за счет полуавтоматического поиска ранее неизвестных шаблонов и связей в базах данных.

Исследователи предложили формальные математические модели многомерных баз данных, а затем эти предложения нашли уточненное отражение в конкретном программном инструментарии, реализующем эти модели . Врезка описывает эволюцию многомерной модели данных.

Электронные таблицы и отношения

Электронные таблицы, аналогичные показанной в таблице 1, представляют собой удобный инструмент для анализа данных о продажах: какие продукты проданы, сколько совершено сделок и где. Главная таблица (pivot table) - двумерная электронная таблица с соответствующими промежуточными и итоговыми результатами, которая используется для просмотра более комплексных данных путем вложения нескольких измерений по осям x и y и отображения данных на нескольких страницах. Главные таблицы, как правило, поддерживают итеративный выбор подмножеств данных и изменение отображаемого уровня детализации.

Электронные таблицы не подходят для управления и хранения многомерных данных, поскольку они слишком жестко связывают данные с их внешним видом, не отделяя структурную информацию от желаемого представления информации. Скажем, добавление третьего измерения, такого как время, или группировка данных по обобщенным типам продуктов требует значительно более сложной настройки. Очевидное решение состоит в использовании отдельной электронной таблицы для каждого измерения. Но такое решение оправдано только в ограниченной степени, поскольку анализ подобных наборов таблиц быстро становится чересчур громоздким.

Использование баз данных, поддерживающих SQL, значительно увеличивает гибкость обработки структурированных данных. Однако сформулировать многие вычисления, такие как совокупные показатели (объем продаж за год к текущему моменту), сочетание итоговых и промежуточных результатов, ранжирование, например, определение десяти самых продаваемых продуктов, посредством стандартного варианта SQL весьма сложно, если вообще возможно. При перестановке строк и столбцов необходимо вручную специфицировать и комбинировать различные представления. Расширения SQL, такие как оператор кубов данных и окна запросов частично решают эти задачи, в целом чистая реляционная модель не позволяет на приемлемом уровне работать с иерархическими измерениями.

Электронные таблицы и реляционные базы данных адекватно обрабатывают массивы данных, которые имеют незначительное число измерений, но они не полностью отвечают требованиям углубленного анализа данных. Решение же состоит в том, чтобы использовать технологию, которая предусматривает поддержку полного спектра средств многомерного моделирования данных.

Кубы

Многомерные базы данных рассматривают данные как кубы, которые являются обобщением электронных таблиц на любое число измерений. Кроме того, кубы поддерживают иерархию измерений и формул без дублирования их определений. Набор соответствующих кубов составляет многомерную базу данных (или хранилище данных).

Кубами легко управлять, добавляя новые значения измерений. В обычном обиходе этим термином обозначают фигуру с тремя измерениями, однако теоретически куб может иметь любое число измерений. На практике чаще всего кубы данных имеют от 4 до 12 измерений . Современный инструментарий часто сталкивается с нехваткой производительности, когда так называемый гиперкуб имеет свыше 10-15 измерений.

Комбинации значений измерений определяют ячейки куба. В зависимости от конкретного приложения ячейки в кубе могут располагаться как разрозненно, так и плотно. Кубы, как правило, становятся разрозненными по мере увеличения числа размерностей и степени детализации значений измерений.

На рис. 1 показан куб, содержащий данные по продажам в двух датских городах, указанных в таблице 1 с дополнительным измерением - «Время». В соответствующих ячейках хранятся данные об объеме продаж. В примере можно обнаружить «факт» - непустую ячейку, содержащую соответствующие числовые параметры - для каждой комбинации время, продукт и город, где была совершена, по крайней мере, одна продажа. В ячейке размещаются числовые значения, связанные с фактом - в данном случае, это объем продаж - единственный параметр.

В общем случае куб позволяет представить только два или три измерения одновременно, но можно показывать и больше за счет вложения одного измерения в другое. Таким образом, путем проецирования куба на двух- или трехмерное пространство можно уменьшить размерность куба, агрегировав некоторые размерности, что ведет к работе с более комплексными значениями параметров. К примеру, рассматривая продажи по городам и времени, мы агрегируем информацию для каждого сочетания город и время. Так, на рис. 1, сложив поля 127 и 211, получаем общий объем продаж для Копенгагена в 2001 году.

Измерения

Измерения - ключевая концепция многомерных баз данных. Многомерное моделирование предусматривает использование измерений для предоставления максимально возможного контекста для фактов . В отличие от реляционных баз данных, контролируемая избыточность в многомерных базах данных, в общем, считается оправданной, если она увеличивает информационную ценность. Поскольку данные в многомерный куб часто собираются из других источников, например, из транзакционной системы, проблемы избыточности, связанные с обновлениями, могут решаться намного проще. Как правило, в фактах нет избыточности, она есть только в измерениях.

Измерения используются для выбора и агрегирования данных на требуемом уровне детализации. Измерения организуются в иерархию, состоящую из нескольких уровней, каждый из которых представляет уровень детализации, требуемый для соответствующего анализа.

Иногда бывает полезно определять несколько иерархий для измерения. Например, модель может определять время как в финансовых годах, так и в календарных. Несколько иерархий совместно используют один или несколько общих, самых низких уровней, например, день и месяц, и модель группирует их в несколько более высоких уровней - финансовый квартал и календарный квартал. Чтобы избежать дублирования определений, метаданные многомерной базы данных определяют иерархию измерений.

На рис. 2 показана схема «Местоположение» для данных продаж из таблицы 1. Из трех уровней измерений местоположения самый низкий - «Город». Значения уровня «Город» группируются в значения на уровне «Страна», к примеру, Аалборг и Копенгаген находятся в Дании. Уровень T представляет все измерения.

В некоторых многомерных моделях уровень имеет несколько связанных свойств, которые содержат простую, неиерархическую информацию. Например, «Размер пакета» может быть свойством уровня в измерении «Продукт». Измерение «Размер пакета» может также получать эту информацию. Использование механизма свойств не приводит к увеличению числа измерений в кубе.

В отличие от линейных пространств, с которыми имеет дело алгебра матриц, многомерные модели, как правило, не предусматривают функций упорядочивания или расстояния для значений измерения. Единственное «упорядочивание» состоит в том, что значения более высокого уровня содержат значения более низких уровней. Однако для некоторых измерений, таких как время, упорядоченность значений размерности может использоваться для вычисления совокупной информации, такой как общий объем продаж за определенный период. Большинство моделей требуют определения иерархии измерений для формирования сбалансированных деревьев - иерархии должны иметь одинаковую высоту по всем ветвям, а каждое значение не корневого уровня - только одного родителя.

Факты

Факты представляют субъект - некий шаблон или событие, которые необходимо проанализировать. В большинстве многомерных моделей данных факты однозначно определяются комбинацией значений измерений; факт существует только тогда, когда ячейка для конкретной комбинации значений не пуста. Однако некоторые модели трактуют факты как «объекты первого класса» с особыми свойствами. Большинство многомерных моделей также требуют, чтобы каждому факту соответствовало одно значение на более низком уровне каждого измерения, но в некоторых моделях это не является обязательным требованием .

Каждый факт обладает некоторой гранулярностью, определенной уровнями, из которых создается их комбинация значений измерений. Например, гранулярность факта в кубе, представленном на рис. 1 - это (Год x Продукт x Город). (Год x Тип x Город) и (День x Продукт x Город) - соответственно более грубая и более тонкая гранулярности.

Хранилища данных, как правило, содержат следующие три типа фактов .

  • События (event), по крайней мере, на уровне самой большой гранулярности, как правило, моделируют события реального мира, при этом каждый факт представляет определенный экземпляр изучаемого явления. Примерами могут служить продажи, щелчки мышью на Web-странице или движение товаров на складе.
  • Мгновенные снимки (snapshot) моделируют состояние объекта в данный момент времени, такие как уровни наличия товаров в магазине или на складе и число пользователей Web-сайта. Один и тот же экземпляр явления реального мира, например, конкретная банка бобов, может возникать в нескольких фактах.
  • Совокупные мгновенные снимки (cumulative snapshot) содержат информацию о деятельности организации за определенный отрезок времени. Например, совокупный объем продаж за предыдущий период, включая текущий месяц, можно легко сравнить с показателями за соответствующие месяцы прошлого года.

Хранилище данных часто содержит все три типа фактов. Одни и те же исходные данные, например, движение товаров на складе, могут содержаться в трех различных типах кубов: поток товаров на складе, список товаров и поток за год к текущей дате.

Параметры

Параметры состоят из двух компонентов:

  • численная характеристика факта, например, цена или доход от продаж;
  • формула, обычно простая агрегативная функция, скажем, сумма, которая может объединять несколько значений параметров в одно.

В многомерной базе данных параметры, как правило, представляют свойства факта, который пользователь хочет изучить. Параметры принимают различные значения для разных комбинаций измерений. Свойство и формула выбираются таким образом, чтобы представлять осмысленную величину для всех комбинаций уровней агрегирования. Поскольку метаданные определяют формулу, данные, в отличие от случая электронных таблиц, не тиражируются.

При вычислениях три различных класса параметров ведут себя совершенно по-разному.

  • Аддитивные параметры могут содержательным образом комбинироваться в любом измерении. Например, имеет смысл суммировать общий объем продаж для продукта, местоположения и времени, поскольку это не вызывает наложения среди явлений реального мира, которые генерируют каждое из этих значений.
  • Полуаддитивные параметры, которые не могут комбинироваться в одном или нескольких измерениях. Например, суммирование запасов по разным товарам и складам имеет смысл, но суммирование запасов товаров в разное время бессмысленно, поскольку одно и то же физическое явление может учитываться несколько раз.
  • Неаддитивные параметры не комбинируются в любом измерении, обычно потому, что выбранная формула не позволяет объединить средние значения низкого уровня в среднем значении более высокого уровня.

Аддитивные и неаддитивные параметры могут описывать факты любого рода, в то время как полуаддитивные параметры, как правило, используются с мгновенными снимками или совокупными мгновенными снимками.

Запросы

Многомерная база данных естественным образом предназначена для определенных типов запросов.

  • Запросы вида slice-and-dice осуществляют выбор, сокращающий куб. К примеру, можно рассмотреть сечение куба на рис. 1, приняв во внимание только те ячейки, которые касаются хлеба, а затем еще больше сократить его, оставив ячейки, относящиеся только к 2000 году. Фиксация значения измерения сокращает размерность куба, но при этом возможны и более общие операции выбора.
  • Запросы вида drill-down и roll-up - взаимообратные операции, которые используют иерархию измерений и параметры для агрегирования. Обобщение до высших значений соответствует исключению размерности. Например, свертка от уровня «Город» до уровня «Страна» на рис. 2 агрегирует значения для Аалборга и Копенгагена в одно значение - Дания.
  • Запросы вида drill-across комбинируют кубы, которые имеют одно или несколько общих измерений. С точки зрения реляционной алгебры такая операция выполняет слияние (join).
  • Запросы вида ranking возвращает только те ячейки, которые появляются в верхней или нижней части упорядоченного определенным образом списка, например, 10 самых продаваемых продуктов в Копенгагене в 2000 году.
  • Поворот (rotating) куба дает пользователям возможность увидеть данные, сгруппированные по другим измерениям.

Реализация

Многомерные базы данных реализуют в двух основных формах.

  • Системы многомерной оперативной аналитической обработки (MOLAP) хранят данные в специализированных многомерных структурах. Системы MOLAP, как правило, содержат средства для обработки разреженных массивов и применяют усовершенствованную индексацию и хеширование для поиска данных при выполнении запросов .
  • Реляционные системы OLAP (ROLAP) для хранения данных используют реляционные базы данных, а также применяют специализированные индексные структуры, такие как битовые карты, чтобы добиться высокой скорости выполнения запросов.

Системы MOLAP, как правило, позволяют добиться более эффективного использования дискового пространства, а также меньшего времени ответов при обработке запросов.

Сокращение времени ответа при обработке запросов

Самые важные методы увеличения производительности в многомерных базах данных - это предвычисления (precomputation). Их специализированный аналог - предагрегирование (preaggregation), которое позволяет сократить время ответа на запросы, охватывающие потенциально огромные объемы данных, в степени, достаточной для проведения интерактивного анализа данных.

Вычисление и сохранение, или «материализация», сводных объемов продаж по странам и месяцам, - пример предагрегирования. Такой подход позволяет быстро получать ответы на запросы, касающиеся общего объема продаж, к примеру, в одном месяце, в одной стране или по кварталу и стране одновременно. Эти ответы можно получить из предварительно вычисленных данных и нет необходимости обращаться к информации, размещенной в хранилище данных.

Современные коммерческие реляционные базы данных, а также специализированные многомерные системы, содержат средства оптимизации запросов на основе предварительно вычисленных агрегатов (aggregate) и автоматического перевычисления хранимых агрегатов при обновлении базовых данных .

Полное предагрегирование - материализация всех сочетаний агрегатов - невозможно, поскольку требует слишком большого дискового пространства и времени на предварительные вычисления. Вместо этого современные системы OLAP следуют более практическому подходу к предагрегированию, материализуя только избранные комбинации агрегатов, а затем используя их для более эффективного вычисления других агрегатов . Повторное использование агрегатов требует поддержания корректной многомерной структуры данных.

Литература
  1. R. Winter, «Databases: Back in the OLAP Game», Intelligent Enterprise Magazine, vol. 1, no. 4, 1998
  2. E. Thomsen, G. Spofford, D. Chase, Microsoft OLAP Solutions, John Wiley & Sons, New York, 1999

Torben Bach Pedersen, Christian S. Jensen, Multidimensional Database Technology. IEEE Computer, December 2001. Copyright IEEE Computer Society, 2001. All rights reserved. Reprinted with permission.

Теория случайных величин изучает вероятностные явления «в статике», рассматривая их как некоторые зафиксированные результаты экспериментов. Для описания сигналов, которые отображают развивающиеся во времени случайные явления, методы классической теории вероятностей оказываются недостаточными. Подобные задачи изучает особая ветвь математики, получившая название теории случайных процессов.

По определению, случайный процесс - это особого вида функция, характеризующаяся тем, что в любой момент времени принимаемые ею значения являются случайными величинами.

Ансамбли реализаций.

Имея дело с детерминированными сигналами, мы отображаем их функциональными зависимостями или осциллограммами. Если же речь идет о случайных процессах, то ситуация оказывается сложнее. Фиксируя на определенном промежутке времени мгновенные значения случайного сигнала, получаем лишь единственную реализацию случайного процесса. Случайный процесс представляет собой бесконечную совокупность таких реализаций, образующих статистический ансамбль. Например, ансамблем является набор сигналов , которые можно одновременно наблюдать на выходах совершенно одинаковых генераторов шумового напряжения.

Совсем необязательно, чтобы реализации случайного процесса представлялись функциями со сложным, нерегулярным во времени поведением. Часто приходится рассматривать случайные процессы, образованные, например, всевозможными гармоническими сигналами , у которых однн из трех параметров - случайная величина, принимающая определенное значение в каждой реализации. Случайный характер такого сигнала заключен в невозможности заранее, до опыта зиать значение этого параметра.

Случайные процессы, образованные реализациями, зависящими от конечного числа параметров, принято называть квазидетерминированными случайными процессами.

Плотности вероятности случайных процессов.

Пусть - случайный процесс, заданный ансамблем реализаций, - некоторый произвольный момент времени. Фиксируя величины получаемые в отдельных реализациях, осуществляем одномерное сечение данного случайного процесса и наблюдаем случайную величину Ее плотность вероятности называют одномерной плотностью вероятности процесса в момент времени

Согласно определению, величина есть вероятность того, что реализации случайного процесса в момент времени примут значения, лежащие в интервале

Информация, которую можно извлечь из одномерной плотности, недостаточна для того, чтобы судить о характере развития реализаций случайного процесса во времени. Гораздо больше сведений можно получить, располагая двумя сечениями случайного процесса в несовпадающие моменты времени Возникающая при таком мысленном эксперименте двумерная случайная величина описывается двумерной плотностью вероятности Эта характеристика случайного процесса позволяет вычислить вероятность события, заключающегося в том, что реализация случайного процесса при проходит в малой окрестности точки а при - в малой окрестности точки

Естественным обобщением является -мерное сечение случайного процесса приводящее к -мерной плотности вероятности

Многомерная плотность вероятности случайного процесса должна удовлетворять обычным условиям, налагаемым на плотность вероятности совокупности случайных величин (см. § 6.2). Помимо этого, величина не должна зависеть от того, в каком порядке располагаются ее аргументы (условие симметрии).

Иногда вместо -мерной плотности вероятности удобно пользоваться -мерной характеристической функцией, которая связана с соответствующей плотностью преобразованием Фурье:

Описание свойств случайных процессов с помощью многомерных плотностей вероятности высокой размерности может быть весьма подробным. Однако на этом пути часто встречаются серьезные математические трудности.

Моментные функция случайных процессов.

Менее детальные, но, как правило, вполне удовлетворительные в практическом смысле характеристики случайных процессов можно получить, вычисляя моменты тех случайных величин, которые наблюдаются в сечениях этих процессов. Поскольку в общем случае эти моменты зависят от временных аргументов, они получили название моментных функций.

Для статистической радиотехники наибольшее значение имеют три моментные функции низших порядков, называемые математическим ожиданием, дисперсией и функцией корреляции.

Математическое ожидание

есть среднее значение процесса X(t) в текущий момент времени ; усреднение проводится по всему ансамблю реализаций процесса.

Дисперсия

позволяет судить о степени разброса мгновенных значений, принимаемых отдельными реализациями в фиксированном сечении t, относительно среднего значения.

Двумерный центральный момент

называется функцией корреляции случайного процесса Эта моментная функция характеризует степень статистической связи тех случайных величин, которые наблюдаются при Сравнивая формулы (6.37), (6.38), заметим, что при совмещении сечений функция корреляции численно равна дисперсии:

Стационарные случайные процессы.

Так принято называть случайные процессы, статистические характеристики которых одинаковы во всех сечениях.

Говорят, что случайный процесс стационарен в узком смысле; если любая его -мерная плотность вероятности инвариантна относительно временного сдвига

Если же ограничить требования тем, чтобы математическое ожидание и дисперсия процесса не зависели от времени, а функция корреляции зависела лишь от разности - , то подобный случайный процесс будет стационарен в широком смысле. Понятно, что из стационарности в узком смысле следует стационарность в широком смысле, но не наоборот.

Как следует из определения, функция корреляции стационарного случайного процесса является четной:

Кроме того, абсолютные значения этой функции при любых не превышают ее значения при :

Метод доказательства таков: из очевидного неравенства

следует, что

откуда непосредственно вытекает неравенство (6.41).

Часто удобно использовать нормированную функцию корреляции

для которой .

Чтобы проиллюстрировать понятие стационарного случайного процесса, рассмотрим два примера.

Пример 6.5. Случайный процесс образован реализациями вида где известны заранее, в то время как фазовый угол - случайная величина, равномерно распределенная на отрезке -

Так как плотность вероятности фазового угла то математическое ожидание процесса

Аналогично можно найти дисперсию:

Наконец, функция корреляции

Итак, данный случайный процесс удовлетворяет всем условиям, которые необходимы для того, чтобы обеспечить стационарность в широком смысле.

Пример 6.6. Случайный процесс имеет реализации вида и причем - заданные числа. - случайная величина с произвольным законом распределения. Математическое ожидание

будет не зависимым от времени лишь при Поэтому в общем случае рассматриваемый случайный процесс будет нестационарным.

Свойство эргодичности.

Стационарный случайный процесс называют эргодическим, если при нахождении его моментных функций усреднение по статистическому ансамблю можно заменить усреднением по времени. Операция усреднения выполняется над единственной реализацией длительность Т которой теоретически может быть сколь угодно велика,

Обозначая усреднение по времени угловыми скобками, запишем математическое ожидание эргодического случайного процесса:

которое равно постоянной составляющей выбранной реализации.

Дисперсия подобного процесса

Поскольку величина представляет собой среднюю мощность реализации, а величина - мощность постоянной составляющей, дисперсия имеет наглядный смысл мощности флуктуационной составляющей эргодического процесса.

Аналогично находят функцию корреляции:

Достаточным условием эргодичности случайного процесса, стационарного в широком смысле, является стремление к нулю функции корреляции при неограниченном росте временного сдвига :

В математике показано, что это требование можно несколько ослабить. Оказывается, что случайный процесс эргодичен, если выполнено условие Слуцкого :

Так, равенство (6.47) справедливо применительно к гармоническому процессу со случайной начальной фазой (см. пример 6.5).

Измерение характеристик случайных процессов.

Если случайный процесс является эргодическим, то его реализация достаточной длины есть «типичный» представитель статистического ансамбля. Изучая эту реализацию экспериментально, можно получить много сведений, характеризующих данный случайный процесс.

Прибор для измерения одномерной плотности вероятности случайного процесса может быть выполнен следующим образом. Одномерная плотность вероятности эргодического случайного процесса есть величина, пропорциональная относительному времени пребывания его реализации на уровне между Предположим, что имеется устройство с двумя входами, на один из которых подается исследуемая реализация х(t), а на другой - опорное постоянное напряжение, уровень которого можно регулировать. На выходе устройства возникают прямоугольные видеоимпульсы постоянной амплитуды, начало и конец которых определяются моментами времени, когда текущие значения случайного сигнала совпадают либо с уровнем либо с уровнем Если теперь измерить, скажем, с помощью обычного стрелочного прибора среднее значение тока, создаваемого последовательностью видеоимпульсов, то показания этого прибора будут пропорциональны плотности вероятности

Любой достаточно инерционный стрелочный прибор может быть использован для измерения математического ожидания случайного процесса [см. формулу (6.43)].

Прибор, измеряющий дисперсию случайного процесса, как это следует из (6.44), должен иметь на входе конденсатор, отделяющий постоянную составляющую. Дальнейшие этапы процесса измерения - возведение в квадрат и усреднение по времени - выполняются инерционным квадратичным вольтметром.

Принцип работы измерителя функции корреляции (коррелометра) вытекает из формулы (6.45). Здесь мгновенные значения случайного сигнала после фильтрации постоянной составляющей, разделяясь на канала, поступают на перемножитель, причем в одном из каналов сигнал задерживается на время . Для получения значения функции корреляции сигнал с выхода перемножителя обрабатывается инерционным звеном, которое осуществляет усреднение.

Независимо от величины

Здесь приняты те же обозначения, что и в формуле (6.26). Элементы корреляционной матрицы этого случайного процесса определяются нормированной функцией корреляции:

В дальнейшем часто будет использоваться двумерная гауссова плотность

Стационарный гауссов процесс занимает исключительное место среди прочих случайных процессов - любая его многомерная плотность вероятности определяется даумя характеристиками: математическим ожиданием и функцией корреляции.

В предыдущей секции мы рассматривали двухмерную диаграмму переходов состояний. Для увеличивающегося числа потоков нагрузки число состояний (и следовательно уравнений) увеличивается очень быстро. Однако, можно упростить проблему, используя структуру диаграммы переходов состояний. Рассмотрим двухмерную диаграмму переходов состояний, показанную в рис. 10.2. Для четырех соседних состояний поток в направлении по часовой стрелке должен равняться потоку в противоположном направлении (Kingman, 1969 ), (Sutton, 1980 ). Взглянем на рис. 10.2.


Рис. 10.2.

По часовой стрелке :


Против часовой стрелки :


Мы можем сократить оба выражения на вероятности состояния и затем получить условие (10.12). Необходимое и достаточное условие для обратимости - что следующие два выражения являются равными.

По часовой стрелке :

(10.12)

Против часовой стрелки :

Если эти два выражения равны, то имеется локальное или частичное равновесие . Таким образом, необходимым условием для обратимости является то, что если есть поток (стрелка) от состояния i к состоянию j , тогда должен также быть поток (стрелка) от состояния j до состояния i . Мы можем применить уравнения сечения между любыми двумя подключенными состояниями. Итак, из рисунка 10.2 мы получаем:

(10.13)

Мы можем выразить любую вероятность состояния с помощью вероятности состояния , выбирая любой путь между этими двумя состояниями (критерии Колмогорова ). Мы можем, например, выбрать путь :

Тогда получаем следующее уравнение равновесия:

(10.17)

Если мы рассматриваем многомерную систему с потерями, имеющую N потоков нагрузки, то любым потоком нагрузки может быть зависимый от состояния Пуассоновский процесс. В конкретном потоке могут быть нагрузки типа BPP (Бернулли, Пуассон, Паскаль ). Для N - мерных систем условия обратимости аналогичны (10.12). Критерий Колмогорова должен выполняться для всех возможных путей. Практически, мы не испытываем никаких проблем, потому что решение, полученное согласно предположению об обратимости, будет правильным решением тогда и только тогда, когда выполнены уравнения равновесия узла. В следующей секции мы используем это как основание , чтобы ввести общую многомерную модель нагрузки.

Многомерные Системы с потерями

В этой секции мы рассматриваем обобщения классической теории телетрафика для систем, которые состоят из нескольких типов потоков нагрузки, поступающих на единственный канал или группу каналов или пучков каналов. Каждый поток нагрузки может иметь отдельные параметры и может быть зависимыми от состояния Пуассоновскими потоками вызовов с ограниченными классами и мультислотовым трафиком. Этот общий класс моделей нечувствителен к распределению времени пребывания в системе, которое может быть классом. Мы вводим обобщения по одному и представляем маленькое социологическое исследование, чтобы проиллюстрировать основные идеи.

Ограничение класса

По сравнению со случаем, который рассматривают в секции 10.1, мы теперь ограничим число одновременных запросов для каждого потока нагрузки (класса). Таким образом, не будет полной доступности, но в отличие от систем перегрузки, где физически существует доступ только к заданным каналам, теперь возможно использование всех каналов, но в любой момент мы можем занять только ограниченное их число. Это обеспечивает сервисная защита (защита числа виртуальных каналов = ограничение на класс обслуживания = приоритетная пороговая стратегия). Таким образом, мы вводим ограничения числа одновременных вызовов в классе j следующим образом:

(10.18)

Если последнее ограничение не выполнено, то мы получаем отдельные группы, соответствующие N обычным независимым одномерным системам с потерями . Из-за ограничений диаграмма переходов состояний усечена. Для двух потоков нагрузки она показана на рис.10.3 .


Рис. 10.3.

Заметим, что усеченная диаграмма переходов состояний все еще является обратимой и что значение относительно значения при усечении не изменяется. Изменяется только нормировочная константа. Фактически, из-за локального свойства равновесия мы можем удалить любое состояние, не изменяя вышеупомянутые свойства. Можно рассмотреть больше общих ограничений класса к наборам потоков нагрузки так, чтобы любой поток нагрузки имел минимум (гарантируемый) числа распределенных каналов.

Обобщенные процессы обслуживания нагрузки

Мы можем рассматривать PCT -I нагрузку только как в секции 10.1. Каждый поток нагрузки может быть зависимым от состояния, например, Пуассоновский поток вызовов с линейной зависимостью от состояния и своей скоростью выхода из системы (гибели), см. (10.16) и (10.17)

Система удовлетворяет условиям обратимости, см. (10.12). Таким образом, форма произведения также существует для BPP -потоков нагрузки и более общих Пуассоновских процессов, зависимых от состояния. Если все потоки нагрузки - энгсетовские (Биноминальные) процессы, то мы получаем многомерную формулу Энгсета (Jensen, 1948). Как уже упомянуто выше, система нечувствительна к распределениям времени пребывания в системе. Каждый поток нагрузки может иметь свое собственное отдельное распределение времени пребывания в системе.

Мультислотовая нагрузка

В системах с интеграцией служб требуемая пропускная способность может зависеть от типа обслуживания. Например, для обслуживания телефонного соединения с передачей только речи требуется один канал (слот), тогда как, например, для передачи видеоизображения может потребоваться каналов одновременно. Мы получаем дополнительные ограничения:

(10.19)
(10.20)

где - фактическое число вызовов типа . Результирующая диаграмма переходов состояний будет обратима, и будет иметь форму произведения.

Аналитическое прогнозирование многомерных процессов.

Метод обобщенного параметра.

Цель работы: изучение практических приемов прогнозирования состояния многопараметрического объекта.

Краткие теоретические сведения:

Изменение состояния технических систем можно рассматривать как процесс, характеризуемый изменениями некоторого множества параметров. Положение вектора состояния в пространстве определяет степень работоспособности системы. Состояние системы характеризуется вектором в k-мерном пространстве, где координатами пространства служат k параметров системы , .

Прогнозирование состояния сводится к периодическому предварительному контролю параметров; определению в моменты t i T 1 контроля функции состояния

Q =Q[ ] и расчете значений функцииQ состояния в области значений времениT 2 > T 1 .

При этом чем дальше будет расположен вектор состояния от гиперповерхности допустимых значений степени работоспособности Q * , тем выше работоспособность диагностируемой системы. Чем меньше разность * , тем ниже уровень работоспособности.

Использование методов аналитического прогнозирования предполагает регулярность изменения компонентов процесса во времени.

Идея метода обобщенного параметра заключается в том, что процесс, характеризуемый многими компонентами, описывается одномерной функцией, численные значения которой зависят от контролируемых компонентов процесса. Такая функция рассматривается как обобщенный параметр процесса. При этом может оказаться, что обобщенный параметр не имеет конкретного физического смысла, а является математическим выражением, построенным искусственно из контролируемых компонентов прогнозируемого процесса.

При обобщении параметров, характеризующих степень работоспособности технических систем, необходимо решение следующих задач:

Определения относительных значений первичных параметров;

Оценки значимости первичного параметра для оценки состояния объекта;

Построения математического выражения для обобщенного параметра.

Определение относительных значений первичных параметров необходимо в связи с тем, что состояния объекта может характеризоваться параметрами, имеющими различную размерность. Поэтому все контролируемые первичные параметры следует свести к единой системе исчисления, в которой они могут быть сравнимыми. Такой системой является система безразмерного (нормированного) относительного исчисления.

Реально для каждого параметра ,s = 1, 2, …, k можно выделить допустимое значение, * , при достижении которого объект теряет работоспособность, и оптимальное значение опт (зачастую оно равно номинальному значению н).

Пусть в процессе эксплуатации объекта соблюдается условие. Если , достаточно ввести в местоновый параметри тогда длябудет соблюдаться требуемое условие.

Запишем безразмерный (нормированный) параметр в виде:

где , причем при , а при .

Таким образом, с помощью выражения (1) нормируется параметр , а безразмерная нормированная величинаизменяется с течением времени от 1 до 0. Отсюда по величинеможно судить о степени работоспособности объекта по данному параметру. Теоретически может быть, но это означает, что на практике объект неработоспособен.

Можно указать различные нормируемые выражения, которые оказываются удобными при решении частных задач, например:

и т. п., где – соответственно текущее, нулевое, мат. ожиданиеS – го параметра.

Использование нормирующих выражений позволяет получить совокупность безразмерных величин, которые характеризуют состояние объекта. Однако количественно одинаковое изменение этих величин не является равнозначным по степени влияния на изменение работоспособности объекта, поэтому необходимо дифференцировать первичные параметры. Этот процесс осуществляется с помощью весовых коэффициентов, величины которых характеризуют важность соответствующих параметров для физической сущности задачи. Пусть в таком случае параметрам объекта соответствуют весовые коэффициенты, удовлетворяющие тем или иным заданным критериям, причем .

Степень работоспособности объекта по множеству контролируемых параметров можно оценить с помощью обобщающего выражения

Где - обобщенный параметр объекта.

Выражение (2) представляет собой линейное среднее. Из определения обобщенного параметра следует, что чем больше величина и, тем больше вкладS – го слагаемого (параметра) в .

Обобщенный параметр можно определить с помощью выражения вида

, (3)

которое представляет собой нелинейного среднее. Для такой модели также соблюдается условие: чем больше и, тем больший вклад вносит слагаемоев величину.

На практике находят применение и другие формы записи нелинейного среднего, например:

, (4)

, (5)

где подбирает так, чтобы (5) давая лучшее приближения к результатам, полученным экспериментальным путем.

При рассмотрении выражений для обобщенного параметра считалось, что не меняет знака, т. е. всегда . Если же необходимо учитывать знак, выражение (2) преобразуется к виду

, (6)

Таким образом, использование обобщенного параметра позволяет свести задачу прогнозирования состояния многопараметрического объекта к прогнозированию одномерной временной функции.

Пример. Испытания объекта в течении 250 часов, у которого контролировалось 6 параметров, дали результаты, приведенные в таблице1.

Таблица1

I н, ном = 9,5

V g1 . ном = 120

I а, ном = 2,0

I g3 , ном = 70

После нормирования значений параметров с помощью выражения (1) таблица принимает вид (таблица2)

Таблица2

Страницы 513-523

Многомерные процессы

До сих пор мы рассматривали модели, которые состоят только из одного соотношения, связывающего временные ряды. При этом мы выбирали одну из переменных в качестве эндогенной, а остальные переменные являлись экзогенными. Такое разделение не всегда является естественным, часто приходится рассматривать одновременно несколько соотношений, в которые одни и те же переменные входят и как эндогенные, и как экзогенные. Как видно из прошлой лекции, переменная не всегда может рассматриваться как экзогенная, и мы фактически должны рассматривать модель DGP, состоящую из нескольких уравнений. Это означает моделирование нескольких временных рядов одновременно, другими словами - моделирование многомерного случайного процесса.

Начнем с определении. Рассмотрим вектор =(х t 1 ,х t 2 ,...,х t k) T , каждая компонента которого является временным рядом. верхним индексом будем обозначать номер компоненты, а нижним по-прежнему - момент времени. распределение компонент характеризуется семейством совместных плотностей распределения вида: f n (х t1 i1 ,х t2 i2 ,..., х tn in )‚ n=1‚2,.... Условием стационарности в узком смысле по-прежнему является независимость от сдвига во времени всего семейства совместных плотностей распределения. Только теперь кроме всевозможных комбинаций значений случайного процесса в различные моменты времени аргументами плотностей вероятности также являются всевозможные комбинации различных компонент в различные моменты времени. Например, для двухмерной плотности получаем из условия стационарности: f 2 t 1 t 2 ) = f 2 (х 1 t + r , х 2 t + r ) для любого τ. Совместное распределение компонент для одного и того же момента времени не зависит от времени. Рассмотрим другую функцию распределения, например трехмерную, в которую входят значения первой компоненты в два разных момента времени и второй компоненты в некоторый третий момент времени. Стационарность означает, чтоf 3 t 1 t + h 1 t + s 2 ) = f 3 (х 1 t + τ , х 2 t + s + τ ) . Можно сказать, что это свойство инвариантности к сдвигу во времени. То есть, если к каждому моменту времени прибавить величину τ, то функция плотности не изменится. Понятно, что стационарность многомерного процесса влечет за собой стационарность каждой из его компонент.

Как и в одномерном случае, стационарность в узком смысле влечет за собой ряд свойств характеристик случайных процессов. Прежде всего, начнем с математического ожидания. Математическое ожидание для каждой компоненты не зависит от других компонент. Поэтому если многомерный процесс стационарен, математическое ожидание каждой компоненты не зависит от времени. Вектор математических ожиданий E( не зависит от времени.

Теперь рассмотрим моменты второго порядка. Каждая компонента характеризуется дисперсией и автокорреляционной функцией. Если одномерный ряд стационарен, его автокорреляционная и автоковариационная функции зависят только от сдвига τ: Corr(τ) = Corr(х t i j t + r ) = р i (τ), однако теперь можно рассмотреть второй смешанный момент для различных компонент, а также Corr(х t i j t + r ). Такую величину естественно назвать кросс-корреляционной функцией. Если компоненты образуют многомерный стационарный процесс, то кросс-корреляция будет функцией сдвига во времени τ. Обозначим эту функцию R ij (τ) . Довольно очевидно, что R ij (τ) = R ji (- τ) . При фиксированном значении τ элементы R ij (τ) образуют матрицу R, зависящую от τ. Значению τ, равному нулю, соответствует корреляционная матрица вектора




Top