Сравнение и продолжение многозначных зависимостей. Базы данных: О нормализации, функциональных и многозначных зависимостях. Я нормальная форма

Пусть A, B, C – некоторое произвольное подмножество атрибутов схемы отношения R(A, B, C). Тогда B многозначно зависит от A (A →→ B) тогда и только тогда, когда множество значений B, соответствующее заданной паре отношения R, зависит только от A, но не зависит от C. многозначные зависимости всегда образуют пары: A →→ B | C.

Пример 1:

Есть ненормализованное отношение (рис. слева). Каждый кортеж такого отношения содержит индекс учебного курса, список дней недели, когда проводятся занятия, и список студентов, изучающих данный курс. Такое расписание означает, что занятия по каждому курсу проводятся во все указанные дни недели, и все студенты посещают все занятия по курсу.

Предположения, которые могут быть сделаны:

Каждый курс может иметь произвольное количество дней занятий.

Каждый курс могут изучать произвольное количество студентов.

Дни занятий и студенты совершенно не зависят друг от друга, т.е. независимо от дня занятий состав группы студентов один и тот же.

День занятий может быть связан с любыми курсами.

Каждый студент может быть связан с любым курсом.

Преобразуем данное отношение в нормализованное отношение CDS (рис слева).

Интуитивно ясно, что эти проблемы вызваны тем, что студенты и дни занятий никак не связаны друг с другом. Можно исправить эту ситуацию, если разбить данное отношение на два: CD(Учебный курс , День занятий ) и CS (Учебный курс , Студент ).

В нашем примере имеет место многозначная зависимость: Учебный курс →→ День занятий | Студент.

Пример 2: Предположим, что рестораны производят разные виды пиццы, а службы доставки ресторанов работают только в определенных районах города. Составной первичный ключ соответствующей переменной отношения включает три атрибута: {Ресторан, Вид пиццы, Район доставки}. Такая переменная отношения не соответствует 4НФ, так как существует следующая многозначная зависимость: {Ресторан}->-> {Вид пиццы}; {Ресторан} ->-> {Район доставки}. То есть, например, при добавлении нового вида пиццы придется внести по одному новому кортежу для каждого района доставки. Возможна логическая аномалия, при которой определенному виду пиццы будут соответствовать лишь некоторые районы доставки из обслуживаемых рестораном районов. Для предотвращения аномалии нужно декомпозировать отношение, разместив независимые факты в разных отношениях. В данном примере следует выполнить декомпозицию на {Ресторан, Вид пиццы} и {Ресторан, Район доставки}. Однако если к исходной переменной отношения добавить атрибут, функционально зависящий от потенциального ключа, например цену с учётом стоимости доставки ({Ресторан, Вид пиццы, Район доставки} → Цена), то полученное отношение будет находиться в 4НФ и его уже нельзя подвергнуть декомпозиции без потерь. Указанные выше многозначные зависимости в данном случае называются внедрёнными зависимостями.

21. Четвертая и пятая нормальные формы. Определение. Аномалии, возникающие при нарушении. Примеры нарушения и нормализации.

Проблема вставки . Чтобы добавить в приведенное отношение информацию о том, что занятия по курсу C2 могут проводиться еще и в четверг, надо включить в отношение два кортежа: и .

Проблема обновления . Чтобы перенести, например, день занятий по курсу C2 с пятницы на вторник, надо изменить данные в двух кортежах.

Проблема удаления . Чтобы отменить, например, занятия в понедельник по курсу C1, надо удалить из отношения три кортежа.

Учебный курс

День занятий

Понедельник

Понедельник

Понедельник

Отношение R находится в 4НФ тогда и только тогда, когда в случае существования многозначной зависимости A →→B все атрибуты отношения R функционально зависят от A. (В отношении отсутствуют многозначные зависимости)

(для достижения 4НФ необходимо разрешить все связи многие ко многим)

Диаграмма уровня сущностей

Так как предполагается, что занятия по курсу обязательно посещаются студентами, можно ввести общую дополнительную сущность ЗАНЯТИЕ, для которой не будет выполняться 4НФ

Если все-таки необходимо, чтобы отношения удовлетворяли 4НФ, и допускается наличие данных о проведении занятий по курсу, когда еще не определен состав студентов, изучающих данный курс, тогда каждая неопределенная связь должна разрешаться самостоятельно. В этом случае согласование данных, заносимых в отношения КУРС СТУДЕНТА и ЗАНЯТИЕ ПО КУРСУ, должны осуществляться с помощью триггеров и хранимых процедур, чтобы не получилось так, что студент изучает некоторый курс, для которого не назначены дни занятий.

Из книжки: Возможность существования в отношении многозначных зависимостей возникает вследствие приведения исходных таблиц к форме 1НФ, для которой не допускается наличие некоторого набора значений на пересечении одной строки и одного столбца. Например, при наличии в отношении двух многозначных атрибутов для достижения непротиворечивого состояния строк необходимо повторить в них каждое значение одного из атрибутов в сочетании с каждым значением другого атрибута. Подобный тип ограничения порождает многозначную зависимость и приводит к избыточности данных.

Многозначная зависимость . Представляет такую зависимость между атрибутами отношения (например, А, B и C), что каждое значение А представляет собой множество значений для A и множество значений для C. Однако множества значений для B и C не зависят друг от друга.

Четвертая нормальная форма (4НФ) - Отношение в нормальной форме Бойса-Кодда, которое не содержит нетривиальных многозначных зависимостей.

Пятая нормальная форма (5NF)

Декомпозиция схем отношений не всегда гарантирует обратимость. Это обстоятельство связано с существованием класса функциональных зависимостей (ФЗ) по соединению. Если отношение удовлетворяет ФЗ по соединению, то оно может быть восстановлено по своим проекциям. Отношения, содержащие более трех МФЗ, требуют особого внимания при построении логической модели реляционной базы данных . Также 4НФ не устраняет избыточность данных полностью, поэтому требуется дальнейшая декомпозиция схем отношений.

Отношение находится в пятой нормальной форме (5НФ), если оно находится в 4НФ и удовлетворяет зависимости по соединению относительно своих проекций. 5НФ называют также нормальной формой с проецированием соединений. Она используется для разрешения трех и более отношений, которые связаны более чем тремя ФЗ по типу «многие-ко-многим».

Пример. Приведение к 5НФ. Рассмотрим отношение с несколькими многозначными зависимостями, представленное на первом рисунке слева.

Рассмотрим сначала это отношение как три изолированных отношения со степенью связи «многие-ко-многим»:


Каждый автомобиль имеет определенный цвет и модель. Некоторые цвета характерны только для определенных моделей. Такие отношения разрешаются введением связывающих отношений, в данном случае таких отношений три (рисунок слева).

Предположим, что клиент желает приобрести автомобиль синего цвета модели C, при этом марка автомобиля роли не играет. Запрос к базе данных на поиск такого автомобиля будет содержать два соединения между тремя таблицами Car, Car Color и Car Model по атрибуту наименование машины и два предиката: цвет = синий и модель = С. Результат выполнения запроса будет удивителен: есть и Волга, и Жигули! Однако из таблицы Model Color видно, что автомобиля синего цвета модели С не существует. Появляется несуществующий кортеж. Такое явление представляет собой аномалию проецирования соединений и пример нарушения 5НФ.

Приведение отношения к 5НФ заключается во введении еще одного отношения, связывающего три исходных отношения, как показано на рисунке слева.

Таким образом, процедура приведения отношения, содержащего многозначные ФЗ, к 5НФ состоит в построении связывающего отношения, позволяющего исключить появление в соединениях ложных кортежей.

Отношение может находиться в 3НФ или в НФБК и обладать нежелательными свойствами. Рассмотрим от­ношение СБЫТ (табл. 3.7).

Кортеж <z t m > означает, что завод z производит товар t и снабжает магазин m . Предположим, что завод произ­водит различные товары и снабжает разные магазины. Следовательно, имеются две независимые друг от друга функции: ПРОИЗВОДСТВО и СНАБЖЕНИЕ (рис. 3.4), т. е. в отношении СБЫТ не выполняются F -зависимости ЗАВОДàTOBAP и ЗАВОДàМАГАЗИН. Однако это отношение без потери информации разлагается на два отношения: ПРОИЗВОДСТВО (табл. 3.8) и СНАБЖЕНИЕ (табл. 3.9).

Рассмотрим отношение СБЫТ1 с такой же схемой (табл. 3.7).

Рис. 3.4. Функция отношения СБЫТ

Таблица 3.7. Отношение СБЫТ

Таблица 3.9. Снабжение

Разложив это отношение на схемы ПРОИЗВОДСТВО (ЗАВОД ТОВАР) и СНАБЖЕНИЕ (ЗАВОД МАГАЗИН), снова получим соответствующие проекции в табл. 3.8 и 3.9. Однако соединение данных проекций не восстанавливает исходного отношения, так как появляется кортеж <z 1 t 2 m 2 >

Проанализируем, какими же свойствами отличаются отношения СБЫТ и СБЫТ1. В первом случае если некоторый товар, например t 2 , производится заводом, например z 1 , то он поставляется во все магазины, а во втором случае - нет. В действительности, если завод z 1 начинает снабжать новый магазин m 3 , то в отношении СБЫТ нужно создать два новых кортежа: по одному для каждого товара. Это связано с взаимной независимостью двух функций (см. рис. 3.4) и лучше осуществляется с помощью двух проекций отношения СБЫТ.

Пусть R(A) -отношение, где А = {А 1 , А 2 ,...,А n }, X, У, Z - подмножества А . Имеет место многозначная зависимость в отношении R , которую обозначают XààY/Z , если при наличии в R кортежей <х у z > и <х у" z" > должны обязательно быть кортежи <х у" z > и <х у z" >.

Так, для рассмотренного выше отношения СБЫТ имеем

ЗАВОДàà ТОВАР/МАГАЗИН, что означает:

если завод производит товар, то он поставляется во все магазины, которые снабжаются заводом;

если завод снабжает некоторый магазин, то магазину поставляются все товары, производимые заводом;

все товары, производимые заводом, продаются мага­зинами, которые снабжаются заводом.

Пусть R(A) - реляционная схема, X, У - непересекающиеся подмножества A, Z = A - (X, У) . Отношение R удовлетворяет многозначной зависимости (MV-зависимости), если для любых кортежей t 1 и t 2 из R , для которых t 1 (X)=t 2 (X) , в R существует кортеж t 3 , для которого t 3 (Х) = t 1 (Х), t 3 (У)=t 1 (У), t 3 (Z)=t 2 (Z) . Из симметрии определения относительно t 1 и t 2 получаем, что в R имеется также кортеж t 4 , для которого t 4 (X)=t 1 {X), t 4 (Y)=t 2 {Y) и t 4 (Z) = t 1 {Z). Из определения MV-зависимости вытекает следующее утверждение.

Утверждение. Если отношение r(R) удовлетворяет MV-зависимости XààY и Z = R-{X, Y) , то r удовлетворяет XààY

В определении MV-зависимости XààY требуется, чтобы ее левая и правая части различались, т. е. чтобы пересечение X и Y было пустым. Для этого есть две причины: во-первых, свойство транзитивности не всегда выполняется, если снято ограничение, и, во-вторых, проектировщик использует на практике MV-зависимости с непересекающимися множествами атрибутов.

Предположим, что в определении MV-зависимости XààY пересечение X и Y не является пустым, т. е. отношение r(R) удовлетворяет XààY и Y" = Y - X . Тогда r(R) удовлетворяет XààY . Действительно, в соответствии с определением MV-зависимости XààY найдутся кортежи t 1 и t 2 , для которых t 1 (X) = t 2 (X) , и должен быть кортеж t 3 , для которого t 3 {X) = t 1 (X), t 3 (Y) =t 1 (Y), t 3 (Z)=t 2 (Z) . Но если t 3 (Y) = t 1 (У), то t 3 (Y")= t 1 (Y") , так как У" ≤Y . Итак, r удовлетворяет XààY".

Предположим, что пересечение X и У пусто и отношение r(R) удовлетворяет ХààY . Если X" Y , то X àà YХ" согласно модифицированному определению MV-зависимости; если t 1 , t 2 принадлежит r и t 1 (X) = t 2 (X) существует кортеж t 3 , для которого t 3 (X) = t 1 (X), t 3 (Y) = t 1 (Y), t 3 (Z) = t 2 (Z) . Следовательно, t 3 (YX") = t 1 (YX") .

Займемся многозначными зависимостями возникающими при приведении в 1НФ отношений с двумя и более многозначными атрибутами. К определению четвертой нормальной формы придем через обобщение понятия функции, заданной на отношении, до многозначной функциональной зависимости. Обобщение теоремы Хиса на такие зависимости называется теоремой Фейгина. Она определяет правило приведения к четвертой нормальной форме. Рассмотрим отношение, в котором курс может считать не один лектор, но для каждого лектора обязателен один и тот же набор учебников, обозначенных по фамилиям авторов (таблица 5.10). Имейте в виду, что такие авторы, как Чучкин, Пупкин, Малинин и Буренин когда-то существовали.

Лектор и учебник независимы в том смысле, что возможны, любые их сочетания. Преобразуем отношение в 1НФ (таблица 5.11). С одной стороны получена НФБК, так как ключ охватывает все кортежи и возможны только тривиальные зависимости. С другой стороны, налицо избыточность. Имеются аномалии по включению (одного лектора включаем столько раз, сколько имеется учебников) и по удалению (при удалении лектора необходимо удалить столько строк, сколько имеется учебников).

Таблица 5.11. Пример многозначной зависимости. 1НФ
ДИСЦИПЛИНА ЛЕКТОР УЧЕБНИК
Арифметика Иванов Чучкин & Пупкин
Арифметика Иванов Малинин & Буренин
Арифметика Петров Чучкин & Пупкин
Арифметика Петров Малинин & Буренин
Генетика Карпов Вайсман
Генетика Карпов Лысенко
РК

Многозначные зависимости (multi-valued dependency) возникают, когда необходимо привести к первой нормальной форме отношение с независимыми многозначными атрибутами, имеющими несколько значений на пересечении строки и столбца. Пусть имеется два таких атрибута и . Тогда для получения 1НФ необходимо для каждого набора значений остальных атрибутов повторить эту строку для каждого сочетания атомарного значения с каждым атомарным значением .

Образуется многозначная зависимость, в которой:

Многозначную зависимость принято обозначать , хотя можно было бы указать наличие двух существующих одновременно обычных функциональных зависимостей и . Иногда обозначают многозначную зависимость или .

Определение . MV-зависимость называется тривиальной если, либо .

Рассмотрим еще одно отношение с многозначными зависимостями (рисунок 5.17). Обозначения: 3 - завод, Т - товар, М - магазин. Выполняется условие: каждый товар из группы товаров продается во все магазины из некоторой группы магазинов. При этом и в группе товаров и в группе магазинов может быть один экземпляр. Исходное отношение ЗТМ разлагается на отношения ЗТ и ЗМ. В отличие от первых четырех нормальных форм связи между созданными отношениями (ЗТ и ЗМ) отсутствуют.

Определение (MV-зависимость). Пусть - отношение, а - непересекающиеся множества его атрибутов. Атрибуты и многозначно зависят от (обозначение ) если из того, что в отношении содержатся кортежи и , следует, что в отношении содержится также кортеж .

По симметрии определения в содержится и кортеж. Атрибуты и как бы симметричны по отношению к .

При наличии MV-зависимости кортежи обязаны вставляться и удаляться одновременно целыми наборами.

Теорема Фейгина (R. Fagin) играет для многозначных зависимостей ту же роль, что теорема Хиса для функциональных зависимостей. Примем ее без доказательства.

Теорема Фейгина. Пусть - три непересекающиеся подмножества атрибутов отношения . Декомпозиция отношения г на проекции на множества атрибутов и будет декомпозицией без потерь тогда и только тогда, когда имеется многозначная зависимость .

Лекция 11. Четвертая и пятая нормальные формы

В лекции рассматриваются четвертая и пятая нормальные формы. Приводится окончательная схема нормализации БД. Даются определения альтернативных нормальных форм.

Цель : ввести понятие четвертой и пятой нормальных форм и обосновать необходимость их применения.

Для определения 4НФ необходимо ввести понятие многозначной зависимости (МЗ) , которое является обобщением понятия функциональной зависимости.

Пусть R – отношение, а A , B и C являются произвольными подмножествами множества атрибутов отношения R .

Тогда подмножество B многозначно зависит от подмножества А , что символически выражается следующей записью А →→ В (читается как «А многозначно определяет B »), тогда и только тогда, когда в каждом допустимом значении R множество значений B , соответствующее заданной паре значений А , C , зависит только от значения А и не зависит от значения C .

Рассмотрим отношение {CourseID , TeacherID , RoomID } со следующими ограничениями:

1. Любая дисциплина может вестись любым количеством преподавателей и в любом количестве кабинетов.

2. Преподаватели и кабинеты не зависят друг от друга.

3. Преподаватель может вести несколько разных дисциплин в разных кабинетах.

Из этих ограничений видно, что отношение получается избыточным, т.к. если существуют следующие два кортежа:

Таким образом, если мы хотим добавить информацию о том, что какую-то дисциплину может вести некоторый преподаватель, мы должны вставить столько записей, сколько кабинетов подходит для данной дисциплины.

Кроме того, можно легко проверить, что данное отношение находится в НФБК: если отношение находится в 1НФ и оно полностью ключевое (единственный потенциальный ключ состоит из всего множества атрибутов отношения), то можно утверждать, что оно находится в НФБК. Это объясняется тем, что неключевых атрибутов нет, а, следовательно, все требования 2НФ, 3НФ и НФБК выполняются автоматически.

Для нормализации отношения, нам требуется разбить его на два, но раньше мы производили декомпозицию на основе транзитивных ФЗ, здесь же все ФЗ тривиальны, т.е. все атрибуты напрямую зависят от первичного ключа. Необходимо определить способ декомпозиции данного отношения и доказать, что декомпозиция будет произведена без потерь.

Правило многозначной зависимости: для отношения R , в котором существуют подмножества множества атрибутов A , B , C , А →→ B тогда и только тогда, когда А →→ С . Обычно это записывают так: А →→ B | C .



Теорема Фейгина. Пусть А , B и С являются множествами атрибутов переменной отношения R {A , B , С }. В таком случае отношение R будет равно соединению его проекций по атрибутам {А , B } и {А , С } тогда и только тогда, когда для отношения R выполняется многозначная зависимость А →→ B | C .

Найдем все МЗ в нашем отношении:

· {CourseID } → {TeacherID }

· {CourseID } → {RoomID }

По теореме Фейгина мы можем произвести декомпозицию по этим двум МЗ и при этом никакая информация не будет потеряна. Получим два отношения: {CourseID , TeacherID } и {CourseID , RoomID }. Так как эти отношения полностью ключевые, то они находятся в НФБК.

Теперь, следуя теореме Фейгина, можно дать определение четвертой нормальной формы.

Многозначная зависимость и четвертая нормальная форма

В свое время было обращено внимание на то, что функциональных зависимостей недостаточно для представления в реляционной модели той семантики предметных областей, которая относится к характеристике связей объект-свойство. В связи с этим было введено понятие многозначной зависимости .

Мы не случайно представили эти атрибуты в виде иерархической структуры, так как именно она наиболее адекват­но отражает смысл связей между указанными атрибутами. У нас нет конкретной информации о связи преподавате­лей с учебниками, мы не знаем по какому учебнику тот или иной преподаватель излагает конкретную дисциплину. Тем не менее, при представлении этого отношения мы должны в каждом его кортеже указать значения всœех трех атрибутов (по крайней мере потому, что эти атрибуты составляют ключ, а значения ключевых атрибутов всœегда должны быть определœены). Единственным выходом из данной ситуации является следующий: если с предметом, к примеру БД, связаны преподаватели Иванов и Петров и учебники Основы БД, Введение в БД и Теория БД, то в отношении каждый из этих преподавателœей должен быть связан (ассоциирован) с каждым учебником, как это показано на примере ниже. Другого выхода нет.

ЛЕКЦИЯ Предмет Преподаватель Учебник
БД Иванов Основы БД
БД Иванов Введение в БД
БД Иванов Теория БД
БД Петров Основы БД
БД Петров Введение в БД
БД Петров Теория БД

Другими словами, мы должны констатировать следующую семантику связи между преподавателями и учебника­ми: "Данный предмет преподают такие-то преподаватели и для чтения лекций по этому предмету всœе они исполь­зу­­ю­т ВСЕ указанные учебники".

Мы здесь приходим к следующему тезису:

Тезис: В случае если в предметной области отсутствует какая-либо непосредственная связь между атри­бу­та­ми А и В, а нам по тем или иным причинам крайне важно зафиксировать такую связь в отношении, то единственным коррект­ным решением является установление, что всœе значения атрибута А связаны со всœеми значениями атрибута В, и наоборот.

Отметим, что независимость преподавателœей от учебников и наоборот, а также трактовка такой независимости согласно приведенному выше тезису свидетельствует, что в нашем отношении Лекции атрибуты Преподаватель и Учебники обладают следующим важным свойством:

Множество учебников, которые связаны с конкретным предметом, совпадает со множеством учебников, которые связаны с парой значений <предмет, преподаватель> (с предметом "БД" связаны три учебника, эти же три учебника связаны с парами значений <"БД","Иванов"> и <"БД","Петров">). И наоборот, множество преподавате­лей, которые связаны с конкретным предметом, совпадает с множеством преподавателœей, которые связаны с парой значений <предмет, учебник>.

Данное свойство является принципиальным в понимании многозначной зависимости.

Очевидно, что такое отношение избыточно и приводит к трудностям в выполнении операций манипу­ли­ро­ва­ния. Лектор входит в атрибут Преподаватель столько раз, сколько имеется учебников и об этом следует помнить вся­кий раз, производя операции вставки удаления и замены преподавателœей. То же самое имеет место и для учебников.

В связи с этим было введено понятие многозначной зависимости.

Определœение . Пусть задано отношение R с атрибутами (или наборами атрибутов) А, В, С. Говорят, что существует многозначная зависимость (multivalued dependecy ) В от А (или А многозначно определяет В), и это обозначается как А ®® В, в случае если при заданных значениях атрибутов из А существует множество связанных значений атрибутов из В и это множество В-значений не зависит каким-либо образом от значений атрибутов из С.

К примеру, в отношении ЛЕКЦИЯ атрибут Преподаватель многозначно зависит от атрибута Предмет (Предмет ®® Преподаватель) и атрибут Учебник многозначно зависит от Предмет (Предмет ®® Учебник).

Дадим формальное определœение многозначной зависимости. Пусть отношение R определœено на множестве атрибутов M и А, В – подмножества М, причем А и В могут пересекаться. Определим через В R (а) множество проекций кортежей отношения R по атрибутам В, которые связаны с конкретным кортежем, спроецированным по атрибутам А, то есть:

В R (а) = {b | $r Î R, r[A] = a & r[B] = b}

Пусть С = М – (А В). Тогда будем говорить, что В R (а) в R имеет место многозначная зависимость А ®® В, если

"ас Î R В R (аc) = В R (а)

Другими словами, совокупность значений атрибутов В, которая появляется в кортежах отношения R с хаданным значением а атрибутов А, появляется также с каждой комбинацией значений а и с Î С, ас Î R. Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, множество значений В для заданного а не зависит от значений С, появляющихся вместе с а.

По определœению А ®® Æ для любой совокупности атрибутов А из R. Более того всœеда имеет место А ®® В, в случае если R определœено только на множестве атрибутов А В. Эти два вида многозначных зависимостей называются тривиальными так как они присутствуют во любых отношениях.

Очевидно, что любая функциональная зависимость является многозначной, но не наоборот. Тем не менее, функциональные и многозначные зависимости существенно различаются. Функциональная зависимость А ® В определяется только через А и В, существование же многозначной зависимости А ®® В является свойством всœей совокупности атрибутов R.




Top