Учебное пособие разработано в соответствии с государственным образовательным стандартом высшего профессионального образования подготовки дипломированного специалиста 654600 «Информатика и вычислительная техника»

Скачать 2.89 Mb.

Название	Учебное пособие разработано в соответствии с государственным образовательным стандартом высшего профессионального образования подготовки дипломированного специалиста 654600 «Информатика и вычислительная техника»
страница	8/24
Дата публикации	16.09.2014
Размер	2.89 Mb.
Тип	Учебное пособие

literature-edu.ru > Информатика > Учебное пособие

1 ... 4 5 6 7 8 9 10 11 ... 24

3.2. Типовые модели данных СУБД

3.2.1. Иерархическая и сетевая модель данных

Иерархическая модель данных является наиболее простой среди всех моделей. Исторически она появилась первой среди всех моделей: именно эту модель поддерживает первая из зарегистрированных промышленных СУБД IMS фирмы IBM (1969 г).

Появление иерархической модели связано с тем, что в реальном мире очень многие связи соответствуют иерархии, когда один объект выступает как родительский, а с ним может быть связано множество подчиненных объектов. Иерархия проста и естественна в отображении взаимосвязи между классами объектов.

Иерархическая модель имеет дело с древовидными структурами, в которых объекты модели представлены узлами дерева и называются сегментами.

Рис. 3.3. Иерархическая модель данных
В модели 1 возникает избыточность, если хирург оперирует более одного пациента. Кроме того, возникают нежелательные явления, возникающие при работе с базой данных, которые называют аномалией.

Аномалия включения: В БД (модель 1) невозможно включить не оперировавшего хирурга.

Аномалия удаления: так как при удалении узла исключаются и все его подузлы, то при удалении хирурга из БД (модель 2) исчезают все его пациенты.
Иерархическая модель обладает следующими свойствами:

Существует корень. В базе столько деревьев, сколько объектов в ILM.
Узел содержит атрибуты.
Исходный и зависимый узлы находятся в отношении «непосредственный предок и потомок». Узлы добавляются горизонтально и вертикально.
Потомок соединен единственной связью с предком.
Предок может иметь несколько потомков.
Доступ к данным производится через предка.
Может существовать множество экземпляров узла.
При удалении узла удаляется все его поддерево.

Основной недостаток – невозможность реализации отношения «многие к многим» в рамках одной базы данных.

В сетевой модели отношение записей представляет собой граф, не имеющий циклов. Иерархическая модель может быть представлена как частный случай сетевой.

Сетевая модель основана на рекомендациях рабочей группы по базам данных КОДАСИЛ (CODASYL) (1969-1978 гг.).

Согласно рекомендациям, база данных делится на области, те – на записи, состоящие из полей. С другой стороны, база состоит из наборов, а те – из записей (рис. 3.4).

Связь «пациент-операция» означает «пациент перенес операцию», «хирург-операция» – «хирург выполнил операцию».

Отношение «пациент-хирург» – это отношение M:N, и для его реализации вводится добавочный связующий файл. При этом объекты пациент и хирург объявляются владельцами набора, а операция – членом набора. Наборы-владельцы (ключевые наборы - хэш таблицы), как и наборы-члены (детальные наборы) реализованы в виде отдельных файлов, структура которых различна.

Рис. 3.4. Сетевая модель данных

Достоинства

Реализуется отношение "многие к многим".
Высокая производительность.

Недостатки

Основной недостаток сетевой модели – трудность реорганизации базы данных, то есть изменения ее структуры. Обычно реорганизация требует выгрузки данных с последующей их загрузкой в БД с новой структурой. При этом важно не только не потерять данные, но и корректно определить ссылки, в противном случае часть информации будет недоступной.

Для организации физического размещения сетевых и иерархических данных в памяти ЭВМ могут использоваться следующие группы методов:

представление линейным списком с последовательным распределением памяти;
представление связными линейными списками (методы, использующие указатели и справочники).

Геометрически сетевая модель изоморфна графу, каждая связанная компонента которого отражает определенный тип набора, а вершинам графа соответствуют типы записей.

Иерархическая модель геометрически изоморфна дереву, и является частным случаем сетевой модели.

3.2.2. Реляционная и постреляционная модель данных

Реляционная модель (как и любая рассмотренная выше и ниже) предназначена для отображения ILM в концептуальную модель СУБД. Если реализация СУБД позволяет четко разграничить логические и физические аспекты доступа и управления БД, использует алгебраическую систему (<�носитель, множество операций>) как основы концептуальной схемы, то ее принято относить к СУБД реляционного типа.

Если теоретическая основа алгебраических систем принадлежит A. И. Мальцеву (Алгебраические системы. – М.: Наука.- 1970), то создателем реляционной модели является Э.Ф. Кодд.

Для сетевой и иерархической модели носителем является набор и сегмент соответственно.

В качестве носителя (структурной единицы) в реляционной модели выбрано отношение (relation) n-го порядка: при соответствующих операторах (реализованных в SQL или QBE) и концептуальном представлении в виде таблиц оно позволяет приблизиться к реализации принципа независимости данных.

Отношение n-го порядка – математическое множество, в котором порядок строк не имеет значения. Заметим, что понятие реляционная БД несколько шире, чем табличная: во втором случае предполагается, что к строке можно добраться по номеру, следовательно, порядок строк имеет значение. Традиционно позиционирование данных определялось адресами в памяти, в реляционной модели адресный способ выбора данных заменен ассоциативным. Каждая единица информации в реляционных БД ассоциируется с уникальной тройкой: именем отношения, значением ключа, именем атрибута (рис.3.5). При таком подходе закладывается непроцедурный путь доступа к данным.

Напомним, что модель данных – это не только структура, это комбинация, по крайней мере, трех составляющих:

типов структур данных,
операций (правил вывода), применимых к структурным типам данных,
правил целостности, которые определяют множество непротиворечивых состояний БД и множество изменений ее состояний.

Структурная часть реляционной модели состоит из следующих компонент:

доменов – совокупности однотипных значений данных, которые совместимы в семантическом плане,
отношений n-го порядка, концептуально представленных таблицами,
атрибутов – атомарных данных, определяющих столбцы таблицы, т.е. среди значений домена не могут содержаться множества (отношения),
кортежей – строк таблицы,
потенциальных (возможных) ключей – атрибутов, однозначно определяющих кортеж в отношении,
первичных ключей – для отношения это один из возможных ключей.

Для каждого отношения, по крайней мере, полный набор его атрибутов является первичным ключом. Атрибуты, представляющие собой копии ключей других отношений, называются внешними ключами.

Достоинства.

простота и доступность для понимания;
объекты и связи представляются единым образом в виде отношений (плоских таблиц);
встроенная оптимизация реализации алгоритмов поиска данных;
наличие формального аппарата конструирования концептуальной модели и способов поиска данных (реляционная алгебра и реляционное исчисление).

Рис. 3.5. Таблица СОТРУДНИК
Отметим, что набор отношений составляющих схему реляционной модели должен быть нормализован (см. следующий раздел).

Реляционная модель с геометрической точки зрения также соответствует графу, вершинами которого являются хранимые отношения, а ребра графа ассоциированы с ключами хранимых отношений.
Постреляционная модель данных представляет собой расширенную реляционную модель, в которой отменено требование атомарности атрибутов.

Достоинством постреляционной модели является возможность представления совокупности связанных реляционных таблиц одной постреляционной таблицей. Это обеспечивает высокую наглядность представления информации и повышение эффективности ее обработки.

Недостатком постреляционной модели является сложность решения проблемы обеспечения целостности и непротиворечивости хранимых данных.
Существует несколько коммерческих постреляционных СУБД, самыми известными из которых являются системы Adabas, ORD и Universe.

3.2.3. Многомерная модель данных

В развитии концепций ИС можно выделить следующие два направления:

системы транзакционной (оперативной) обработки (OLTP - On-Line Transaction Processing. Ежедневные операции: покупки, заказы, производство, регистрация и т.п.);
системы аналитической обработки (системы поддержки принятия решений) OLAP - On-Line Analytical Processing.

Реляционные модели, рассмотренные ранее, предназначались для информационных систем оперативной обработки информации.

В основе концепции OLAP - лежит многомерное представление данных. Термин OLAP ввел Кодд (E. F. Codd) в 1993 году. В своей статье он рассмотрел недостатки реляционной модели, в первую очередь невозможность "объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом", и определил общие требования к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик.

"Сервер OLAP" — не определяют физического механизма хранения данных.

Хотя часто в публикациях аббревиатурой OLAP обозначается не только многомерный взгляд на данные, но и хранение самих данных в многомерной БД.

Многомерное концептуальное представление является естественным взглядом управляющего персонала на объект управления. Оно представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям данных определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению.

Многомерные СУБД (МБД) являются узкоспециализированными СУБД, предназначенными для интерактивной аналитической обработки информации.

Раскроем основные понятия, используемые в этих СУБД: агрегируемость, историчность и прогнозируемость данных.

Агрегируемость данных означает рассмотрение информации на различных уровнях ее обобщения. В ИС степень детальности представления информации для пользователя зависит от его уровня: аналитик, руководитель, оператор.

Историчность данных предполагает обеспечение высокого уровня статичности (неизменности) собственно данных и их взаимосвязей, а также обязательность привязки данных ко времени.

Статичность данных позволяет использовать при их обработке специализированные методы загрузки, хранения, индексации и выборки.

Временная привязка данных необходима для частого выполнения запросов, имеющих значения времени и даты в составе выборки. Необходимость упорядочения данных по времени в процессе обработки и представления данных пользователю, накладывает требования на механизмы хранения и доступа к информации. Так, для уменьшения времени обработки запросов желательно, чтобы данные всегда были отсортированы в том порядке, в котором они наиболее часто запрашиваются.

Прогнозируемость данных подразумевает задание функций прогнозирования и применение их к различным временным интервалам.

Многомерность модели данных обеспечивают многомерное логическое представление структуры информации при ее описании и в операциях манипулирования данными.

По сравнению с реляционной моделью многомерная организация данных обладает более высокой наглядностью и информативностью. Для иллюстрации на рис. 3.7 приведено реляционное представления одних и тех же данных агрегированных в многомерной модели рис. 3.6.

Рис. 3.6. Многомерная модель. Вариант агрегации данных по Avg (среднее)

Рис. 3.7. Реляционная модель и многомерная модель.
Если речь идет о многомерной модели с размерностью больше двух, то не обязательно визуально информация представляется в виде многомерных объектов (трех-, четырех- и более мерных гиперкубов). Пользователю и в этих случаях более удобно иметь дело с двухмерными таблицами или графиками. Данные при этом представляют собой «вырезки» (точнее, «срезы») из многомерного хранилища данных, выполненные с разной степенью детализации.
Рассмотрим основные понятия многомерных моделей данных, к числу которых относятся измерение и ячейка.

Измерение (Dimension) – это множество однотипных данных, образующих одну из граней гиперкуба. Примерами наиболее часто используемых временных измерений являются Дни, Месяцы, Кварталы и Годы. В качестве географических измерений широко употребляются Города, Районы, регионы и Страны. В многомерной модели данных измерения играют роль индексов, служащих для идентификации конкретных значений в ячейках гиперкуба.

Ячейка (Cell) или показатель – это поле, значение которого однозначно определяется фиксированным набором измерений. Тип поля чаще всего определен как цифровой. В зависимости от того, как формируются значения некоторой ячейки, обычно она может быть переменной (значения изменяются и могут быть загружены из внешнего источника данных или сформированы программно) либо формулой (значения, подобно формульным ячейкам электронных таблиц, вычисляются по заранее заданным формулам).
В существующих МБД используются два основных варианта (схемы) организации данных: гиперкубическая и поликубическая.
В поликубической схеме предполагается, что в БД может быть определено несколько гиперкубов с различной размерностью и с различными измерениями в качестве граней. Примером системы, поддерживающей поликубический вариант БД, является сервер Oracle Express Server.

В случае гиперкубической схемы предполагается, что все показатели определяются одним и тем же набором измерений. Это означает, что при наличии нескольких гиперкубов БД все они имеют одинаковую размерность и совпадающие измерения. Очевидно, в некоторых случаях информация в БД может быть избыточной (если требовать обязательное заполнение ячеек).

В случае многомерной модели данных применяется ряд специальных операций: формирование «среза», «вращение», агрегация и детализация.

 Roll up: агрерация данных: по иерархии(-ям) до полного исключения измерения.

 Drill down: детализация: от обощенных данных к более детальным, от верхних уровней измерений – к нижним, детализация данных по дополнительным измерениям.

 Slice and dice: проекции и выборки – выборка нужных элементов кубика

 Pivot (rotate): вращение куба, визуализация, выборка и ориентация одно-, двух-, трехмерных срезов для визуального анализа.

 Другие операции:

drill across: кросс-детализация (условно – смена кубов при drilldown).
drill through: переход с самого нижнего уровня детализации OLAP-куба, к фактам из выбранной ячейки (из исходной реляционной таблицы).

«Срез» (Slice) представляет собой подмножество гиперкуба, полученное в результате фиксации одного или нескольких измерений. Формирование «срезов» выполняется для ограничения используемых пользователем значений, так как все значения гиперкуба практически никогда одновременно не используются.

Операция «вращение» (Rotate) применяется при двухмерном представлении данных. Суть ее заключается в изменении порядка измерений при визуальном представлении данных. Так, «вращение» двухмерной таблицы, показанной на рис. 3.7, приведет к изменению ее вида таким образом, что по оси X будут показаны предметы, а по оси Y – студенты.

Операцию «вращение» можно обобщить и на многомерный случай, если под ней понимать процедуру изменения порядка следования измерений. В простейшем случае, например, это может быть взаимная перестановка двух произвольных измерений.

Операции «агрегация» (Drill Up) и «детализация» (Drill Down) означают соответственно переход к более общему и к более детальному представлению информации пользователю из гиперкуба.

Основным достоинством многомерной модели данных является удобство и эффективность аналитической обработки больших объемов данных, связанных со временем. Недостатком многомерной модели данных является ее громоздкость для простейших задач обычной оперативной обработки информации.

Примерами систем, поддерживающих многомерные модели данных, являются Essbase (Arbor Software), Media Multi-matrix (Speedware), Oracle Express Server (Oracle) и Cache (InterSystems).
Вопросы для самоконтроля

1. Дайте определение модели данных БД

2. Назовите и раскройте суть основных компонентов модели данных.

3. Зачем нужна ILM и чем она отличается от концептуальной модели?

4. Перечислите основные типы моделей данных?

5. Что такое данные и тип данных?

6. Поясните, что Вы понимаете под информацией в БД?

7. Что такое гипертекстоваая БД и в каком формате она представлена?

8. Что такое OLTP и OLAP БД?

9. Назовите и раскройте суть основных операций МБД.

10. Что такое измерение в многомерной модели?

11. Назовите критерии использования OLTP и OLAP.

12. Что такое отношение?

13. Поясните, что Вы понимаете под постреляционной БД?

14. Назовите СУБД, ориентированные на реляционную модель данных.

15. Что такое кортеж?

16. Что такое кординальное число и степень отношения?

17. Определите понятие домена и атрибута?

1 ... 4 5 6 7 8 9 10 11 ... 24

	Рабочая программа по дисциплине «физическая география» Разработана в соответствии с государственным образовательным стандартом высшего профессионального образования «Государственные требования...		Высшего профессионального образования институт иностранных языков Требования к обязательному минимуму содержания и уровню подготовки выпускника вуза, предъявляемые Федеральным Государственным образовательным...
	Институт иностранных языков Требования к обязательному минимуму содержания и уровню подготовки выпускника вуза, предъявляемые Государственным образовательным...		Рабочая программа дисциплины основы искусственного интеллекта Программа составлена в соответствии с Государственным образовательным стандартом высшего профессионального образования по педагогическим...
	Высшего профессионального образования Направление подготовки дипломированного специалиста утверждено приказом Министерства образования Российской Федерации от 02. 03....		Программа по дисциплине Иностранный язык (английский) Государственным образовательным стандартом высшего профессионального образования и государственными требованиями к минимуму содержания...
	Программа дисциплины «География» федерального компонента цикла опд... Гоу впо тобольская государственная социально-педагогическая академия им. Д. И. Менделеева		Дипломированного специалистА Направление подготовки дипломированного специалиста утверждено приказом Министерства образования Российской Федерации от 02. 03....
	Дипломированного специалиста Направление подготовки дипломированного специалиста утверждено приказом Министерства образования Российской Федерации от 02 марта...		Пояснительная записка Программа дисциплины «Технология производства первичных фонограмм» Программа дисциплины «Технология производства первичных фонограмм» федерального компонента сд составлена в соответствии с государственным...

3.2. Типовые модели данных СУБД

3.2.1. Иерархическая и сетевая модель данных

3.2.2. Реляционная и постреляционная модель данных

3.2.3. Многомерная модель данных

Похожие: