Файл: Olap технологии по учебной дисциплине.doc

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 03.02.2024

Просмотров: 19

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Министерство образования и науки Российской Федерации

Частное учреждение образовательная организация высшего образования
"Омская гуманитарная академия"

Кафедра информатики, математики и естественнонаучных дисциплин

КУРСОВАЯ РАБОТА

на тему

OLAP технологии

по учебной дисциплине: Базы данных


Выполнил: Базаров Олжас Быкытжанович

Фамилия И.О.

Направление подготовки: прикладная информатика

Форма обучения: заочная____________

Работа защищена с оценкой: ____________________________

____________________________

Подпись Фамилия И.О.

“____”________________20___ г.

Омск, 2017

Оглавление
Введение3

1 Хранилища данных и OLAP5

1.1 Что такое Хранилище данных5

1.2. Многомерные хранилища данных10

1.3 Компоненты OLAP-систем14

2 OLAP18

2.1 Технология OLAP18

2.2 Сравнение технологий OLAP, OLTP и РБД21

2.3 Применение OLAP технологий при извлечении данных24

Заключение25

Список использованных источников27

Приложения29

Введение
Объемы данных в современном мире растут огромными темпами, поэтому оценить и проанализировать их должным образом без специального ИТ-инструментария, сегодня практически невозможно. Одним из основных компонентов решений Business Intelligence является OLAP (On-Line Analytical Processing), оперативный анализ данных, представляющий собой комплекс ИТ-решений, направленных на интерактивный анализ больших объемов информации.

Отличительным признаком OLAP-систем является представление данных в виде многомерных кубов. Вся информация бизнес-процесса систематизируется, разбивается на категории, которые в свою очередь преобразовываются в оси (измерения) многомерных кубов. Подобный подход позволяет предоставлять все данные в виде визуальных, интуитивно понятных двух- или трехмерных срезов таких кубов. Пользователь может самостоятельно выбирать срезы по тем или иным категориям, что позволяет совмещать, сравнивать и анализировать информацию по всевозможным направлениям, представленным в виде измерений сформированного куба. При этом каждое измерение может быть в свою очередь разбито на подизмерения в зависимости от рода информации.


Кубы, «наполненные» данными, предоставляют практически полную «свободу для творчества». Их можно «вращать» по своему усмотрению и «резать» во всех интересующих направлениях, «отсекая» всю лишнюю на данный момент информацию, быстро собирая воедино все нужные цифры и показатели.

История создания OLAP-систем восходит к 1962 году, когда Кен Айверсон опубликовал книгу «Язык программирования». Айверсон разработал первый язык, который давал возможность многомерного программирования. Уже в 1970году вышел первый программный продукт Express, позволяющий проводить многомерный анализ данных. Express до сих пор является одним из лидеров рынка OLAP, входя в состав Oracle9i Database. В 1992 году появился Essbase, который стал первым серьезным продуктом, занявшим прочные позиции на ИТ-рынке, а спустя год Эдгар Кодд ввел в обращение термин OLAP.

Первоначально OLAP использовался как профессиональное словечко, обозначающее принципиальное отличие от OLTP (On-Line Transaction Processing, Оперативная обработка транзакций). Буква T была заменена на A, что подчеркивало аналитические возможности OLAP в отличие от транзакционных характеристик технологии реляционных баз данных. Сегодня термин OLAP используется родовое понятие для различных технологий, включая системы поддержки принятия решений, Business Intelligence и управленческие информационные системы.

В данной курсовой работе мы рассмотрим технологию OLAP, ее достоинства и недостатки, а также сравним ее с другими технологиями для анализа данных.
1 Хранилища данных и OLAP

1.1 Что такое Хранилище данных
Хранилище данных (Data Warehouse) представляет собой центральное место, в которое направляются все сведения из разнообразных подразделений предприятия, и где они в дальнейшем будут храниться и накапливаться. Однако эта информация, не может поступать в такой центр необработанной, поскольку ее форма и структура могут не соответствовать конфигурационным параметрам хранилища данных. В таком случае требуется предварительное преобразование и первичная систематизация информации. Это осуществляется в транзакционной базе данных.

Перед тем, как информация будет использоваться в разнообразных целях, необходимо ее проанализировать и преобразовать в необходимый вид. А это потребует определенного времени и усилий, от качества организации которых зависит эффективность наполнения базы и результативность последующего использования информации.

В хранилище происходит интеграция данных, что предполагает необходимость подготовительных и адаптационных мероприятий:



- определяются различия и совместимость форматов информации, поступающей из разных, а иногда одних и тех же источников;

- осуществляется контроль за правильностью и корректностью заполнения всех блоков таблиц;

- планирование всех внутренних связей между отдельными элементами базы данных;

- разделение информации по степени ее полезности, приоритетности и важности для дальнейшего применения, что предопределяет корректировку внутренней конфигурации базы [5].

Управленческие решения принимаются на основе большого объема информации, которая поступает из разных источников и отражает разнообразные стороны описываемых объектов и процессов. Усложнение информации, необходимость ее своевременного поступления и обработки приводят к возникновению проблем управленческого характера. Информация может иметь вид, непригодный для использования, она может быть необъективной или неадаптированной под решение конкретной проблемы. В результате увеличиваются непроизводительные затраты времени, связанные с дополнительной обработкой и систематизацией данных, а также поиском требуемых сведений среди множества таблиц и отчетов.

Со временем оборот информации по предприятию возрастает настолько, что ни сама система, ни ее пользователи не справляются с ее обработкой. Возникают ошибки принятия решений, что ведет к дополнительным экономическим потерям.

Формирование хранилища данных представляет собой сложный процесс, который включает следующие этапы:

1) разработка планов проведения работ и конкретизация временных параметров исполнения;

2) определение цели систематизации данных и приведения их в единообразный вид;

3) группировка существующей информации с целью исключения накопления излишних данных, которые повторяют друг друга. Здесь выделяют:

- внешние обязательные отчеты, которые циркулируют в отношениях со сторонними организациями, в том числе органами государственного управления и контроля. Такие отчеты могут быть ежедневными ежемесячными, ежеквартальными и т.д., что требует четкой временной периодизации процесса обмена данными;

- внутренние целевые документы, которые подразделяются исходя из источника поступления – структурных подразделений предприятия;

4) комплексный анализ информации всех видов [9].

Размеры предприятия и объемы его деятельности постоянно изменяются. В условиях роста оборотов, числа клиентов и проданной продукции возникает необходимость постоянной адаптации баз данных к такому росту бизнеса. В то же время ее расширение не может проводиться бесконтрольно. Требуется последовательная модернизация хранилища данных. Такое изменение предполагает опытную загрузку дополнительной информации с последующим тестированием уровня работоспособности хранилища. Если система справится с потоком данных, а эффективность проводимых расчетов и экспериментов с применением загруженных данных будет высока, то можно будет утверждать о готовности хранилища к дальнейшей эксплуатации. Тестирование должно проводиться своевременно с целью оперативного выявления возможных
сбоев и проблем системы до того момента, как данные будут использоваться в текущей деятельности всего предприятия.

Если перед разработчиками ставится задача упростить процессы накопления и обмена информации, то первоначальным этапом становится планирование витрины данных по отдельным подразделениям. Цель такого моделирования хранилища сводится к проектированию упрощенного варианта базы с меньшим потоком информации и ограниченным объемом важных операций. Уровень подразделения предприятия является наиболее оптимальным выбором при тестировании. В результате информационная система делится на отдельные объекты. Взяв один отдельный элемент, проектировщики получают возможность конкретизировать технологию проектных мероприятий [14].

Проектирование базы данных может осуществляться на основе комплексного изучения особенностей действующей системы, оценки внутренних информационных связей в хранилище. Только после получения общего описания работающей системы можно начинать формировать новую базу.

Оптимальным вариантом является создание пилотного проекта хранилища в целом по предприятию, без выбора экспериментального полигона для испытаний. Здесь акцент ставится именно на структурные взаимосвязи внутри организационной структуры управления предприятием. Более того, модификация пилотного подразделения и других структурных элементов информационной системы должны быть учтены в полном объеме. Дополнительно оценивается влияние таких изменений на эффективность системы в целом. Все действия как по подразделению, так и по всей системе должны строго документироваться. В данном подходе есть важное преимущество – сама система взаимосвязей не упрощается. Наоборот, последовательно изучаются информационные связи отдельного подразделения, а затем оценивается их состояние с учетом отношений между подразделениями. Эффективность решения по формированию хранилища и отдельных его витрин значительно повышается.

Хранилище данных работает настолько результативно, насколько позволяет качество собранной в нем информации. Такие данные должны быть:

- полными;

- достоверными и объективными;

- соответствовать требованиям оптимальной систематизации;

- находиться под постоянным контролем в процессе формирования базы данных и ее развития.


В случае не выполнения указанных требований хранилище будет эксплуатироваться некорректно, а решения, которые будут приниматься на основе этих сведений, приведут к значительным экономическим потерям.

Следовательно, перед началом работ по проектированию Data Warehouse необходимо проверить качество данных. Делать это надо на уровне источников, т.е. сначала информация приводится в необходимый формат, а затем направляется в хранилище. Однако часто это требование не учитывается, а поэтому в процессе проектирования возникает необходимость обрабатывать не сочетающиеся друг с другом данные.

После того, как данные приведены к единому формату, необходимо спланировать систему защиты и безопасности информации. Поскольку доступ к хранилищу должен быть обеспечен большому числу пользователей, то важно решить две задачи проектирования:

- оптимально распределить доступ к хранилищу и исключить конфликт обращений;

- предотвратить возможные сбои системы и отказ в работе отдельных ее элементов.

Популярным способом регулирования доступа к данным и осуществления контроля за ним является назначение индивидуальным пользователям или их группам определенного статуса с различными полномочиями и объемом разрешенных функций. Необходимо установить запрет для большинства пользователей на изменение базы данных, ограничить доступ к заданным категориям данных, конкретизировать лиц, которые будут допущены к конфиденциальным сведениям [6].

Data Warehouse должно содержать исключительно актуальные сведения. Поэтому в нем надо предусмотреть возможность выведения части устаревших сведений в архивный раздел. Оценка такой актуальности проводится статистическим методом посредством отслеживания числа запросов, осуществленных к заданному сектору информации за конкретный период времени. Часто берется период пиковой загрузки, чтобы оценить устойчивость системы повышенной частоте обращений.

Цель хранилища не только в накоплении данных, но и обеспечении достоверной аналитической работы с этими данными. Информация различается по степени ценности для предприятия, часто не может быть опубликована в открытом доступе. Поэтому следует создать многоуровневую систему хранения с учетом различий в статусе пользователей и уровней конфиденциальности данных.

Эффективность работы хранилища зависит от уровня квалификации разработчика, его опыта и правильности формулирования технического задания. Перед проектировщиком должны быть поставлены конкретные задачи, учтены потребности в информации со стороны отдельных подразделений. Налаженность взаимосвязей разработчиков и сотрудников предприятия позволит правильно оценить необходимую конфигурацию базы данных и создать высокопроизводительное хранилище.