ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 03.02.2024
Просмотров: 19
Скачиваний: 0
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Министерство образования и науки Российской Федерации |
Частное учреждение образовательная организация высшего образования "Омская гуманитарная академия" |
Кафедра информатики, математики и естественнонаучных дисциплин
КУРСОВАЯ РАБОТА
на тему
OLAP технологии
по учебной дисциплине: Базы данных
Выполнил: Базаров Олжас Быкытжанович
Фамилия И.О.
Направление подготовки: прикладная информатика
Форма обучения: заочная____________
Работа защищена с оценкой: ____________________________
____________________________
Подпись Фамилия И.О.
“____”________________20___ г.
Омск, 2017
Оглавление
Введение3
1 Хранилища данных и OLAP5
1.1 Что такое Хранилище данных5
1.2. Многомерные хранилища данных10
1.3 Компоненты OLAP-систем14
2 OLAP18
2.1 Технология OLAP18
2.2 Сравнение технологий OLAP, OLTP и РБД21
2.3 Применение OLAP технологий при извлечении данных24
Заключение25
Список использованных источников27
Приложения29
Введение
Объемы данных в современном мире растут огромными темпами, поэтому оценить и проанализировать их должным образом без специального ИТ-инструментария, сегодня практически невозможно. Одним из основных компонентов решений Business Intelligence является OLAP (On-Line Analytical Processing), оперативный анализ данных, представляющий собой комплекс ИТ-решений, направленных на интерактивный анализ больших объемов информации.
Отличительным признаком OLAP-систем является представление данных в виде многомерных кубов. Вся информация бизнес-процесса систематизируется, разбивается на категории, которые в свою очередь преобразовываются в оси (измерения) многомерных кубов. Подобный подход позволяет предоставлять все данные в виде визуальных, интуитивно понятных двух- или трехмерных срезов таких кубов. Пользователь может самостоятельно выбирать срезы по тем или иным категориям, что позволяет совмещать, сравнивать и анализировать информацию по всевозможным направлениям, представленным в виде измерений сформированного куба. При этом каждое измерение может быть в свою очередь разбито на подизмерения в зависимости от рода информации.
Кубы, «наполненные» данными, предоставляют практически полную «свободу для творчества». Их можно «вращать» по своему усмотрению и «резать» во всех интересующих направлениях, «отсекая» всю лишнюю на данный момент информацию, быстро собирая воедино все нужные цифры и показатели.
История создания OLAP-систем восходит к 1962 году, когда Кен Айверсон опубликовал книгу «Язык программирования». Айверсон разработал первый язык, который давал возможность многомерного программирования. Уже в 1970году вышел первый программный продукт Express, позволяющий проводить многомерный анализ данных. Express до сих пор является одним из лидеров рынка OLAP, входя в состав Oracle9i Database. В 1992 году появился Essbase, который стал первым серьезным продуктом, занявшим прочные позиции на ИТ-рынке, а спустя год Эдгар Кодд ввел в обращение термин OLAP.
Первоначально OLAP использовался как профессиональное словечко, обозначающее принципиальное отличие от OLTP (On-Line Transaction Processing, Оперативная обработка транзакций). Буква T была заменена на A, что подчеркивало аналитические возможности OLAP в отличие от транзакционных характеристик технологии реляционных баз данных. Сегодня термин OLAP используется родовое понятие для различных технологий, включая системы поддержки принятия решений, Business Intelligence и управленческие информационные системы.
В данной курсовой работе мы рассмотрим технологию OLAP, ее достоинства и недостатки, а также сравним ее с другими технологиями для анализа данных.
1 Хранилища данных и OLAP
1.1 Что такое Хранилище данных
Хранилище данных (Data Warehouse) представляет собой центральное место, в которое направляются все сведения из разнообразных подразделений предприятия, и где они в дальнейшем будут храниться и накапливаться. Однако эта информация, не может поступать в такой центр необработанной, поскольку ее форма и структура могут не соответствовать конфигурационным параметрам хранилища данных. В таком случае требуется предварительное преобразование и первичная систематизация информации. Это осуществляется в транзакционной базе данных.
Перед тем, как информация будет использоваться в разнообразных целях, необходимо ее проанализировать и преобразовать в необходимый вид. А это потребует определенного времени и усилий, от качества организации которых зависит эффективность наполнения базы и результативность последующего использования информации.
В хранилище происходит интеграция данных, что предполагает необходимость подготовительных и адаптационных мероприятий:
- определяются различия и совместимость форматов информации, поступающей из разных, а иногда одних и тех же источников;
- осуществляется контроль за правильностью и корректностью заполнения всех блоков таблиц;
- планирование всех внутренних связей между отдельными элементами базы данных;
- разделение информации по степени ее полезности, приоритетности и важности для дальнейшего применения, что предопределяет корректировку внутренней конфигурации базы [5].
Управленческие решения принимаются на основе большого объема информации, которая поступает из разных источников и отражает разнообразные стороны описываемых объектов и процессов. Усложнение информации, необходимость ее своевременного поступления и обработки приводят к возникновению проблем управленческого характера. Информация может иметь вид, непригодный для использования, она может быть необъективной или неадаптированной под решение конкретной проблемы. В результате увеличиваются непроизводительные затраты времени, связанные с дополнительной обработкой и систематизацией данных, а также поиском требуемых сведений среди множества таблиц и отчетов.
Со временем оборот информации по предприятию возрастает настолько, что ни сама система, ни ее пользователи не справляются с ее обработкой. Возникают ошибки принятия решений, что ведет к дополнительным экономическим потерям.
Формирование хранилища данных представляет собой сложный процесс, который включает следующие этапы:
1) разработка планов проведения работ и конкретизация временных параметров исполнения;
2) определение цели систематизации данных и приведения их в единообразный вид;
3) группировка существующей информации с целью исключения накопления излишних данных, которые повторяют друг друга. Здесь выделяют:
- внешние обязательные отчеты, которые циркулируют в отношениях со сторонними организациями, в том числе органами государственного управления и контроля. Такие отчеты могут быть ежедневными ежемесячными, ежеквартальными и т.д., что требует четкой временной периодизации процесса обмена данными;
- внутренние целевые документы, которые подразделяются исходя из источника поступления – структурных подразделений предприятия;
4) комплексный анализ информации всех видов [9].
Размеры предприятия и объемы его деятельности постоянно изменяются. В условиях роста оборотов, числа клиентов и проданной продукции возникает необходимость постоянной адаптации баз данных к такому росту бизнеса. В то же время ее расширение не может проводиться бесконтрольно. Требуется последовательная модернизация хранилища данных. Такое изменение предполагает опытную загрузку дополнительной информации с последующим тестированием уровня работоспособности хранилища. Если система справится с потоком данных, а эффективность проводимых расчетов и экспериментов с применением загруженных данных будет высока, то можно будет утверждать о готовности хранилища к дальнейшей эксплуатации. Тестирование должно проводиться своевременно с целью оперативного выявления возможных
сбоев и проблем системы до того момента, как данные будут использоваться в текущей деятельности всего предприятия.
Если перед разработчиками ставится задача упростить процессы накопления и обмена информации, то первоначальным этапом становится планирование витрины данных по отдельным подразделениям. Цель такого моделирования хранилища сводится к проектированию упрощенного варианта базы с меньшим потоком информации и ограниченным объемом важных операций. Уровень подразделения предприятия является наиболее оптимальным выбором при тестировании. В результате информационная система делится на отдельные объекты. Взяв один отдельный элемент, проектировщики получают возможность конкретизировать технологию проектных мероприятий [14].
Проектирование базы данных может осуществляться на основе комплексного изучения особенностей действующей системы, оценки внутренних информационных связей в хранилище. Только после получения общего описания работающей системы можно начинать формировать новую базу.
Оптимальным вариантом является создание пилотного проекта хранилища в целом по предприятию, без выбора экспериментального полигона для испытаний. Здесь акцент ставится именно на структурные взаимосвязи внутри организационной структуры управления предприятием. Более того, модификация пилотного подразделения и других структурных элементов информационной системы должны быть учтены в полном объеме. Дополнительно оценивается влияние таких изменений на эффективность системы в целом. Все действия как по подразделению, так и по всей системе должны строго документироваться. В данном подходе есть важное преимущество – сама система взаимосвязей не упрощается. Наоборот, последовательно изучаются информационные связи отдельного подразделения, а затем оценивается их состояние с учетом отношений между подразделениями. Эффективность решения по формированию хранилища и отдельных его витрин значительно повышается.
Хранилище данных работает настолько результативно, насколько позволяет качество собранной в нем информации. Такие данные должны быть:
- полными;
- достоверными и объективными;
- соответствовать требованиям оптимальной систематизации;
- находиться под постоянным контролем в процессе формирования базы данных и ее развития.
В случае не выполнения указанных требований хранилище будет эксплуатироваться некорректно, а решения, которые будут приниматься на основе этих сведений, приведут к значительным экономическим потерям.
Следовательно, перед началом работ по проектированию Data Warehouse необходимо проверить качество данных. Делать это надо на уровне источников, т.е. сначала информация приводится в необходимый формат, а затем направляется в хранилище. Однако часто это требование не учитывается, а поэтому в процессе проектирования возникает необходимость обрабатывать не сочетающиеся друг с другом данные.
После того, как данные приведены к единому формату, необходимо спланировать систему защиты и безопасности информации. Поскольку доступ к хранилищу должен быть обеспечен большому числу пользователей, то важно решить две задачи проектирования:
- оптимально распределить доступ к хранилищу и исключить конфликт обращений;
- предотвратить возможные сбои системы и отказ в работе отдельных ее элементов.
Популярным способом регулирования доступа к данным и осуществления контроля за ним является назначение индивидуальным пользователям или их группам определенного статуса с различными полномочиями и объемом разрешенных функций. Необходимо установить запрет для большинства пользователей на изменение базы данных, ограничить доступ к заданным категориям данных, конкретизировать лиц, которые будут допущены к конфиденциальным сведениям [6].
Data Warehouse должно содержать исключительно актуальные сведения. Поэтому в нем надо предусмотреть возможность выведения части устаревших сведений в архивный раздел. Оценка такой актуальности проводится статистическим методом посредством отслеживания числа запросов, осуществленных к заданному сектору информации за конкретный период времени. Часто берется период пиковой загрузки, чтобы оценить устойчивость системы повышенной частоте обращений.
Цель хранилища не только в накоплении данных, но и обеспечении достоверной аналитической работы с этими данными. Информация различается по степени ценности для предприятия, часто не может быть опубликована в открытом доступе. Поэтому следует создать многоуровневую систему хранения с учетом различий в статусе пользователей и уровней конфиденциальности данных.
Эффективность работы хранилища зависит от уровня квалификации разработчика, его опыта и правильности формулирования технического задания. Перед проектировщиком должны быть поставлены конкретные задачи, учтены потребности в информации со стороны отдельных подразделений. Налаженность взаимосвязей разработчиков и сотрудников предприятия позволит правильно оценить необходимую конфигурацию базы данных и создать высокопроизводительное хранилище.