ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 03.02.2024
Просмотров: 20
Скачиваний: 0
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
1.2. Многомерные хранилища данных
Работа с информацией, которая поступает в любую базу данных и в последующем подлежит систематизации, связана с всесторонней обработкой данных. В результате информация приобретает вид, позволяющий проводить аналитические расчеты. Но для этого необходимо сформировать на основе выборки ряд показателей, сведенных к набору числовых атрибутивов (Таблица 1).
Таблица 1 – Таблица данных
Страна | Товар | Год | Объем продаж |
Аргентина | Бытовая электроника | 1988 | 105 |
Аргентина | Бытовая электроника | 1989 | 117 |
Аргентина | Бытовая электроника | 1990 | 122 |
Аргентина | Резиновые изделия | 1989 | 212 |
Аргентина | Резиновые изделия | 1990 | 217 |
Бразилия | Бытовая электроника | 1988 | 313 |
Бразилия | Бытовая электроника | 1989 | 342 |
Бразилия | Бытовая электроника | 1990 | 337 |
Бразилия | Резиновые изделия | 1988 | 515 |
Бразилия | Резиновые изделия | 1989 | 542 |
Бразилия | Резиновые изделия | 1990 | 566 |
Венесуэла | Бытовая электроника | 1988 | 94 |
Венесуэла | Бытовая электроника | 1989 | 96 |
Венесуэла | Бытовая электроника | 1990 | 102 |
Венесуэла | Резиновые изделия | 1988 | 153 |
Венесуэла | Резиновые изделия | 1989 | 147 |
Венесуэла | Резиновые изделия | 1990 | 162 |
Существует несколько методов решения данной задачи. Они имеют свои преимущества и недостатки. Но наиболее часто применимым является табличный метод.
В таблице выделяется комплекс атрибутивов и соответствующие им массивы числовых данных. Могут выделяться следующие атрибутивы - «Страна», «Год» и «Товар», с которыми соотносятся показатели продаж. Назначение таблицы в данном случае состоит в обеспечении наилучшей визуализации данных для последующего определения связей между атрибутивами и числовыми данными. Благодаря оценке взаимосвязей и сопоставлению их, можно сформировать трехмерные массивы в следующих измерениях: страны, годы и товары. Этот трехмерный характер представления позволяет выделить сегменты, которые обладают наибольшим значением числового параметра, т.е. максимальным показателем объема продаж. Более того, можно произвести ранжирование сегментов по степени обладания заданными параметрами, а также выделить те, в которых нет данных по исследуемым показателям. Например, отсутствие данных по объемам продаж в Аргентине в 1988 г. выделено серым цветом [17].
При анализе сформированных массивов обращает на себя внимание массив OLAP. Он носит название куба, хотя с математической точки зрения данный массив может не соответствовать этой характеристике. Здесь имеет место равенство в числе элементов по каждому из измерений. В то же время ограничения в показателях для кубов OLAP отсутствуют, поэтому реальная их конфигурация может варьироваться от двухмерных вариантов до многомерных. Определяющим фактором выступают целевые ориентиры и задачи, которые поставлены перед аналитиком.
Параметры измерений в кубах задаются соответствующими метками или членами куба (members) – измерению «Страна» соответствуют метки «Бразилия», «Аргентина», «Венесуэла». При этом, как уже было отмечено, отдельные фрагменты куба могут не иметь числовых показателей – Аргентина в 1988 г. Такая ячейка пустует. Исключение пустой ячейки из куба недопустимо, ведь в этом случае сами данные и их восприятие будут искажены. Поэтому пустая ячейка сохраняет статус элемента куба и получает соответствующую отметку, означающую отсутствие информации. А для решения данной задачи в конфигурацию закладываются соответствующие резервы памяти и вакуумный принцип хранения многомерных данных.
Для лучшего понимания конфигурационных особенностей многомерных массивов данных и моделей необходимо представить основные их составляющие:
1. Показатель – числовое выражение заданной величины, например размер прибыли, число потребителей, объем продаж. Эти числовые выражения подлежат анализу, а сам куб OLAP дает возможность работы по нескольким показателям.
2. Измерение – строгая иерархическая структура объектов. Эти объекты могут быть одинаковыми или отличаться друг от друга. Благодаря измерению, числовые показатели приобретают информационное значение. Визуализация структуры объектов достигается за счет формирования куба с признаками многомерности [12].
3. Объекты, по которым строится измерение или образуются соответствующие члены. Представление объектов в интегрированном виде обеспечивается за счет создания точек или блоков на осях этого куба. По временному параметру выделяют Дни, Месяцы, Кварталы или Годы. Внутри каждого измерения откладываются временные точки, например 8 мая 2002 г., 2-ой квартал 2002 г., май 2002 г. или 2002 г. Наличие отдельных членов в измерении позволяет строить аналитическую работу с последующим вычленением пространственно-временных связей. Но и сами объекты в измерениях часто различаются, что требует глубокого их структурирования и выделения уровней, в которых будут компоноваться объекты с одинаковым иерархическим значением.
4. Ячейки (cell) – они соотносятся с отдельными значениями показателей. Ячейки находятся внутри куба и представляют заданные числовые показатели.
Благодаря измерениям, существует возможность идентифицировать любые показатели, которые наполняют ту или иную ячейку. Кроме того, члены измерений могут комбинироваться друг с другом, а, значит, задавать многомерные координаты при поиске нужных значений (Рис 4). В то же время, если при структурировании какой-либо комбинации участвуют все члены измерения, то ссылка будет вести на несколько ячеек. Для однозначности выполнения поставленной задачи требуется указание как членов измерения, так и самого показателя.
Иногда реалистичность измерения нарушается. Это связано с фактическим отсутствием заданного атрибутива и невозможности существования искомого показателя. Например, если предприятие не работало в 2001 г. на рынке Московской области, то соответствующий показатель «Объем продаж» будет отсутствовать, а ячейка окажется пустой [15].
При помощи построения иерархических связей обеспечивается систематизация данных, что в последующем позволяет проводить их детальный анализ и сопоставление. В связи с этим целесообразно выделить следующие типы иерархий:
1. Иерархии сбалансированного типа (balanced), имеющие четкую структуру, которая задает необходимое число уровней. На каждом таком уровне есть некоторое число соответствующих именно ему объектов. Если банковское учреждение выдает несколько кредитов по целевому назначению, а внутри каждого типа кредита есть несколько кредитных программ, то будет сформирована трехмерная иерархия: банк, кредит, кредитная программа. Кроме того, в рамках такой иерархии формируются связи между объектами, имеющими различную степень детализации. Это приводит к упорядочению уровней, каждый из которых приобретает конфигурацию простого измерения. Более высокая степень разреженности куба в такой ситуации будет связана с появлением связей между измерениями с элементами обоюдной зависимости [10].
2. Иерархии несбалансированного типа (unbalanced). Структура и число уровней в них может меняться. На каждой «ветви» иерархии находятся как однотипные объекты одного уровня, так и однотипные объекты разных уровней. В иерархической связи «начальник – подчиненный» все объекты будут относиться к одному типу «Сотрудник».
3) Неровные иерархии (balanced), в которых число уровней определяется по постоянной структуре, но в отличие от сбалансированной иерархии, некоторые ветки «дерева» не содержат объекты, относящиеся к конкретному уровню. Иерархии такого типа содержат члены или логические «родители», находящиеся на вышестоящем уровне. В качестве типичного примера географической иерархии можно привести уровни, - «Города», «Страны», «Штаты». При этом в наборе их данных будут присутствовать страны без штатов или регионов между уровнями «Города» и «Страны» [2].
Агрегаты – это агрегированные по определенным условиям значения исходных показателей. Под агрегацией обычно понимается любая процедура формирования меньшего количества показателей на основе множества исходных значений.
Под терминами агрегация и агрегирование понимается процесс суммирования данных. Заблаговременное формирование, а также сохранение агрегатов для уменьшения времени отклика на запрос пользователя, является важнейшим свойством системы поддержки оперативного анализа.
1.3 Компоненты OLAP-систем
OLAP-системы относятся к многокомпонентному типу с четким иерархическим построением. Внутри системы выделяют:
- источник информации;
- сервер OLAP;
- программу-клиент.
Из источника информации все данные поступают на сервер OLAP для их систематизации и обработки. Здесь разрозненные данные структурируются и приобретают вид, которые соответствуют требованиям запроса. В результате появляется возможность корректного ответа на него. Запрос пользователя формируется посредством программы-клиента. Эта программа наделена возможностями интерфейса сервера OLAP.
Таким образом, возможность анализа информации обеспечивается за счет корректного поступления данных с сервера OLAP. Поскольку управленческие решения принимаются на основе сложной и разнообразной информации, то все продукты OLAP должны ориентироваться на работу с данными, которые поступают из различных источников [20].
Благодаря наличию такой прикладной составляющей системы, как сервер, создается возможность не только накапливать и хранить информацию, но и ее обрабатывать, проводить аналитические действия. Сложность работы системы связана и с тем, что она обладает и входом, и выходом. Это проявляется в наличии пользовательских запросов, существовании доступа к данным лицами, имеющими различный статус. Поэтому архитектура сервера может быть различной и определяться несколькими основными концепциями.
Все продукты OLAP используют базы данных двух видов:
- многомерные (ММБД);
- реляционные (РБД)
Многомерный сервер MOLAP задействован при хранении информации в базах многомерно типа [18]. Применением ММБД обеспечивается не только эффективное и корректное хранение информации, но и оперативное реагирование на запросы пользователей после их доступа к системе. Агрегирование данных производится после того, как они будут загружены в базу из источника. Обработка и обобщение этой информации значительно ускоряет доступ к отдельным блокам данных. Чем быстрее производится доступ к информации и требуемые расчеты, тем выше качество и скорость ответа системы на запрос. При этом интеллектуальный характер работы базы позволяет системе запоминать конфигурацию запроса и использовать результаты обработки для других подсчетов.
Реляционный сервер ROLAP базируется на моделях реляционного типа, вследствие чего для передачи данных в базу используются классические схемы «звезда» или «снежинка». Это непосредственно влияет на оперативность доступа и скорость получения ответа на запрос. Комплекс оптимизированных запросов SQL формирует при этом производительную многомерную модель.