Файл: Хранилища данных.rtf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 03.05.2024

Просмотров: 10

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.




Рисунок 2. Стандартная архитектура традиционного хранилища данных

4. Архивирование информации из хранилища данных

Архивирование хранилища данных — это процесс перемещения данных, которые вряд ли понадобятся для работы, из хранилища данных на носитель, где их можно хранить долгое время и откуда их можно при необходимости извлекать. Требования, предъявляемые к архиву хранилища данных, влияют на проект хранилища данных, и их нужно определить на раннем этапе проектирования и включить в состав бизнес-требований к хранилищу данных. В число этих бизнес-требований входят: механизм выбора критериев определения записей, которые можно переместить в архив; формат и способ хранения архивных данных; метод указания вероятности сохранения и сроки извлечения.

После архивирования данных они становятся недоступны для запросов до тех пор, пока не будут восстановлены из архива и возвращены в хранилище данных. В целях обеспечения непрерывности бизнеса и подготовки к аварийным ситуациям организации часто хранят резервные копии данных в разных офисах или центрах обработки данных. Так как для извлечения данных требуется координация между несколькими подразделениями, этот процесс может быть продолжительным.

Если данные требуются организации для ведения бизнеса, их необходимо сохранить. В некоторых случаях сохраняются исторические данные для сравнения исторических тенденций с текущими событиями. Часто специалисты анализируют существующие данные для поиска идей, которые могли бы открыть новые возможности для развития бизнеса. Аналитически ориентированные компании имеют повышенную потребность в долговременном хранении данных.

Растущее количество нормативных требований и необходимость для организаций соблюдать их также влияет на решение вопроса о том, какие данные следует хранить. Сроки хранения данных устанавливаются такими нормативными актами, как закон Сарбейнса-Оксли, HIPAA и Базель II.

Организации сохраняют все больше данных на все более длительные периоды времени. Необходимость хранить эти дополнительные данные создает потребность в новых правилах, процедурах, методах и программном обеспечении для поддержки хранения, управления и доступа к архивным данным. В хранилищах данных, предназначенных для хранения больших объемов данных, сведения уровня транзакций обычно хранятся в течение нескольких лет. В зависимости от требований данные старше двух-трех лет перемещаются на архивный носитель, такой как магнитная лента. Сводные статистические данные остаются в хранилище данных для исторического анализа. Однако после архивирования данных сведения уровня транзакций приходится восстанавливать в хранилище данных, если возникает необходимость анализа исторических данных.


Основные СУБД поддерживают секционирование данных, которое играет важную роль в реализации стратегии резервного копирования в хранилище данных. Обычно данные в хранилище данных секционируются по времени, которое служит критерием отбора записей для архивирования. Традиционные решения архивирования опираются на передовые методы резервного копирования, такие как инкрементное резервное копирование и возможность переводить разделы в автономный режим в целях резервного копирования, не оказывая влияния на операции.

При любой реализации стратегии архивирования хранилища данных необходимо рассмотреть требования, предъявляемые к резервному копированию и восстановлению.

Реализация архива хранилища данных может быть осложнена рядом факторов: структура и схема хранилища данных могут меняться в зависимости от бизнес-требований. Изменение схемы хранилища данных необходимо учитывать для поддержания совместимости функций резервного копирования и восстановления. В сложных хранилищах данных такие изменения могут вызвать проблемы; автономные носители архива данных, такие как магнитные ленты и диски, склонны к отказам с течением времени, и для гарантированной доступности данных необходимо проводить плановые модельные испытания; для операций восстановления, как правило, требуется координация разных подразделений и людей, чтобы минимизировать простои и использовать внешнее хранение носителей резервных копий; восстановление исторических данных может нарушить нормальную работу хранилища и требует тщательного планирования. Резервные копии данных, хранящиеся на магнитной ленте, подвержены влиянию изменений форматов магнитной ленты и требований перехода на самый современный формат.

Исторические данные, содержащиеся в хранилище данных в соответствии с политикой архивирования, можно переместить на уровень хранения платформы больших данных. Уровень хранения играет роль носителя архива для хранилища данных. Распределенная файловая система Hadoop (Hadoop Distributed File System - HDFS), которая служит основой для построения большинства платформ больших данных, идеально подходит для хранения больших объемов данных, распределенных по стандартным узлам. HDFS – это система с однократной записью, а исторические данные обычно архивируются один раз и больше никогда не перезаписываются. Такие особенности HDFS, как масштабируемость, отказоустойчивость и возможность доступа к потоковым данным, делают ее подходящей для активных архивов.


Одно из важнейших проектных решений – модель размещения данных на платформе больших данных. Так как активный архив должен хранить огромный объем данных, важную роль играет выбор подходящей структуры организации данных. Эта структура влияет на производительность обработки запросов и на то, как выполняются вычисления над данными в активном архиве. Структура должна быть масштабируемой, чтобы данные можно было добавлять из хранилища данных постепенно, по мере их готовности к архивированию.

Заключение

Хранилище данных — это способ превратить разнообразные данные, полученные и получаемые через IT-системы компании, в мощный и эффективный инструмент оперативного анализа и управления бизнесом.

Хранилище данных - это специализированная база данных, которая предназначена для хранения больших объемов ретроспективной информации о фактах и событиях различного рода.

Хранилище данных является основным поставщиком информации для пользовательских моделей, используемых для анализа и поддержки принятия решений. Простейшим примером пользовательских моделей могут служить отчеты, формируемые на основе хранилищ данных.

Таким образом, информация, прежде чем стать доступной управляющим, преобразуется в оперативных источниках, хранилище данных и витринах данных. Для обеспечения качества решений необходимо управлять качеством информации на каждом этапе обработки данных.

Список литературы


  1. Архипенков С.Я., Голубев Д.В., Максименко О.Б. Хранилища данных. М.: Диалог-МИФИ, 2016

  2. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных OLAP и DataMining. С-Пб.: БХВ-Петербург, 2004. гл. 4, 5, 7.

  3. Вьейра Р. SQL Server 2000. Программирование. Часть 2. М.: БИНОМ, 2004, гл. 23.

  4. Вьейра Р. SQL Server 2000. Программирование. Часть 2. М.: БИНОМ, 2004, гл. 25.

  5. Кравченко Т.К., Перминов Г.И. Информационные технологии принятия экономических решений. М.: ГУ-ВШЭ, 2006.

  6. Питер Роб, Карлос Коронел. Системы баз данных: проектирование, реализация и управление. С-Пб.: БХВ-Петербург, 2004.

  7. Питер Роб, Карлос Коронел. Системы баз данных: проектирование, реализация и управление. С-Пб.: БХВ-Петербург, 2004, гл. 10.

  8. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Т.1. М.: Вильямс, 2001, гл. 12.

  9. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. М.: Диалог-МИФИ, 2002, гл. 8.