Файл: «способы представления ДАННЫХ в информационных системах».pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 29.02.2024

Просмотров: 44

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

При вводе с бумажного носителя на первом этапе документ сканируется и создается электронная копия документа (образ).

При необходимости, на втором этапе полученный образ можно перевести в текстовый документ с использованием технологий оптического распознавания символов (Optical Character Recognition - OCR) и более совершенных технологий оптического распознавания рукопечатных символов в закодированном виде, например ASCII и WP-формате (Handprint Character Recognition - HCR) [13].

ICR (интеллектуальное распознавание символов) является дальнейшим развитием OCR и HCR и использует сравнение, логические связи, а также проверку на соответствие контрольных списков и существующих основных данных для улучшения результатов OMR (Optical Марк Recognition) [13].

Автоматический или полуавтоматический захват может использовать в качестве источников документы в формате XML, документы приложений электронного документооборота (Electronic Data Interchange - EDI), ERP-систем, финансовых приложений и других прикладных информационных систем. На этом этапе используются технологии автоматической обработки структурированных входных данных COLD /ERM, которые могут индексироваться независимо от исходной системы, в дальнейшем будучи преобразованными в динамический или архивный компонент хранения [6].

В результате дальнейшего агрегирования выполняется комбинирование и унификации данных от разных источников для передачи их в системы хранения и обработки с единой структурой и форматом.

Дополнительно в этих системах присутствуют компоненты для предметной индексации, такие как:

  1. Ручная индексация (indexing), которая предполагает назначение вручную индексных атрибутов, используемых в базе данных системы управления компонентами для администрирования и доступа.
  2. Проектирование входа - профилей и классов, ограничивающих возможные индексные значения, при автоматическом назначении атрибутовс использованием входных масок и их логики при индексировании вручную.
  3. Таксономия, помогающая формальному упорядочиванию информации в соответствии с нуждами предприятия. Здесь играют роль терминология, тезаурусы и систематика файлов.
  4. Категоризация или автоматическая классификация на основании предопределенных критериев или процесса самообучения.

Компоненты системы управления (Document Management – DM) предназначены для управления обработкой и использованием информации включают в себя [12]:

  • базы данных для администрирования и выборки;
  • системы авторизации доступа для защиты информации.

Целью законченной системы ECM является обеспечение этих двух компонентов только один раз как сервисов для всех решений, таких как Document Management, Document-Centric Collaboration, Web Content Management, Records Management и Workflow / Business Process Management [12]. Для их связывания нужны стандартные интерфейсы и безопасные процессы транзакций для коммуникаций между компонентами.

Технология управления Web-контентом (Web Content Menegement) поддерживает управление информацией в Web, не ограничиваясь Интернетом, Экстранетом или Интранетом, предусматривая [6]:

  • создание/редактирование контента и его автоматическое преобразование под различные форматы представления;
  • доставку, администрирование и визуализацию информации для создания web-презентаций;
  • разграничение доступа к публичной и непубличной информации.

Технология управления записями (Record Management – RM) обеспечивает работу с электронными и бумажными архивами документов длительного хранения, позволяя компаниям специфицировать бизнес-правила для электронных документов, определять, когда документы должны архивироваться, а когда — уничтожаться, и т.п. [22].

Технологии управления потоками работ (Workflow) нужны для автоматизации деловых процедур и управления потоками автоматизации бизнес-процессов, включая разработку маршрутов, контроль исполнения и т.д. [6].

Системы документно-ориентированной групповой работы (Document-Centric Collaboration) обеспечивают работу виртуальных распределенных команд, включая ведение дискуссий, обсуждение документов, а также проектно-ориентированные методы взаимодействия. Средства организации совместной работы позволяют наладить совместную работу в случаях, не поддающихся строгой формализации [6].

ECM-технологии хранения , доставки и сохранения

Система хранения (Store) включает функциональности и компоненты для временного хранения информации, которая не предназначенной для архивирования. То есть хранение отделено от сохранения (рис.2.2) [12].

Компоненты системы хранения могут быть разделены на три категории:

  1. репозитории (Repositories) как место в памяти;
  2. библиотечные серверы (Library Services) как компоненты администрирования для репозиториев;
  3. технологии хранения.

Рис. 2.2. Функциональность и компоненты системы хранения

Источник: Ulrich Kampffmeyer . ECM Enterprise Content Management. [Электронный ресурс] – Hamburg, 2016 – URL: http://www.project-consult.net/Files/ECM_White%20Paper_kff_2006.pdf . Перевод автора.

Эти компоненты инфраструктуры выражаются на уровне операционной системы как файловая система, а также включают технологии безопасности, которые используются системой доставки или распространения (Deliver) [6], [12].


Репозитории ECM используются в комбинациях:

  1. Файловые системы для временного хранения как входной и выходной кэш.
  2. Системы Управления Контентом для контента, который может быть базой данных или специальной системой хранения.
  3. Базы данных, которые управляют доступом к информации, но могут использоваться для непосредственного хранения.
  4. Хранилища данных

Библиотечные сервисы являются административными компонентами, отвечающими за получение и сохранение информации от компонентов систем захвата и управления [6], [12].

В их распоряжении:

  1. подключенная (online) память – прямой доступ к данным и документам;
  2. квази-подключенная (nearline) память – на носителе, который может быть доступен после выполнения некоторых роботизированных действий;
  3. отключенная (offline) память –на носителе, который удален из системного доступа.

Система сохранения (Preserve) предполагает долговременное безопасное хранение с созданием резервных копий статической, неизменяемой информации (рис.2.3) [12].

Системы электронной архивации состоят из комбинации администрирующего программного обеспечения типа Records Management, Imaging or Document Management, Library Services, IRS - Information Retrieval Systems) и подсистем хранения [25].

Система доставки или распространения (Deliver) включает компоненты, реализуемые функции, используемые для чтения, ввода, представления и управления выходом информации для компонентов систем управления, хранения и сохранения (рис. 2.4) [12]:

АРХИВ

  • Бумага
  • Микрофильм
  • NAS / SAN
  • WORM
  • WORM-лента

УДАЛЕНИЕ

Рис. 2.3. Функциональность и компоненты системы сохранения

Источник: Ulrich Kampffmeyer . ECM Enterprise Content Management. [Электронный ресурс] – Hamburg, 2016 – URL: http://www.project-consult.net/Files/ECM_White%20Paper_kff_2006.pdf . Перевод автора.

  1. Планирование/Разработка с инструментами для планирования и форматирования выхода.
  2. Публикация с приложениями для презентации информации для распространения и публикации.

Технологии преобразования информации могут быть следующими [6], [12], [2]:

  1. COLD / ERM, реализуемые приложениями такими как журналы и протоколы, генерируемые компонентами ECM.
  2. Персонализация, применяемая ко всем компонентам ECM.
  3. Преобразователи и просмотрщики, которые служат для переформатирования информации для генерации единых форматов, а также для отображения и вывода информации разных форматов.
  4. Сжатие, которое используется для уменьшения пространства памяти, необходимого для графической информации
  5. Синдикация - для представления контента в разных форматах, подборках и формах в контексте управления контентом.

Рисунок 2.4 - Функциональность и компоненты системы доставки или распространения

Источник: Ulrich Kampffmeyer . ECM Enterprise Content Management. [Электронный ресурс] – Hamburg, 2016 – URL: http://www.project-consult.net/Files/ECM_White%20Paper_kff_2006.pdf . Перевод автора.

Выводы по второй главе.

Реализация ECM-технологий ввода информации с целью образования данных нужной формы и структуры предполагает использования разнообразных методов сканирования и распознавания информации практически любого типа. Ее дальнейшее представление с целью управления данными с помощью соответствующих технологий предполагает агрегирование на основе комбинирование и унификации данных от разных источников для передачи их в системы хранения и обработки с единой структурой и форматом.

Архитектуры платформ ECM-решений

Комплексная интегрированная корпоративная ECM-платформа Oracle

Oracle Enterprise Content Management (OECM) представляет собой единую платформу расширенной функциональности для хранения неструктурированного контента и его перевода в формат, подходящий для большинства корпоративных приложений [39].

Характерные особенности платформы OECM [10]:

  • полная интегрированная открытая платформа;
  • мультиплатформенность: Windows, Linux, Unix (HP-UX, AIX, Solaris);
  • масштабирование и отказоустойчивость;
  • гибкость настройки и управления;
  • широкие возможности кастомизаций и модульная архитектура;
  • богатые интеграционные возможности.

Портфель технологий Oracle для управления контентом представляет собой самую полную и единую линейку (рис. 3.1), основным продуктом которой является Oracle Universal Content Management (UCM) - интегрированная корпоративная система для управления контентом (рис.3.2), позволяющая организациям развертывать в многочисленных подразделениях решения для управления Web-контентом, документами, цифровыми активами, записями и их хранением на базе единой платформы [21].

В составе решения есть встроенный механизм UCM Workflow, который полностью ориентирован на автоматизацию потока операций, связанных с жизненным циклом контента таких как: регистрация, классификация, эскалация, продвижения по жизненному циклу, совместная работа, редакционные правки, утверждения, согласования и контроль версий. Особенность заключается в том, что механизм UCM Workflow достаточно прост и легок. Технологически он построен на внутреннем языке контент-сервера - IDoc Script. При необходимости интеграции некого процесса с внешними системами приходится программировать [21].


Рис. 3.1. Платформа Oracle Enterprise Content Management

Источник: Oracle – комплексная интегрированная корпоративная платформа ECM [Электронный ресурс] // DOCFLOW [сайт]. – URL: http://www.docflow.ru/docflow_events/docflow-2010-moscow/presentation/Tchaikovsky/12.00-12.30_Oracle.pdf.

Полнофункциональная система управления записями Oracle Universal Records Management позволяет клиентам применять политики и практики управления записями и их хранения к контенту, находящемуся в многочисленных удаленных репозиториях и приложениях, включая файловые системы, системы управления контентом и архивы электронной почты, а также управлять физическими записями в рамках этой же системы [10], [340].

Управление безопасностью и сохранением документов в репозиториях обеспечивает основанное на политиках решение Oracle Information Rights [4].

Рис. 3.2. Портфель решений Oracle для управления контентом

Источник: Литомин А. Решения Oracle по управлению неструктурированным контентом и обеспечению безопасности информационных систем [Электронный ресурс] // Портал Oracle для предприятий среднего бизнеса. [сайт] . – URL: http://www.oraclepro.ru/download/archive/minsk/Litomin-Oracle-ECM-IRM.pdf.

Технологии шифрования позволяют защищать документы с целью обеспечения их безопасности и отслеживания везде, где они хранятся и используются, предоставляя организациям возможность устанавливать детализированные политики для таких операций, как просмотр, редактирование, печать и копирование конфиденциальной информации, чтобы защищать контент от доступа неавторизованных пользователей. Права доступа могут быть легко аннулированы при истечении срока действия контента или полномочий пользователя [4], [5].

Важным компонентом является Oracle Imaging and Process Management [6], поддерживающее высокомасштабируемые, ориентированные на процессы приложения для работы с изображениями, способствующие повышению продуктивности и снижающие вероятность ошибок благодаря автоматизации таких внутренних операций, как обработка форм счетов и заявок. Это полный комплекс средств управления изображениями — от создания до архивирования — включая сертифицированную интеграцию с приложениями Oracle Applications [6].

Рис. 3.3. Решение Oracle Universal Content Management

Источник: Литомин А. Решения Oracle по управлению неструктурированным контентом и обеспечению безопасности информационных систем [Электронный ресурс] // Портал Oracle для предприятий среднего бизнеса. [сайт] . – URL: http://www.oraclepro.ru/download/archive/minsk/Litomin-Oracle-ECM-IRM.pdf.