Файл: «способы представления ДАННЫХ в информационных системах».pdf
Добавлен: 29.02.2024
Просмотров: 44
Скачиваний: 0
При вводе с бумажного носителя на первом этапе документ сканируется и создается электронная копия документа (образ).
При необходимости, на втором этапе полученный образ можно перевести в текстовый документ с использованием технологий оптического распознавания символов (Optical Character Recognition - OCR) и более совершенных технологий оптического распознавания рукопечатных символов в закодированном виде, например ASCII и WP-формате (Handprint Character Recognition - HCR) [13].
ICR (интеллектуальное распознавание символов) является дальнейшим развитием OCR и HCR и использует сравнение, логические связи, а также проверку на соответствие контрольных списков и существующих основных данных для улучшения результатов OMR (Optical Марк Recognition) [13].
Автоматический или полуавтоматический захват может использовать в качестве источников документы в формате XML, документы приложений электронного документооборота (Electronic Data Interchange - EDI), ERP-систем, финансовых приложений и других прикладных информационных систем. На этом этапе используются технологии автоматической обработки структурированных входных данных COLD /ERM, которые могут индексироваться независимо от исходной системы, в дальнейшем будучи преобразованными в динамический или архивный компонент хранения [6].
В результате дальнейшего агрегирования выполняется комбинирование и унификации данных от разных источников для передачи их в системы хранения и обработки с единой структурой и форматом.
Дополнительно в этих системах присутствуют компоненты для предметной индексации, такие как:
- Ручная индексация (indexing), которая предполагает назначение вручную индексных атрибутов, используемых в базе данных системы управления компонентами для администрирования и доступа.
- Проектирование входа - профилей и классов, ограничивающих возможные индексные значения, при автоматическом назначении атрибутовс использованием входных масок и их логики при индексировании вручную.
- Таксономия, помогающая формальному упорядочиванию информации в соответствии с нуждами предприятия. Здесь играют роль терминология, тезаурусы и систематика файлов.
- Категоризация или автоматическая классификация на основании предопределенных критериев или процесса самообучения.
Компоненты системы управления (Document Management – DM) предназначены для управления обработкой и использованием информации включают в себя [12]:
- базы данных для администрирования и выборки;
- системы авторизации доступа для защиты информации.
Целью законченной системы ECM является обеспечение этих двух компонентов только один раз как сервисов для всех решений, таких как Document Management, Document-Centric Collaboration, Web Content Management, Records Management и Workflow / Business Process Management [12]. Для их связывания нужны стандартные интерфейсы и безопасные процессы транзакций для коммуникаций между компонентами.
Технология управления Web-контентом (Web Content Menegement) поддерживает управление информацией в Web, не ограничиваясь Интернетом, Экстранетом или Интранетом, предусматривая [6]:
- создание/редактирование контента и его автоматическое преобразование под различные форматы представления;
- доставку, администрирование и визуализацию информации для создания web-презентаций;
- разграничение доступа к публичной и непубличной информации.
Технология управления записями (Record Management – RM) обеспечивает работу с электронными и бумажными архивами документов длительного хранения, позволяя компаниям специфицировать бизнес-правила для электронных документов, определять, когда документы должны архивироваться, а когда — уничтожаться, и т.п. [22].
Технологии управления потоками работ (Workflow) нужны для автоматизации деловых процедур и управления потоками автоматизации бизнес-процессов, включая разработку маршрутов, контроль исполнения и т.д. [6].
Системы документно-ориентированной групповой работы (Document-Centric Collaboration) обеспечивают работу виртуальных распределенных команд, включая ведение дискуссий, обсуждение документов, а также проектно-ориентированные методы взаимодействия. Средства организации совместной работы позволяют наладить совместную работу в случаях, не поддающихся строгой формализации [6].
ECM-технологии хранения , доставки и сохранения
Система хранения (Store) включает функциональности и компоненты для временного хранения информации, которая не предназначенной для архивирования. То есть хранение отделено от сохранения (рис.2.2) [12].
Компоненты системы хранения могут быть разделены на три категории:
- репозитории (Repositories) как место в памяти;
- библиотечные серверы (Library Services) как компоненты администрирования для репозиториев;
- технологии хранения.
Рис. 2.2. Функциональность и компоненты системы хранения
Источник: Ulrich Kampffmeyer . ECM Enterprise Content Management. [Электронный ресурс] – Hamburg, 2016 – URL: http://www.project-consult.net/Files/ECM_White%20Paper_kff_2006.pdf . Перевод автора.
Эти компоненты инфраструктуры выражаются на уровне операционной системы как файловая система, а также включают технологии безопасности, которые используются системой доставки или распространения (Deliver) [6], [12].
Репозитории ECM используются в комбинациях:
- Файловые системы для временного хранения как входной и выходной кэш.
- Системы Управления Контентом для контента, который может быть базой данных или специальной системой хранения.
- Базы данных, которые управляют доступом к информации, но могут использоваться для непосредственного хранения.
- Хранилища данных
Библиотечные сервисы являются административными компонентами, отвечающими за получение и сохранение информации от компонентов систем захвата и управления [6], [12].
В их распоряжении:
- подключенная (online) память – прямой доступ к данным и документам;
- квази-подключенная (nearline) память – на носителе, который может быть доступен после выполнения некоторых роботизированных действий;
- отключенная (offline) память –на носителе, который удален из системного доступа.
Система сохранения (Preserve) предполагает долговременное безопасное хранение с созданием резервных копий статической, неизменяемой информации (рис.2.3) [12].
Системы электронной архивации состоят из комбинации администрирующего программного обеспечения типа Records Management, Imaging or Document Management, Library Services, IRS - Information Retrieval Systems) и подсистем хранения [25].
Система доставки или распространения (Deliver) включает компоненты, реализуемые функции, используемые для чтения, ввода, представления и управления выходом информации для компонентов систем управления, хранения и сохранения (рис. 2.4) [12]:
АРХИВ
- Бумага
- Микрофильм
- NAS / SAN
- WORM
- WORM-лента
УДАЛЕНИЕ
Рис. 2.3. Функциональность и компоненты системы сохранения
Источник: Ulrich Kampffmeyer . ECM Enterprise Content Management. [Электронный ресурс] – Hamburg, 2016 – URL: http://www.project-consult.net/Files/ECM_White%20Paper_kff_2006.pdf . Перевод автора.
- Планирование/Разработка с инструментами для планирования и форматирования выхода.
- Публикация с приложениями для презентации информации для распространения и публикации.
Технологии преобразования информации могут быть следующими [6], [12], [2]:
- COLD / ERM, реализуемые приложениями такими как журналы и протоколы, генерируемые компонентами ECM.
- Персонализация, применяемая ко всем компонентам ECM.
- Преобразователи и просмотрщики, которые служат для переформатирования информации для генерации единых форматов, а также для отображения и вывода информации разных форматов.
- Сжатие, которое используется для уменьшения пространства памяти, необходимого для графической информации
- Синдикация - для представления контента в разных форматах, подборках и формах в контексте управления контентом.
Рисунок 2.4 - Функциональность и компоненты системы доставки или распространения
Источник: Ulrich Kampffmeyer . ECM Enterprise Content Management. [Электронный ресурс] – Hamburg, 2016 – URL: http://www.project-consult.net/Files/ECM_White%20Paper_kff_2006.pdf . Перевод автора.
Выводы по второй главе.
Реализация ECM-технологий ввода информации с целью образования данных нужной формы и структуры предполагает использования разнообразных методов сканирования и распознавания информации практически любого типа. Ее дальнейшее представление с целью управления данными с помощью соответствующих технологий предполагает агрегирование на основе комбинирование и унификации данных от разных источников для передачи их в системы хранения и обработки с единой структурой и форматом.
Архитектуры платформ ECM-решений
Комплексная интегрированная корпоративная ECM-платформа Oracle
Oracle Enterprise Content Management (OECM) представляет собой единую платформу расширенной функциональности для хранения неструктурированного контента и его перевода в формат, подходящий для большинства корпоративных приложений [39].
Характерные особенности платформы OECM [10]:
- полная интегрированная открытая платформа;
- мультиплатформенность: Windows, Linux, Unix (HP-UX, AIX, Solaris);
- масштабирование и отказоустойчивость;
- гибкость настройки и управления;
- широкие возможности кастомизаций и модульная архитектура;
- богатые интеграционные возможности.
Портфель технологий Oracle для управления контентом представляет собой самую полную и единую линейку (рис. 3.1), основным продуктом которой является Oracle Universal Content Management (UCM) - интегрированная корпоративная система для управления контентом (рис.3.2), позволяющая организациям развертывать в многочисленных подразделениях решения для управления Web-контентом, документами, цифровыми активами, записями и их хранением на базе единой платформы [21].
В составе решения есть встроенный механизм UCM Workflow, который полностью ориентирован на автоматизацию потока операций, связанных с жизненным циклом контента таких как: регистрация, классификация, эскалация, продвижения по жизненному циклу, совместная работа, редакционные правки, утверждения, согласования и контроль версий. Особенность заключается в том, что механизм UCM Workflow достаточно прост и легок. Технологически он построен на внутреннем языке контент-сервера - IDoc Script. При необходимости интеграции некого процесса с внешними системами приходится программировать [21].
Рис. 3.1. Платформа Oracle Enterprise Content Management
Источник: Oracle – комплексная интегрированная корпоративная платформа ECM [Электронный ресурс] // DOCFLOW [сайт]. – URL: http://www.docflow.ru/docflow_events/docflow-2010-moscow/presentation/Tchaikovsky/12.00-12.30_Oracle.pdf.
Полнофункциональная система управления записями Oracle Universal Records Management позволяет клиентам применять политики и практики управления записями и их хранения к контенту, находящемуся в многочисленных удаленных репозиториях и приложениях, включая файловые системы, системы управления контентом и архивы электронной почты, а также управлять физическими записями в рамках этой же системы [10], [340].
Управление безопасностью и сохранением документов в репозиториях обеспечивает основанное на политиках решение Oracle Information Rights [4].
Рис. 3.2. Портфель решений Oracle для управления контентом
Источник: Литомин А. Решения Oracle по управлению неструктурированным контентом и обеспечению безопасности информационных систем [Электронный ресурс] // Портал Oracle для предприятий среднего бизнеса. [сайт] . – URL: http://www.oraclepro.ru/download/archive/minsk/Litomin-Oracle-ECM-IRM.pdf.
Технологии шифрования позволяют защищать документы с целью обеспечения их безопасности и отслеживания везде, где они хранятся и используются, предоставляя организациям возможность устанавливать детализированные политики для таких операций, как просмотр, редактирование, печать и копирование конфиденциальной информации, чтобы защищать контент от доступа неавторизованных пользователей. Права доступа могут быть легко аннулированы при истечении срока действия контента или полномочий пользователя [4], [5].
Важным компонентом является Oracle Imaging and Process Management [6], поддерживающее высокомасштабируемые, ориентированные на процессы приложения для работы с изображениями, способствующие повышению продуктивности и снижающие вероятность ошибок благодаря автоматизации таких внутренних операций, как обработка форм счетов и заявок. Это полный комплекс средств управления изображениями — от создания до архивирования — включая сертифицированную интеграцию с приложениями Oracle Applications [6].
Рис. 3.3. Решение Oracle Universal Content Management
Источник: Литомин А. Решения Oracle по управлению неструктурированным контентом и обеспечению безопасности информационных систем [Электронный ресурс] // Портал Oracle для предприятий среднего бизнеса. [сайт] . – URL: http://www.oraclepro.ru/download/archive/minsk/Litomin-Oracle-ECM-IRM.pdf.