Файл: Курс лекций по дисциплине проектирование информационных систем Для студентов iv курса специальности 080801 Прикладная информатика (по областям).doc
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 02.02.2024
Просмотров: 219
Скачиваний: 0
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Загрузка информационной базы – это совокупность операций по приему, контролю и регистрации поступившей информации, вводу информации в ЭВМ, контролю и исправлению ошибок и записи данных в информационный файл.
Содержание операций приема, контроля и регистрации поступившей информации зависит от типа носителя первичной информации.
Если поступающая информация представлена на бумажном носителе, то во время ее выполнения осуществляется следующая совокупность действий:
-
контроль количества поступивших документов, полноты и качества их заполнения; -
отбор правильно заполненных документов и их регистрация в регистрационном журнале; -
отбраковка документов, не соответствующих требованиям, предъявляемым к документам; -
формирование запроса на исправление документов с ошибками и отсылка их к источнику информации, т.е. в то подразделение, из которого они поступили.
Если информация поступает на машинном носителе, то в этом случае проверяется качество записи на носитель, регистрируются имя файла, объем, источник и время поступления.
При поступлении информации по каналам связи определяются источник поступления, время, количество поступивших записей.
Операция ввода информации в ЭВМ может осуществляться несколькими методами:
-
ручной ввод данных с бумажных документов с использованием макетов экранных форм; -
автоматизированное чтение данных, содержащихся в документах на бумажных носителях, и загрузка их в информационную базу.
При вводе больших объемов информации в ЭВМ с клавиатуры оператором допускается значительное количество ошибок, которые необходимо выявить и устранить. При этом контроль вводимой информации может производиться с использованием следующих методов:
-
визуальный контроль на экране дисплея; -
метод контрольных сумм, рассчитываемых по каждой строке документа или по всему документу до ввода в ЭВМ и после ввода, которые затем сверяются между собой; -
метод верификации, при котором осуществляется сверка ранее введенных данных, записанных в файл, и данных первичных документов, вводимых оператором второй раз; -
метод двойного массива, при котором файлы по первичным документам создаются двумя разными операторами и после ввода сверяются по контрольным числам, вычисляемым для каждого из них.
Проверенные и исправленные данные заносятся в файл информационной базы.
Особое внимание при формировании информационной базы уделяется разработке программы синтаксического и семантического контроля загружаемой информации в информационную базу.
Синтаксический контроль может осуществляться на уровне структуры файла, записи и отдельного поля. Контроль на уровне файла сводится к контролю типов записей, соподчиненности различных типов записей (заголовок, подзаголовок), количества экземпляров каждого типа записи. Контроль на уровне записи сводится к контролю числа полей, их последовательности и длины записи. Контроль на уровне поля включает в себя контроль типа и формата поля.
Семантический контроль сводится к арифметическому и логическому контролю содержимого отдельных полей.
Арифметический контроль осуществляется следующими методами:
-
контрольных сумм по документу; -
контрольных сумм по отдельной записи; -
контрольного числа по файлу; -
балансовый контроль.
Логический контроль применяется для реквизитов-признаков и оснований, и при его построении используют следующие виды контроля:
-
контроль на конкретное значение; -
контроль на диапазон значений; -
контроль путем сравнения с некоторой константой; -
контроль зависимостей значений реквизитов; -
контроль по списку значений (справочнику).
Для поддержания надежности хранимых данных при сбоях в работе ЭВМ и разрушениях информационной базы требуется система резервирования и восстановления.
Обычно используется несколько методов хранения информации в информационной базе, которые позволяют в дальнейшем производить восстановление данных:
-
метод дублирования основных файлов и хранения нескольких их копий; -
метод создания и хранения нескольких поколений каждого основного файла ИБ и файлов корректур к ним; -
комбинированную систему нескольких поколений с дублированием последнего поколения и файлов корректур.
5. Проектирование процесса автоматизированного ввода бумажных документов
Одной из основных задач, связанных с сокращением затрат на обработку данных, является автоматизация массового ввода бумажных первичных документов. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается большое количество однотипных документов.
В качестве примеров приложений данной технологии в конкретных предметных областях можно привести систему ввода и обработки «Платежных поручений» в банке, систему ввода «Налоговых деклараций» и т.д.
При проектировании системы ввода бумажных документов выполняется следующая совокупность операций:
-
определение состава операций, которая должна выполнять система; -
выбор технических средств реализации выполнения этих операций; -
выбор и настройка программного обеспечения; -
разработка технологической документации.
Автоматизированное чтение и ввод документов включают в себя операции, которые можно объединить в несколько стадий:
1. Подготовка документов к сканированию.
2. Получение изображения документа.
3. Распознавание и ввод данных, содержащихся в документе.
1. Подготовка документов к сканированию включает в себя две операции: непосредственную подготовку документов для сканирования и выполнение описания настройки системы на конкретную форму документа.
Подготовка документов для сканирования предполагает выполнение следующих шагов:
-
определение самого документа для сканирования; -
выбор конкретных областей документа для сканирования; -
непосредственная подготовка документов для сканирования: открытие конвертов, удаление скрепок или других предметов, мешающих сканированию; -
подготовка пакетов документов для сканирования.
Составление описания каждого документа предполагает выполнение трех операций:
-
составление настройки формы документа; -
настройка модели ввода; -
настройка полей формы документа.
В основе выполнения этих операций лежит понятие форматированного (структурированного) документа. К таким документам относятся «Платежные поручения», «Прайс-листы» т.д.
Основной структурной единицей форматируемого документа является поле документа. Каждое поле описывается в двух аспектах: визуально, в частности геометрически, и содержательно. С изобразительной точки зрения каждое поле должно быть явно обособлено: пустыми промежутками, разделительными линиями, оригинальным типом шрифта, уровнем фона, цветом и т.д.
Содержательная часть характеризуется назначением поля, словарным и алфавитным составом, а также некоторыми законами построения текста, например, в поле почтового адреса должны быть сведения о городе, улице, доме и проч.
Документы, которые подлежат сканированию, могут быть объединены в группы по нескольким признакам.
По способу нанесения информации можно выделить документы, в которых используются метки, печатный или рукописный текст. Так, например, Избирательные бюллетени используют меточный способ, в то время как Прайс-листы - печатный, а первичные бухгалтерские документы - в основном рукописные.
По геометрической вариантности полей различают документы, в которых расположение всех полей и записей строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров. Все специально подготовленные для машинной обработки документы обладают этим качеством. Другим типом являются документы, которые имеют произвольное расположение полей.
Кроме того, можно разделять документы по наличию явных разделителей полей, которые часто присутствуют в таблицах, бухгалтерских документах или их отсутствию.
2. Получение изображения документа включает в себя выполнение таких операций, как сканирование, контроль качества отсканированных изображений и возможное повторное сканирование.
Контроль качества отсканированных изображений необходим для того, чтобы все нужные документы были отсканированы и легко читаемы. Для повышения эффективности и надежности системы следует иметь возможность выборочной проверки качества отсканированных изображений, а при сканировании многостраничных документов - возможность отслеживать порядок сканируемых страниц.
Повторное сканирование проводится в случае неудовлетворительного качества изображения или из-за проблем, связанных с неправильным порядком страниц в документе.
3. Распознавание и ввод данных, содержащихся в документе, в информационную базу предполагают выполнение следующих основных операций:
-
предварительной обработки изображений; -
нахождения полей (сегментация документа и чтение текста); -
проверки распознанной информации; -
ввода данных в информационную базу.
Распознавание документа, анализ содержания документа и извлечение данных осуществляются в настоящее время с помощью следующих систем распознавания текстов, отличающихся по стоимости, качеству и скорости работы:
-
технология оптического распознавания печатных символов OCR (Optical Character Recognition), т.е. перевода сканированного изображения печатных символов в их текстовое представление; -
технология распознавания раздельных печатных символов, написанных от руки ICR (Intelligent Character Recognition); -
технология распознавания отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги) OMR (Optical Mark Recognition); -
технология распознавания стилизованных цифр – распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах.