Файл: Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 23.10.2024
Просмотров: 68
Скачиваний: 0
чает его от других методов, так как сжатие информации можно проводить без длительной работы по набору статис тического материала.
Применение сжатия информации с использованием дан ного метода целесообразно для интенсификации процессов передачи информации и для повышения эффективности ис пользования емкости запоминающих устройств ЭВМ.
Основополагающим для формирования идеи сжатия ин формации без использования ее статистических свойств явился алгоритмический подход к понятию «количество ин формации», высказанный А. Н. Колмогоровым.
Задача сжатия информации математически формулиру
ется таким образом. |
|
|
Для исходного |
массива информации |
Н = { 1, 2, ..., t} |
найти такое преобразование F, которое переводит этот мас |
||
сив в новый массив |
Н' —• меньшей длины |
и с сохранением |
содержательности исходной информации, то есть при суще ствовании обратного преобразования F ^ 1
H = F - 1(H').
На практике мощность множества исходных массивов обычно представляется довольно 'значительной. Учитывая это, можно присваивать каждому исходному массиву номер не посредством перечисления всех массивов, что невозможно, а посредством вырабатывания этого номера с помощью спе циального алгоритма. Прежде чем рассмотреть алгоритм ну мерации массива, введем необходимые определения.
Конкретный набор г элементов, взятых из множества Н, • называют кортежем над множеством, а конкретный неупо
рядоченный набор |
S |
элементов, |
взятых |
из множества |
|||
Н '={1, |
2, . . . . |
к}, |
— квазикортежем |
над |
множеством Н'. |
||
Любой кортеж |
а *=<>!, |
а2..... аг > |
и квазикортеж • р —(Ь,, |
||||
Ь„ |
Ь6) состоит |
из компонентов |
aj |
(Ь,- ). Каждый компо |
|||
нент может быть любым |
элементом |
i6H (i6FF). То количе |
ство мест, которое занимает в комбинаторной совокупности данный элемент, называют кратностью щ элемента i. Коли чество компонентов в комбинаторной совокупности называ ют длиной совокупности.
Для формального подсчета общего количества комбина торных совокупностей данного вида с данными парамет
100
рами могут быть использованы алгоритмы, основывающиеся на понятиях «сочетание» и «перестановки». В указанные по нятия при этом вкладывается смысл обозначения процесса, а не конкретного набора элементов.
Порядок вычисления номеракортежа следующий.
Вначале путем анализа, исходного массива — кортежа аь представляющего собой фактически подмассив какого-то значительных размеров массива, устанавливаем наименьшие по числовой величине элементы кортежа и их количество. После этого рассчитываем Qi — число сочетаний из общего количества элементов кортежа !а по количеству наименьших элементов и расчетный коэффициент Ь, равный сумме соче таний порядковых мест наименьших элементов по порядко вым номерам данной совокупности. Значения Qi и Ь направ ляются в блок вычисления номера кортежей. Заканчивается процесс анализа стягиванием исходного кортежа, то есть ис ключением из совокупности его элементов тех, которые яви лись наименьшими.
В результате получаем новый кортеж аь который ана лизируется аналогичным образом.
Расчеты значений Q и 1 прекращаются, когда после оче редного стягивания кортежа число разновидностей элемен тов в нем окажется меньше двух. После этого в блок номера кортежа подается команда для вычисления номера кортежа.
Рассмотрим числовой пример.
Пусть имеется числовой массив <6, 7, 8, 4, 3, 3, 2, 8, 6, 6, 5> , представляющий собой кортеж а длиной соответствен но 1а =11 над множеством Н = { 1, 2, ..., 11]. Требуется пре образовать указанную информацию к виду, удобному для хранения в памяти ЭВМ и для передачи другим потребите лям.
|
Используя |
расчетный |
алгоритм, |
вычисления |
начинаем |
||
с определения |
наименьшего элемента |
исходного |
кортежа |
||||
«2», |
который встречается |
всего |
один |
раз; |
следовательно, |
||
г к = |
1, его порядковый номер равен ni=7, |
так как |
он стоит |
||||
на 7-м месте |
|
|
|
|
|
|
|
|
|
Qi == GJj = |
11, |
l j - C J - 6 . |
|
101
ИПС имеется возможность осуществить непрерывный конт роль за реализацией продукции предприятия, движением материальных ресурсов, денежных средств и т. д.
Основными элементами ИПС являются:
а) информационные работники, обслуживающие, систе му, или операторы системы;
б) потребители системы; в) предметные указатели;.
г) предметное индексирование; д) контролируемый словарь; е) поисковый массив;
ж) поисковые указатели и механизм поиска.
В круг обязанностей информационных работников вхо дит описание документов (индексирование), поступающих в систему, поддержание и обслуживание систематизированного массива описаний документов (указателя) и поиск в этом массиве.
Потребители системы — это люди, направляющие в си стему запросы. Иногда операторы могут выступать в роли потребителей, а последние — в роли операторов, если они производят поиск без посредничества информационного ра ботника.
Предметный указатель характеризует ИПС прежде все го как систему, способную отыскивать документы в ответ на запросы по определенному «предмету».
Предметное индексирование представляет собой метод списания документов для предметного указателя. Его можно рассматривать как операцию, состоящую из двух этапов:
а) анализа предметного содержания документа, то есть определения, о чем идет речь в документе;
б) перевода понятий на язык индексирования. Контролируемый словарь представляет собой норматив
ный список принятых терминов индексирования, |
из которых |
в процессе индексирования выбираются нужные |
термины. |
В списке имеются кроме того некоторые необщепринятые термины, отсылающие к соответствующим узаконенным тер минам.
Для облегчения поиска групп сходных документов тер мины, близкие между собой по смыслу, объединяются в группы.
106
В процессе индексации документов в соответствии с их предметным содержанием с помощью контролируемого сло варя терминов создаются поисковые образы, или краткое описание источников фонда.
Поисковый массив представляет собой упорядоченное описание документов так, чтобы их можно было легко отыс кивать.-* В основу характеристики поискового массива поло жены два признака:
а ). физический носитель, на котором реализован массив (книга, каталог, суперпозиционные карты, перфокарты, кар ты с щелевой или краевой информацией, магнитная лента, кинопленка и т. д.);
е) метод |
организации массива, или способ упорядоче |
ния описаний |
(произвольный, алфавитный, систематизиро |
ванный и т. д.).
Обработка запроса в ИПС принципиально не отличает ся от обработки поступающих в нее документов. Вначале он анализируется по своему предметному содержанию, описы вается в терминах, отобранных из контролируемого слова ря. Далее по запросу, выраженному на контролируемом языке, производится поиск в предметном указателе. Доку мент считается найденным, если между формализованным кратким его описанием или поисковым образом и запросом, представляющим собой поисковое предписание, имеется пол ное или частичное совпадение.
Общий вид структурной схемы функционирования ин формационно-поисковой системы представлен на рис. 5. Как видно из схемы, информационный поиск охватывает все опе рации, выполняемые при хранении и поиске, начиная от ин дексирования документа для ввода его в систему и до того момента, когда документ найден и выдан потребителю в со ответствии с его запросом.
Наиболее сложной проблемой индексирования в любой системе является определение числа терминов, которые долж ны приписываться документу. В одних случаях количество терминов свидетельствует о том, что Индексирование в дан ный момент недостаточно полно в отношении большинства поступающих запросов, а в других — это даже трудно заме тить.
107
Предметное индексирование по своему характеру пред ставляет собой частный случай классификации. Объединяя на основе предметного содержания документы, тем самым каким-то образом обозначаем классы родственных докумен тов. Установив наименования всем классам документов, по лучим полный перечень терминов индексирования. После этого можно составить в определенной последовательности список'терминов индексирования, и в результате будем иметь контролируемый словарь. Далее процесс предметного индек сирования превращается в отнесение документов к заранее, установленным классам или обозначение его одним (и бо лее) термином индексирования (наименованием классов).
Для того, чтобы контролируемый словарь мог непрерыв но выполнять свои функции без потери эффективности, он должен постоянно пополняться и обновляться с учетом до кументов, появляющихся в данной предметной отрасли и по ступающих в фонд запросов ИПС.
Формальные отношения классов и возможные операции над ними определяются в общем алгеброй структур или од ной из ее частных форм — булевой алгеброй.
Рассмотрим математическую сторону проблемы разде ления на классы подробнее.
Пусть имеется массив документов М, некоторым из ко торых после просмотра присвоен термин индексирования х, а остальным — у. Тогда будем иметь соответственно два клас са документов.
Один — это класс документов, которые принадлежат или к х-или к у, или одновременно к х и у. Такой класс обо значается через ХиУ и называется логической суммой (дизъ юнкцией).
Использование такого вида суммы двух или более клас сов позволяет успешно запрашивать документы, заиндексированные термином х или у.
Второй класс документов имеет место, когда документы принадлежат одновременно и к х и к у. Такой.класс обозна
чается ХПУ. Этот кл'йсс называют пересечением или логи ческим произведением классов. Использование пересечения классов позволяет запрашивать документы, принадлежащие более чем к одному простому классу.
108
В терминах суммы и произведения классов свойства до полнения записываются следующим образом:
|
ХиУ =1, |
ХПУ = 0. |
|
Кроме указанных соотношений классов, |
известно еще |
||
так называемое |
отношение |
включения. Оно имеет место, |
|
когда все члены |
одного класса являются |
также членами |
|
другого класса. Структурная запись его имеет вид: * |
|||
|
XUXj = X, |
ХПХ, — X, |
|
Она означает — объединенное множество есть множе ство большего класса; их совместное множество есть множе ство меньшего класса. Например, класс «Подшипники каче ния» включается в более общий класс — «Подшипники».
Все возможные отношения между заранее определенны ми классами могут быть выражены в терминах суммы клас сов, их пересечения и дополнения.
Основное отношение классов в иерархической класси фикации — отношение включения.. Например, классы «Сое динение», «Сварка», «Дуговая сварка», «Сварка в защитном слое» представляют собой иерархическую цепь, ведущую вниз от родового термина «Соединение» к видовому — «Сварка в защитном слое».
Класс «Дуговая сварка» целиком включен в класс «Сварка», который в свою очередь включен в класс «Соеди нение».
Любые два класса в иерархической классификации либо дизъюнктивны, либо один класс включает другой. Построен ная на таком принципе классификация состоит из серии це почек, ведущих от самого широкого, родового термина к са мому узкому — специфическому. Новые цепи в ней могут быть порождены на любом уровне, в результате чего возни кают ветвления, которые совместно с цепями образуют «де рево».
Характерной |
особенностью |
«дерева» |
является |
отсут |
|
ствие замкнутых |
цепей или |
циклов. Обычно в нем |
либо |
||
нет ни одного пути, соединяющего два класса |
(узла), |
либо |
|||
есть только один такой путь — класс включает класс. |
|
||||
Указатель, основанный на |
иерархической |
классифика |
|||
ции,, весьма удобен для учета отношения |
включения классов |
109