Файл: Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 23.10.2024

Просмотров: 68

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

чает его от других методов, так как сжатие информации можно проводить без длительной работы по набору статис­ тического материала.

Применение сжатия информации с использованием дан­ ного метода целесообразно для интенсификации процессов передачи информации и для повышения эффективности ис­ пользования емкости запоминающих устройств ЭВМ.

Основополагающим для формирования идеи сжатия ин­ формации без использования ее статистических свойств явился алгоритмический подход к понятию «количество ин­ формации», высказанный А. Н. Колмогоровым.

Задача сжатия информации математически формулиру­

ется таким образом.

 

 

Для исходного

массива информации

Н = { 1, 2, ..., t}

найти такое преобразование F, которое переводит этот мас­

сив в новый массив

Н' —• меньшей длины

и с сохранением

содержательности исходной информации, то есть при суще­ ствовании обратного преобразования F ^ 1

H = F - 1(H').

На практике мощность множества исходных массивов обычно представляется довольно 'значительной. Учитывая это, можно присваивать каждому исходному массиву номер не посредством перечисления всех массивов, что невозможно, а посредством вырабатывания этого номера с помощью спе­ циального алгоритма. Прежде чем рассмотреть алгоритм ну­ мерации массива, введем необходимые определения.

Конкретный набор г элементов, взятых из множества Н, • называют кортежем над множеством, а конкретный неупо­

рядоченный набор

S

элементов,

взятых

из множества

Н '={1,

2, . . . .

к},

— квазикортежем

над

множеством Н'.

Любой кортеж

а *=<>!,

а2..... аг >

и квазикортеж • р —(Ь,,

Ь„

Ь6) состоит

из компонентов

aj

(Ь,- ). Каждый компо­

нент может быть любым

элементом

i6H (i6FF). То количе­

ство мест, которое занимает в комбинаторной совокупности данный элемент, называют кратностью щ элемента i. Коли­ чество компонентов в комбинаторной совокупности называ­ ют длиной совокупности.

Для формального подсчета общего количества комбина­ торных совокупностей данного вида с данными парамет­

100


рами могут быть использованы алгоритмы, основывающиеся на понятиях «сочетание» и «перестановки». В указанные по­ нятия при этом вкладывается смысл обозначения процесса, а не конкретного набора элементов.

Порядок вычисления номеракортежа следующий.

Вначале путем анализа, исходного массива — кортежа аь представляющего собой фактически подмассив какого-то значительных размеров массива, устанавливаем наименьшие по числовой величине элементы кортежа и их количество. После этого рассчитываем Qi — число сочетаний из общего количества элементов кортежа !а по количеству наименьших элементов и расчетный коэффициент Ь, равный сумме соче­ таний порядковых мест наименьших элементов по порядко­ вым номерам данной совокупности. Значения Qi и Ь направ­ ляются в блок вычисления номера кортежей. Заканчивается процесс анализа стягиванием исходного кортежа, то есть ис­ ключением из совокупности его элементов тех, которые яви­ лись наименьшими.

В результате получаем новый кортеж аь который ана­ лизируется аналогичным образом.

Расчеты значений Q и 1 прекращаются, когда после оче­ редного стягивания кортежа число разновидностей элемен­ тов в нем окажется меньше двух. После этого в блок номера кортежа подается команда для вычисления номера кортежа.

Рассмотрим числовой пример.

Пусть имеется числовой массив <6, 7, 8, 4, 3, 3, 2, 8, 6, 6, 5> , представляющий собой кортеж а длиной соответствен­ но 1а =11 над множеством Н = { 1, 2, ..., 11]. Требуется пре­ образовать указанную информацию к виду, удобному для хранения в памяти ЭВМ и для передачи другим потребите­ лям.

 

Используя

расчетный

алгоритм,

вычисления

начинаем

с определения

наименьшего элемента

исходного

кортежа

«2»,

который встречается

всего

один

раз;

следовательно,

г к =

1, его порядковый номер равен ni=7,

так как

он стоит

на 7-м месте

 

 

 

 

 

 

 

 

Qi == GJj =

11,

l j - C J - 6 .

 

101


ИПС имеется возможность осуществить непрерывный конт­ роль за реализацией продукции предприятия, движением материальных ресурсов, денежных средств и т. д.

Основными элементами ИПС являются:

а) информационные работники, обслуживающие, систе­ му, или операторы системы;

б) потребители системы; в) предметные указатели;.

г) предметное индексирование; д) контролируемый словарь; е) поисковый массив;

ж) поисковые указатели и механизм поиска.

В круг обязанностей информационных работников вхо­ дит описание документов (индексирование), поступающих в систему, поддержание и обслуживание систематизированного массива описаний документов (указателя) и поиск в этом массиве.

Потребители системы — это люди, направляющие в си­ стему запросы. Иногда операторы могут выступать в роли потребителей, а последние — в роли операторов, если они производят поиск без посредничества информационного ра­ ботника.

Предметный указатель характеризует ИПС прежде все­ го как систему, способную отыскивать документы в ответ на запросы по определенному «предмету».

Предметное индексирование представляет собой метод списания документов для предметного указателя. Его можно рассматривать как операцию, состоящую из двух этапов:

а) анализа предметного содержания документа, то есть определения, о чем идет речь в документе;

б) перевода понятий на язык индексирования. Контролируемый словарь представляет собой норматив­

ный список принятых терминов индексирования,

из которых

в процессе индексирования выбираются нужные

термины.

В списке имеются кроме того некоторые необщепринятые термины, отсылающие к соответствующим узаконенным тер­ минам.

Для облегчения поиска групп сходных документов тер­ мины, близкие между собой по смыслу, объединяются в группы.

106

В процессе индексации документов в соответствии с их предметным содержанием с помощью контролируемого сло­ варя терминов создаются поисковые образы, или краткое описание источников фонда.

Поисковый массив представляет собой упорядоченное описание документов так, чтобы их можно было легко отыс­ кивать.-* В основу характеристики поискового массива поло­ жены два признака:

а ). физический носитель, на котором реализован массив (книга, каталог, суперпозиционные карты, перфокарты, кар­ ты с щелевой или краевой информацией, магнитная лента, кинопленка и т. д.);

е) метод

организации массива, или способ упорядоче­

ния описаний

(произвольный, алфавитный, систематизиро­

ванный и т. д.).

Обработка запроса в ИПС принципиально не отличает­ ся от обработки поступающих в нее документов. Вначале он анализируется по своему предметному содержанию, описы­ вается в терминах, отобранных из контролируемого слова­ ря. Далее по запросу, выраженному на контролируемом языке, производится поиск в предметном указателе. Доку­ мент считается найденным, если между формализованным кратким его описанием или поисковым образом и запросом, представляющим собой поисковое предписание, имеется пол­ ное или частичное совпадение.

Общий вид структурной схемы функционирования ин­ формационно-поисковой системы представлен на рис. 5. Как видно из схемы, информационный поиск охватывает все опе­ рации, выполняемые при хранении и поиске, начиная от ин­ дексирования документа для ввода его в систему и до того момента, когда документ найден и выдан потребителю в со­ ответствии с его запросом.

Наиболее сложной проблемой индексирования в любой системе является определение числа терминов, которые долж­ ны приписываться документу. В одних случаях количество терминов свидетельствует о том, что Индексирование в дан­ ный момент недостаточно полно в отношении большинства поступающих запросов, а в других — это даже трудно заме­ тить.

107


Предметное индексирование по своему характеру пред­ ставляет собой частный случай классификации. Объединяя на основе предметного содержания документы, тем самым каким-то образом обозначаем классы родственных докумен­ тов. Установив наименования всем классам документов, по­ лучим полный перечень терминов индексирования. После этого можно составить в определенной последовательности список'терминов индексирования, и в результате будем иметь контролируемый словарь. Далее процесс предметного индек­ сирования превращается в отнесение документов к заранее, установленным классам или обозначение его одним (и бо­ лее) термином индексирования (наименованием классов).

Для того, чтобы контролируемый словарь мог непрерыв­ но выполнять свои функции без потери эффективности, он должен постоянно пополняться и обновляться с учетом до­ кументов, появляющихся в данной предметной отрасли и по­ ступающих в фонд запросов ИПС.

Формальные отношения классов и возможные операции над ними определяются в общем алгеброй структур или од­ ной из ее частных форм — булевой алгеброй.

Рассмотрим математическую сторону проблемы разде­ ления на классы подробнее.

Пусть имеется массив документов М, некоторым из ко­ торых после просмотра присвоен термин индексирования х, а остальным — у. Тогда будем иметь соответственно два клас­ са документов.

Один — это класс документов, которые принадлежат или к х-или к у, или одновременно к х и у. Такой класс обо­ значается через ХиУ и называется логической суммой (дизъ­ юнкцией).

Использование такого вида суммы двух или более клас­ сов позволяет успешно запрашивать документы, заиндексированные термином х или у.

Второй класс документов имеет место, когда документы принадлежат одновременно и к х и к у. Такой.класс обозна­

чается ХПУ. Этот кл'йсс называют пересечением или логи­ ческим произведением классов. Использование пересечения классов позволяет запрашивать документы, принадлежащие более чем к одному простому классу.

108

В терминах суммы и произведения классов свойства до­ полнения записываются следующим образом:

 

ХиУ =1,

ХПУ = 0.

 

Кроме указанных соотношений классов,

известно еще

так называемое

отношение

включения. Оно имеет место,

когда все члены

одного класса являются

также членами

другого класса. Структурная запись его имеет вид: *

 

XUXj = X,

ХПХ, — X,

 

Она означает — объединенное множество есть множе­ ство большего класса; их совместное множество есть множе­ ство меньшего класса. Например, класс «Подшипники каче­ ния» включается в более общий класс — «Подшипники».

Все возможные отношения между заранее определенны­ ми классами могут быть выражены в терминах суммы клас­ сов, их пересечения и дополнения.

Основное отношение классов в иерархической класси­ фикации — отношение включения.. Например, классы «Сое­ динение», «Сварка», «Дуговая сварка», «Сварка в защитном слое» представляют собой иерархическую цепь, ведущую вниз от родового термина «Соединение» к видовому — «Сварка в защитном слое».

Класс «Дуговая сварка» целиком включен в класс «Сварка», который в свою очередь включен в класс «Соеди­ нение».

Любые два класса в иерархической классификации либо дизъюнктивны, либо один класс включает другой. Построен­ ная на таком принципе классификация состоит из серии це­ почек, ведущих от самого широкого, родового термина к са­ мому узкому — специфическому. Новые цепи в ней могут быть порождены на любом уровне, в результате чего возни­ кают ветвления, которые совместно с цепями образуют «де­ рево».

Характерной

особенностью

«дерева»

является

отсут­

ствие замкнутых

цепей или

циклов. Обычно в нем

либо

нет ни одного пути, соединяющего два класса

(узла),

либо

есть только один такой путь — класс включает класс.

 

Указатель, основанный на

иерархической

классифика­

ции,, весьма удобен для учета отношения

включения классов

109