Файл: Левковиц, Д. Структуры информационных массивов оперативных систем.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 19.10.2024

Просмотров: 61

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Третий руководитель занимается организационным сопряжением. По существу, это лицо, устраняющее неувязки, почти всегда возни­ кающие при внедрении конечного проекта системы. Он работает в контакте с персоналом организации-заказчика. Следовательно, он уточняет и интерпретирует спецификацноиние и проектные докумен­ ты для программистов. Кроме того, этот руководитель занимается наймом и обучением персонала и работой по ручному вводу при создании файлов; обеспечивает работу системы в соответствии с про­ ектом. В основном вес это относится к разработке прикладных про­ грамм.

ПРИЛОЖЕНИЕ 2

АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ДЛЯ ПРОЦЕССОВ ПОИСКА

Предлагается новый подход к задаче классификации документов, основанный на применении ЭВМ. Вместо априорной классификации знаний каждый документ может быть индексирован основными де­ скрипторами (настолько глубоко, насколько это считается необхо­ димым), а затем полный словарь дескрипторов может быть класси­ фицирован в соответствии с его фактическим употреблением в общем наборе документов. Преимущества такого способа: 1) классификация может автоматически перестраиваться при изменениях технологии и философии, что отражается в новых связях дескрипторов, используе­ мых при описании документа; 2) новые дескрипторы и модифици­ рованные значения старых легко приспособляемы; 3) ссылки на раз­ личные документы внутри набора становятся более систематическими и полными; 4) используя иерархическую классификацию, пользова­ тель может сделать запрос более узким или, наоборот, более общим, получая соответственно избыточный или недостаточно полный ответ.

Основой для машинной классификации служит не априорная классификация знаний, а описание документа. Таким образом, каж­ дая подборка документов создает свою собственную классификацию, основанную на всех описаниях документов в библиотеке. Когда добавляются новые документы, классификация перестраивается.

Классификация включает в себя иерархическую или деревообразную структуру, в которой множество дескрипторов обозначаются как вершины деревьев, а каждая вершина низшего уровня (и ассо­ циируемое с ним множество дескрипторов) есть в некотором смысле подчиненная и более специфическая по отношению к вершине, его порождающей, или к некоторой вершине более высокого уровня (являющейся обобщением). Смысл этого подчинения будет далее полностью определен.

Возьмем в качестве основной модели структуру дерева, показан­ ную иа рис. П2-1. На практике дерево может содержать любое количество уровней и произвольно ветвиться в каждой вершине.

Дерево, показанное

здесь,

содержит

четыре

уровня,

две

ветви

в вершинах 1.1.1 и 1.2 <и три ветви ів вершине

1.2.2. Терминальные

(конечные)

вершины

дерева — 1 . 1 . 2 ,

1.2.1,

1.2.2.1, 1.2.2.2 и

1.2.2.3.3. .Вершина представляет собой

'некоторое

множество

дес­

крипторов

тіли ключевых терминов словаря.

Каждый

табор

дес­

крипторов

обозначается Si,,

где k — номер

вершины. Документ

пред­

ставляется в виде набора дескрипторов и ассоциируется с одной из терминальных вершин.

189



Уровни

S12.2.1

S1.2.2.2

Рис. П2-1. Классификационное

дерево Тс.

Свойство I классификационного

дерева

Каждый документ, содержащийся в библиотеке, для которого имеет­

ся классификационное дерево, описывается множеством дескрипторов

Sd,

которые полностью

содержатся в вершинах, формирующих

путь

в

этом

дереве от вершины дерева до терминальных

вершин,

т. е.

описания документов могуг содержаться в вершинах

Si, Su,

5 1 л . 2 ,

Si.2.:.3.

и т. д. Заметим,

что Sa могут

не иметь

некоторых

дескрип­

торов из множества вершин, образующих путь к Sd.

 

 

 

 

 

 

Свойство

II классификационного

дерева

 

 

 

 

Каждый дескриптор появляется только один раз внутри

множества

вершин

определенного пути. Например, в пути

из вершин /, /./ и

1.1.2 те дескрипторы, которые есть в вершине 1, отсутствуют в вер­

шинах /./ или 1.1.2. Вершины, которые

встречаются в /./, отсутству­

ют в /

или 1.1.2, а те, которые есть в 1.1.2, отсутствуют

в I или /./.

 

Эта

классификация

отличается от той, в которой

дескрипторы

присваиваются в соответствии с семантической

иерархией, как, на­

пример,

физика — оптика — дифракция

в тезаурусе

DDC. Вместо

этого дескрипторы размещаются в множестве

Si, SiA

 

и т. д. без

априорных предположений относительно семантических связей. Одна­ ко дескрипторы в множестве Si используются вместе с дескриптора­

ми из Si.i и Si.г или вместе

с дескрипторами вершин низких уровней

по отношению к Su

и Si.

2 . Поэтому

при употреблении дескрипто­

ров из Si получаем

более обобщенные

сведения, чем при употребле­

нии дескрипторов из вершинболее низких уровней.

С каждой терминальной вершиной связывается часть машинной памяти, называемая сектором. Внутри секторов размещаются записи документа с дескрипторами (ключами) m множеств тех вершин, лежащих «а путях, которые заканчиваются в терминальной вер­ шине.

Возможно, что множество дескрипторов документа Sd может лежать па пути, имеющем несколько терминальных вершин, к кото-

190


"рым он может прийти. Нужно решить, какой терминальной першнне может соответствовать документ. Например, Sd может полностью содержаться в Si (J Su. Позднее будет объяснено, как решается поставленная задача. Таким образом, каждое описание документа ассоциируется с некоторой терминальной вершиной, которая в свою очередь ассоциируется с некоторой частью памяти, называемой сектором. На практике сектор может быть цилиндром дискового фай­ ла, серией дорожек, обслуживаемых одной головкой диска, полоской или картон магнитной памяти или сегментом магнитной ленты.

/. Поиск с помощью конъюнкции ключей

Созданная структура дерева используется для поиска документов следующим образом.

Сначала вершины дерева нумеруются так, что число групп в но­ мере представляет собой номер уровня вершины, а каждая группа подсчитывает число ветвей от порождающей вершины (номер ко­ торой в свою очередь приписан к очередной группе слева). Вершины на рис. П2-1 пронумерованы именно таким способом.

Для декодирования описания запроса в номерах секторов с за­ писями документов, удовлетворяющих этим описаниям ЗУПД, долж­ ны содержать две таблицы. Первая таблица называется таблицей ключей-вершин (ТКВ). Вторая таблица содержит список всех тер­ минальных вершин в виде канонических номеров, каждый с соответ­ ствующим ему номером сектора или адресом. Эта таблица будет со­

кращенно

'называться

ТТВ. Таблица

ключей-вершин переводит дан­

ный ключ

в вершины

(канонические

номера), в которых ключ по­

является. Поиск ответа на запрос, содержащий конъюнкцию клю­ чей, производится по следующему алгоритму.

1. Используя ТКВ, формируем таблицу, которая размещает все вершины с наименьшим количеством цифр (групп) в колонку I, все вершины со следующим, большим-количеством цифр — в колонку II и т. д. Дополнительно, кроме номера вершины, в скобках помещается номер ключа. Например, предположим, что запрос содержит конъ­

юнкцию ключей

1, 5, 8 и ТКВ указывает,

что ключ 1 содержится

в вершинах 1.1 и 1.3.8.5.2.1;

ключ 5 содержится в вершинах

1.1.2 и

1.3.8.5, а ключ 8 есть в вершине 1.3.8. Тогда

сформированная

табли­

ца будет выглядеть так:

 

 

 

 

 

 

I

II

III

 

IV

 

 

1.1(1)

1.1.2(5)

1.3.8.5(5)

1.3.8.5.2.1.(1)

 

 

 

 

1.3.8(8)

 

 

 

 

 

2. Используя эту таблицу, найдем

путь, который включает все

дескрипторы в конъюнкции запроса.

 

 

 

 

В п. 1 путь, включающий дескрипторы 8,5,1, находится в колон­

ках

II — IV . Алгоритм нахождения этого тгутп обычный, комбинатор­

ный.

Все вершины колонки

I сравниваются с вершинами колонок

I I — I V и т. д. Этот процесс

должен

быть

продолжен до тех пор,

пока все возможные пути не будут найдены.

 

 

 

Перед

тем, как перейти

к следующему этапу, необходимо сде­

лать

одно

замечание. Так как вершине может соответствовать не­

сколько ключей, то возможна следующая таблица:

 

 

 

 

I

II

 

 

 

 

 

1.2(7)

1.2.4.1 (4)

 

 

 

 

 

 

1.2.4.1(6)

 

191


Она изображает путь для

запросов 4,7 п

16, и из

таблицы

видно, что путь

может содержать некоторую вершину повторно.

3. Если путь

(содержащий

все дескрипторы

запроса)

не может

быть найден в таблице, то такой документ не существует. В этом случае пользователь должен был бы изменить свои запрос удалением либо изменением одного или более ключей в конъюнкции.

Если существует один или более путей, то для каждого пути производится поиск в соответствующем секторе. Эти сектора на­ ходятся следующим образом: для каждого пути выбирается послед­

няя вершина

(вершина

с самым

длинным

номером).

Этот

номер

находится в таблице терминальных

вершин

(ТТВ), которая

ставит

в соответствие

каждой

.последней

вершине

десятичное

число. Эти

числа указывают номер искомого сектора.

 

 

 

Например, в п. 3 путь, указываемый

шагами

один и два, был

бы 1.3.8.5, 1.3.8.5.2.1. Последняя вершина

(самый

длинный

номер)

есть 1.3.8.5.2.1. Предположим, что ТТВ выглядит

следующим

обра­

зом:

 

 

 

Номер пер пины

Сектор

 

 

1.1.3.4.118

1.2.1.119

1.2.220

1.2.4.6.1.7.121

1.2.4.6.1.7.222

1.3.7.6.23

1.3.7.8.24

1.3.8.5.2.1.1.25

1.3.8.5.2.1.2.1

26

1 . 3 . 8 . 5 . 2 . 1 . 2 . 2»

27

1.3.8.5.2.1.3.28

1.3.9.7.29

Из просмотра ТТВ видно, что вершина 1.3.8.5.2.1 не терминаль­

ная и ведет к четырем терминальным вершинам с номерами

секторов

25—28, и поэтому дальнейший поиск требуемых документов

должен

вестись в этих секторах

(и только в этих секторах).

 

В зависимости от

внутренней организации сектора документы

в нем расположены либо последовательно, либо имеют списковую структуру (см. § 7-4).

2. Строение классификационного дерева Тс

2-1. Строение промежуточного дерева 7\. Непосредственный путь построения дерева был бы следующим. Найти группы документов, имеющих максимальное (в некотором смысле) пересечение дескрип­ торов. Эти группы образовали бы сектора, а объединение всех дескрипторов в каком-либо секторе стало бы нижней вершиной дерева. Далее пари (или тройки, или более высокие объединения) этих вершин объединялись бы в соответствии с наибольшим коли­ чеством пересечений дескрипторов для того, чтобы сформировать вершины следующего, более высокого уровня, а дескрипторы из пе­ ресечения включались бы в более высокую (родительскую) вершину

192