Файл: Белоногов Г.Г. Автоматизированные информационные системы.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 11.04.2024

Просмотров: 155

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

висходном словосочетании. С другой стороны, для деко­ дирования словосочетаний нужны точные сведения о по­ рядке следования и о формах слов, входящих в их со­ став. Учет указанных требований в одном словаре при­ водит к усложнению процесса декодирования. Поэтому

вряде случаев целесообразно иметь в АИС два словаря наименований понятий: один — для кодирования инфор­ мации, другой — для ее декодирования. Коды номеров понятий в обоих словарях должны быть одинаковыми.

Всловаре наименований понятий, предназначенном для декодирования информации, в словосочетаниях со­ храняется естественный порядок слов. Слова здесь могут быть представлены номерами их основ, номерами слово­ форм или буквенными кодами словоформ. В первом и

втором случае наряду со словарем словосочетаний необ­ ходимо иметь словарь слов (словарь основ слов или сло­ варь словоформ соответственно). Словарь наименований понятий для декодирования информации составляется одновременно со словарем для ее кодирования. Он по­ полняется по мере появления новых терминов. Распозна­ вание новых терминов производится с помощью словаря для кодирования информации, а в словарь для декоди­ рования заносится по одному трансформационному ва­ рианту - каждого термина. При составлении словарей наименований понятий на ЭВМ с ограниченной емкостью оперативной памяти могут использоваться методы, рас­ смотренные ранее.

Г л а в а 12 ПРЕДСТАВЛЕНИЕ ФОРМАЛИЗОВАННЫХ СООБЩЕНИЙ В МАШИНАХ

Общие замечания

В гл. 4 было указано, что в информационных систе­ мах основными единицами смысла являются высказыва­

ния (сообщения)

типа

х2, ..

хп).

 

Коды ПОНЯТИЙ Х і ,

F(x 1 ,

(12.1)

х2, ...,

хп в

сообщениях

соотносятся

с некоторыми конкретными или абстрактными объектами (предметами, явлениями, свойствами предметов и явле­ ний и т. п.), а коды понятий F выражают отношения между объектами. Таким образом, отношения между

204


объектами в высказываниях отображаются как отноше­ ния между понятиями. Обычно отношения между поня­ тиями в высказываниях зависят от конкретной ситуации. Но бывают и такие отношения, которые от ситуации не зависят или зависят от нее в слабой степени. Отношения первого типа мы будем называть с и т у а ц и о н н ы м и или с и н т а г м а т и ч е с к и м и , а отношения второго ти­ па — б а з и с н ы м и или п а р а д и г м а т и ч е с к и м и .

Примером парадигматических отношений между по­ нятиями являются родо-видовые отношения между ними. Парадигматические отношения обычно фиксируются в специальных массивах сообщений, оформляемых в ви­ де тезаурусов, классификационных словарей, классифи­ кационных схем и т. п. Способы представления в памяти ЭВМ сообщений, выражающих парадигматические отно­ шения между понятиями, были описаны в гл. 10. В на­ стоящей главе мы рассмотрим способы представления сообщений, выражающих синтагматические отношения.

Для записи сведений- в памяти ЭВМ имеются две крайние возможности: позиционное и комбинаторное ко­ дирование сообщений. При позиционном кодировании каждому элементу множества возможных сообщений ставится во взаимно-однозначное соответствие один раз­ ряд памяти машины. Наличие сообщения в ИПС отмеча­ ется в соответствующем разряде символом 1, а его отсут­ ствие— символом 0. В результате получается матрица или логическая шкала, состоящая из единиц и нулей. При комбинаторном кодировании разные сообщения обо­ значаются различными комбинациями символов 0 и -1, место записи кодов сообщений не играет роли. На прак­ тике чаще всего одновременно используются оба способа, причем часть признаков и элементов сообщений кодиру­ ется позиционно, выбором места записи, другая их часть — путем использования различных кодовых комби-^ наций. В процессе обработки информации многократно совершаются переходы от позиционных кодов к комби­ наторным и наоборот. При этом кодовые комбинации интерпретируются как адреса участков памяти, а поряд­ ковые номера мест записи сообщений или элементов со­ общений— как их обозначающие кодовые комбинации.

Сообщения, как и входящие в их состав понятия, мо­ гут быть объектами классификации. В качестве класси­ фикационных признаков используются свойства сообще­ ний в целом (например, их принадлежность к определен-

205

ной тематической области) или свойства их составных элементов. Классификацию сообщений целесообразно учитывать при размещении информации в памяти маши­ ны. Это позволяет выразить некоторые признаки сооб­ щений позиционно и ускорить процесс поиска.

Сообщения могут представляться в памяти ЭВМ в ви­ де последовательностей кодов понятий, входящих в их состав (кодов F, х\, х2, ..., хп)- В пределах одного сооб­ щения за каждым кодом понятия закрепляется опреде­ ленная позиция, обозначающая его функциональную роль. Сообщения могут располагаться в произвольном порядке или упорядочиваться по какому-либо признаку (например, по численным значениям кодов). Обычно

водной ячейке памяти целесообразно записывать не бо­ лее одного сообщения. Длинные сообщения размещаются

вгруппах ячеек памяти. Если сообщения имеют разную длину, то на границах между ними проставляются разде­ лительные знаки. Коды разделительных знаков должны отличаться от кодов понятий. Для записи разделитель­ ных знаков могут также выделяться заранее обусловлен­ ные участки ячеек памяти (например, один разряд или группа разрядов в каждой ячейке). Удобно в начале каждого сообщения на строго фиксированной позиции

указывать его длину в ячейках.

Коды понятий F, Х \ , Хъ ■ ■ ■ , % п могут представлять со­ бой порядковые номера их наименований по одному об­ щему словарю. Но возможно и такое представление со­ общений, когда для наименований понятий, выступаю­ щих в различной функциональной роли, составляются разные словари. Это дает возможность сократить длину кодов понятий. Коды понятий, записываемые на разных позициях, могут иметь различную длину, если ввести для сообщений жесткий формат. При этом в одном массиве сообщений могут одновременно использоваться несколь­ ко форматов.

На практике в информационных системах часто име­ ет место взаимно-однозначное соответствие между фор­ матами сообщений и кодами отношений между понятия­ ми в сообщениях. В подобных случаях порядковые номе­ ра форматов сообщений могут интерпретироваться как коды отношений. Если в некотором массиве используется только один тип формата сообщений, то нет необходимо­ сти в явном виде указывать код отношения. Он будет представлен позиционно — участком памяти, отведенным


для записи массива сообщений. Диалогичным образок, (позиционно) могут быть представлены и некоторые дру­ гие элементы сообщений; если они оказываются одинако­ выми для всего массива или для некоторого участка мас­ сива.

Сообщения можно представлять в памяти ЭВМ и в виде логических шкал. При этом поле памяти, отведен­ ное для записи одного сообщения, разбивается на участ­ ки (группы двоичных разрядов) по числу функциональ­ ных элементов в сообщении. В пределах участка за каж­ дым. возможным значением функционального элемента закрепляется один двоичный разряд. Наличие в конкрет­ ном сообщении того или иного значения функционально­ го элемента отмечается символом «1», а отсутствие — символом «О». Сообщения подобной структуры исполь­ зуются в системах автоматического перевода текстов с одного естественного языка на другой для записи грам­ матической информации к словам, а также в докумен­ тальных поисковых системах.

В рассмотренных способах представления информа­ ции связи между элементами сообщений и их функцио­ нальная роль выражались в основном : позиционными средствами. Связь между элементами отображалась путем их контактного расположения, а функциональная роль элементов — путем фиксации порядка их следова­ ния. В массивах, содержащих сообщения разной длины, для отображения связей между элементами наряду с по­ зиционными средствами использовались и разделитель­ ные знаки.

Связи между элементами сообщений и функциональ­ ная роль элементов могут выражаться и комбинаторны­ ми средствами. В этом случае необходимо сопровождать отдельные элементы или группы элементов сообщений специальными кодовыми комбинациями — у к а з а т е л я ­ ми с в я з и и у к а з а т е л я м и роли . Введение указа­ телей связи и указателей роли дает возможность снять жесткие ограничения на порядок следования элементов в сообщениях, но приводит к увеличению общей длины массива кодов сообщений.

Поиск в неупорядоченных массивах сообщений свя­ зан с большими затратами времени. Упорядочение сооб­ щений (например, расположение их по возрастанию чис­ ленных значений кодов) сокращает время поиска, но усложняет процессы обновления информации в связи

207

с необходимостью перемещения массивов при включении новых элементов или изъятии устаревших. Усложняется также задача резервирования памяти. Указанные труд­ ности сравнительно легко преодолеть, используя ассо­ циативные методы представления и поиска информации. Здесь благодаря введению ассоциативных групп для сво­ бодных ячеек отпадает необходимость в частой раздвиж­ ке или уплотнении массивов при включении новых эле­ ментов или изъятии устаревших, а резерв свободных яче­ ек оказывается распределенным по всему полю памяти, выделенному для записи массива.

Для представления в памяти ЭВМ сообщений, ото­ бражающих синтагматические отношения между поня­ тиями, целесообразно применять узловой ассоциативно­ адресный способ (см. гл. 5). По этому способу сообще­ ния, содержащие одинаковые коды понятий, объединя­ ются адресными отсылками в ассоциативные группы. Каждое сообщение одновременно входит в несколько

ассоциативных групп (по числу кодов понятий в нем),

а группы адресных отсылок,

представляющие элементы

одного сообщения, образуют

ассоциативные узлы. При­

мерная структура

массива сообщений, построенного

с применением

узлового ассоциативно-адресного спосо­

ба, показана в

гл. 5

(рис. 5.2).

Представление сообщений в памяти ЭВМ в виде узлов адресных отсылок достаточно экономно. Но в процессе поиска здесь приходится прослеживать одновременно несколько ассоциативных цепочек (по числу поисковых признаков в запросе). Этого можно избежать, если ря­ дом с каждым узлом записывать последовательность ко­ дов понятий, образующих сообщение. Тогда при поиске можно прослеживать только одну ассоциативную це­ почку, соответствующую одному из признаков запроса, а другие признаки запроса сравнивать с признаками (кодами понятий) сообщений.

Далее мы рассмотрим на примере документальной и фактографической сиетем способы представления в ма­ шинах сообщений более частного вида.

Представление информации в документальных системах дескрипторного типа

Первые экспериментальные системы поиска докумен­ тов с помощью ЭВМ были построены в начале 50-х го­ дов. В них использовались два способа записи сведений:

208


по первому способу для каждого документа указывался перечень номеров предметных рубрик, характеризующих его содержание; по второму — каждой предметной руб­ рике ставился в соответствие перечень номеров докумен­ тов, включенных в эту рубрику.

Оба способа в логическом отношении равноценны, и их можно рассматривать как два вида линейной разверт­ ки матрицы, приведенной в табл. 12.1. Здесь номерам

Т а б л и ц а 12.1

документов (аь «2 , • » ат) соответствуют строки матри­ цы, а номерам предметных рубрик (Ьь Ь2, ..., Ьп) — ее столбцы. На пересечении строк и столбцов записывается символ 1, если документ и предметная рубрика совме­ стимы, и символ 0, если документ и предметная рубрика несовместимы. Таким образом, логическая матрица, изо­ браженная в табл. 12.1, эквивалентна некоторой совокуп­ ности элементарных сообщений, отражающих распреде­ ление документов по предметным рубрикам. Элементар­ ное сообщение включает в себя номер документа и номер предметной рубрики, к которой этот документ относит­ ся. В каждом элементарном сообщении содержится ут­ верждение о принадлежности документа к определенной предметной рубрике. Системы, основанные на подобном

представлении сведений, получили название

«сист ем

к о о р д и н а т н о г о

и н д е к с и р о в а н и я

или де-

скрипторных систем.

 

 

14— 310

209


Линейную запись данных табл. І2.1 можно получить, перечисляя для каждой строки а номера тех столбцов Ь, которые в данной строке отмечены символом 1 (первый способ записи), или перечисляя для каждого столбца b соответствующие ему номера отмеченных строк а' (вто­ рой способ записи). Первый способ линейной записи ло­ гической матрицы называется п р я м ы м, второй — и н-

в е р с н ым . Соответственно

и

организация поисковой

системы, базирующаяся на

первом способе записи сведе­

ний, называется п р я м о й ,

а на

втором способе — ин­

в е р с н о й . И прямой и инверсный способы записи све­ дений о документах имеют свои достоинства и недостат­ ки, и выбор одного из них зависит от многих факторов, которые могут быть всесторонне учтены только при про­ ектировании конкретных поисковых систем. Здесь мы дадим лишь общую характеристику этих способов, не отдавая предпочтения ни одному из них.

Пусть в документальной поисковой системе имеется

рэлементарных сообщений, описывающих я документов

спомощью т предметных рубрик (р> п>т ), и пусть

каждое сообщение представлено в памяти машины одной своей компонентой, а вторые компоненты сообщений вы­ ражены позиционно. Тогда общая длина кодов сообще­ ний при прямой реализации поисковой системы составит

p\og2 in двоичных знаков,

а

при инверсной реализации

р log2 я двоичных знаков.

Так

как п>т, то первый спо­

соб представления сообщений оказывается более эконо­ мичным.

У прямого способа представления сообщений есть и более существенные преимущества перед инверсным, связанные с процессом обновления информации. Дело в том, что при подготовке сведений для ввода в машину объектом описания обычно является документ, а не пред­ метная рубрика. Документ соотносится с различными предметными рубриками и описывается в терминах пред­ метных рубрик. Дескрипторные описания документов составляются один раз и в дальнейшем, как правило, не претерпевают никаких изменений. Это позволяет при пря­ мой реализации поисковой системы максимально упро­ стить процедуру ввода информации в машину, так как новые дескрипторные описания документов записывают­

ся на свободные участки памяти почти без

изменения

их структуры.

 

В инверсных поисковых системах форма

представле-

210