Файл: Ливенцев В.В. Кибернетика горных предприятий (основные положения) учеб. пособие.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 02.08.2024

Просмотров: 69

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

 

 

 

 

Т а б л и ц а 7

 

Вероятности появления букв в русском тексте

Буква

Вероятность

Буква

Вероятность

появления

появления

 

 

 

Промежуток

 

 

 

между

словами

0,145

я

0,019

о

 

0,095

ы

0,016

е,

ё

0,074

3

0,015

а

 

0,064

ь, ъ

0,015

и

 

0,064

6

0,015

т

 

0,056

г

0,014

H

 

0,056

ч

0,013

с

 

0,047

й

0.010

р

 

0,041

X

0,009

в

 

0,039

ж

0.007

л

 

0,036

ю

0,006

к

 

0.029

ш

0,006

M

 

0,026

Ц

0.0С4

д

 

0,026

Щ

0,003

п

 

0,024

э

0,003

У

 

0,021

•ф

0,002

П р и м е ч а н и е .

Промежуток

между словами

условно считается

буквой.

Т а б л и ц а 8

 

Код Фено для букв русского алфавита

 

Буква

Код

Буква

Код

 

(двоичные знаки)

(двоичные

знаки)

 

 

Промежуток

0 0 0

 

1 1 0

1 1 0

между словами

я

о

0 0 1

ы

1 1 0 1 1 1

е, ё

0 1 0 0

s

1 1 1 0 0 0

а

0 1 0 1

ь, ъ

1 1 1 0 0 1

и

0 1 1 0

б

1 1 1 0 1 0

т

0 1 1 1

г

1 1 1 0 11

н

1 0 0 0

ч

1 1 1 1 0 0

с

1 0 0 1

й

1 1 1 1 О 1 0

р

1 0 1 0 0

X

1 1 1 1 0 11

в

1 0 1 0 1

ж

1 1 1 1 1 0 0

л

1 0 1 1 0

ю

1 1 1 1 1 0 1

к

1 0 1 1 1

ш

1 1 1 1 1 1 0 0

w

1 1 0 0 0

Ц

1 1 1 1 1 1 0 1

д

1 1 0 0 1 0

Щ

1 1 1 1 1 1 1 0

п

1 1 0 0 11

э

1 1 1 1 1 1 1 1 0

У

1 1 0 1 0 0

ф

1 1 1 1 1 1 1 1 1

57


 

32

/ = -

2 A log, Л = — (0,145 log, 0,145 +

- f 0,095

log2 0,0095 + 0,074log,0,074 + ... +

+

0,002 log2 0,002)= 4,35 бита.

Если бы все буквы алфавита имели равные вероятности появления в тексте, то каждая буква несла следующее коли­

чество информации:

^

max —

 

І = 1

 

На самом же деле последовательные

буквы конкретного

алфавита не независимы. Сочетание букв «киберне...» вряд ли вызовет сомнение в следующей букве. Наличие в языках опре­ деленных закономерностей позволяет значительно уменьшить число двоичных единиц (битов) для передачи одной буквы.

В самом деле, приняв по телеграфу начало нового слова, например ст..., нельзя сказать, какие буквы последуют даль­ ше: может быть, передаваемое слово окажется «стойкой» или «стволом», может быть, «стоимостью», «степенью» или «строи­ тельством». Однако, если подсчитать на материале большого количества самых разнообразных текстов, сколько раз встре­ чается каждая буква алфавита после букв с и т, мы узнаем вероятность появления различных букв. И тогда окажется, что появление некоторых букв вслед за буквами с и г имеет боль­ шую вероятность (например, буквы е, о, а, р), других букв — меньшую (например, ы, в), а для многих букв вероятность будет вовсе равна нулю: ведь нельзя вспомнить ни одного слова, в котором за буквами ст следовали бы буквы б, г или щ. Значит, в передаваемом тексте появление тех или иных

букв

не является

«чисто случайным»;

между последующими

и предыдущими

значениями передаваемых букв

существует

определенная взаимосвязь.

 

 

Возможно подсчитать условную информацию 1Аі 2 ) по­

явления следующей буквы 2), если

известна

предыдущая

(Ai).

Далее необходимо вычислить информацию

появления

третьей

буквы, зная все предыдущие ІАіА,

3 ) и т. д.

Тогда

для п

букв

потребуется I(Alt

А2,

Ап) — I (А{) +

+ ^At(Aï)

+ ••• +

іа>Аі ••• л л - і И п ) двоичных символов. Следова-

тельно,

на одну

букву в среднем придется при достаточно

больших п следующее число бит:

 

 

/(A1)

+

IAL(A3)

+ . . . +

I A T M . . .An-V{An)

I AtAf-

An-l

 

 

 

П

 

 

 

58


Это следует

из того, что все

IА,А,---АІ-ІІАІ)

 

положитель­

ны и не возрастают с ростом і.

Тогда

для

достаточно

боль­

ших і значение

/дм.---лг-і(Л-)

можно считать

постоянным.

Обозначим

через

/ m i l l предельное

значение

величины

Л. А,— Ап-іі^п)

 

(предел

П-УОО),

т. е. текст

можно

закодиро­

вать так, чтобы среднее число двоичных символов

на

букву

было как угодно близко к / т і П .

 

 

 

 

 

 

Отношение

/ш ,-„ к максимально возможной

информации

одной буквы

/„ах называется коэффициентом сжатия

языка,

т. е.

 

 

 

 

 

 

 

 

 

 

 

 

£ = - ^ - ,

 

 

 

(11.60)

 

 

 

Лпах

 

 

 

 

 

где k — коэффициент сжатия;

 

 

 

 

 

 

Лпахинформация,

которую

несет

одна

буква

алфавита

при

равной вероятности их появления

в

тексте.

Таким образом, коэффициент сжатия отражает имеющую­ ся закономерность в построении слов данного языка. Если бы такой закономерности не было, то буквы в словах следовали бы друг за другом в хаотическом порядке и /тіп=ЛпахКоэф­ фициент сжатия в этом случае был бы равным 1.

В теории кодирования вводится еще одно понятие — избы­ точность языка. Численное значение избыточности языка определяется формулой

 

R=l—k,

 

(11.61)

 

где R — избыточность языка;

 

 

 

 

k — коэффициент сжатия.

 

 

 

 

Избыточность языка

отражает существующий

порядок

в

языке. Чем выше показатель R, тем выше этот

порядок.

 

Подсчитаем величины

k я R для русского

языка.

 

В нормальном тексте средняя длина слова

составляет

обычно не более 7 букв. Проведя соответствующие

подсчеты,

можно получить

д7 8 ) = 1,85 бита и принять / т і п

=

= 1,85 бита. Тогда коэффициент

сжатия

 

 

 

log2

32

5

 

 

 

Избыточность равна

 

 

 

 

 

# = 1 —0,37 = 0,63.

Отметим, что избыточность в значительной степени опре­ деляется тем, на основе какой литературы исследуются зави­ симости букв алфавита. Например, в специальной литературе много терминов, специфических выражений и т. д. Коэффи-

59



циент сжатия для такой литературы получится значительно меньшим, чем для художественных произведений, а значит, избыточность специальной литературы выше, чем художест­ венной. Поэтому чтение специальных текстов на иностранном языке значительно проще, чем чтение художественных произ­ ведений.

Количество информации, содержащееся в сообщении, точ­ но говорит, как много мы узнаем в результате сообщения. Возникает вопрос, почему же мы пользуемся расширенным объемом посылаемых сообщений, пользуемся избыточной ин­ формацией. Избыточность информации позволяет нам повы­ сить надежность передаваемого сообщения, защитить смысл информации от возможных искажений, шумов и помех при передаче.

Рассмотрим простой пример. Предположим, в библиотеке выписаны шифры необходимых книг. Через некоторое время понадобилась книга с шифром Б-1264. При пересылке требо­ вания была искажена одна цифра и в результате получена не та книга. Теперь допустим, что послан не шифр, а полное название книги: В. Г. Болтянский. «Математические методы оптимального управления». В принятом сообщении были до­ пущены следующие ошибки: «Балтянский» вместо «Болтян­ ский, «етоды» вместо «методы», «упраления» вместо «управ­ ления», но смысл сохранился, и несомненно будет прислана именно эта книга. Избыточность информации принесла пользу.

Посторонние явления, протекающие в системе связи, вызы­ вают различные искажения передаваемых сообщений: искаже­ ния звука при разговоре по телефону, искажения изображения на экране телевизора и т. д. В результате этих помех (шумов) искажается количество информации, содержащейся в сообще­ нии. Уровень помех может быть таким большим, что полно­ стью исказит передаваемое сообщение. Поэтому достовер­ ность — одно из важнейших требований при передаче инфор­ мации. Уменьшение возможности ошибки может быть достиг­ нуто за счет увеличения избыточности сообщения. Именно высокая избыточность облегчает исправление возникающих ошибок. Мы увеличили избыточность при передаче заказа книги, и три ошибки не смогли изменить смысла передаваемо­ го сообщения. Надежность передачи может быть достигнута и путем повторных передач одних и тех же данных. Например, если бы один и тот же шифр Б-1264 был написан трижды, одна ошибка не исказила бы его смысла. Поэтому в практике библиотечного дела принято записывать полное название книги и ее один или несколько шифров.

Но увеличивая помехоустойчивость, повышая избыточность информации, мы заведомо уменьшаем скорость передачи ин­ формации, которая должна быть своевременной. Поэтому в каждом конкретном случае необходимо найти оптимальную

60