Файл: Ливенцев В.В. Кибернетика горных предприятий (основные положения) учеб. пособие.pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 02.08.2024
Просмотров: 69
Скачиваний: 1
|
|
|
|
Т а б л и ц а 7 |
|
|
Вероятности появления букв в русском тексте |
||||
Буква |
Вероятность |
Буква |
Вероятность |
||
появления |
появления |
||||
|
|
|
|||
Промежуток |
|
|
|
||
между |
словами |
0,145 |
я |
0,019 |
|
о |
|
0,095 |
ы |
0,016 |
|
е, |
ё |
0,074 |
3 |
0,015 |
|
а |
|
0,064 |
ь, ъ |
0,015 |
|
и |
|
0,064 |
6 |
0,015 |
|
т |
|
0,056 |
г |
0,014 |
|
H |
|
0,056 |
ч |
0,013 |
|
с |
|
0,047 |
й |
0.010 |
|
р |
|
0,041 |
X |
0,009 |
|
в |
|
0,039 |
ж |
0.007 |
|
л |
|
0,036 |
ю |
0,006 |
|
к |
|
0.029 |
ш |
0,006 |
|
M |
|
0,026 |
Ц |
0.0С4 |
|
д |
|
0,026 |
Щ |
0,003 |
|
п |
|
0,024 |
э |
0,003 |
|
У |
|
0,021 |
•ф |
0,002 |
|
П р и м е ч а н и е . |
Промежуток |
между словами |
условно считается |
буквой.
Т а б л и ц а 8
|
Код Фено для букв русского алфавита |
|
|||
Буква |
Код |
Буква |
Код |
|
|
(двоичные знаки) |
(двоичные |
знаки) |
|||
|
|
||||
Промежуток |
0 0 0 |
|
1 1 0 |
1 1 0 |
|
между словами |
я |
||||
о |
0 0 1 |
ы |
1 1 0 1 1 1 |
||
е, ё |
0 1 0 0 |
s |
1 1 1 0 0 0 |
||
а |
0 1 0 1 |
ь, ъ |
1 1 1 0 0 1 |
||
и |
0 1 1 0 |
б |
1 1 1 0 1 0 |
||
т |
0 1 1 1 |
г |
1 1 1 0 11 |
||
н |
1 0 0 0 |
ч |
1 1 1 1 0 0 |
||
с |
1 0 0 1 |
й |
1 1 1 1 О 1 0 |
||
р |
1 0 1 0 0 |
X |
1 1 1 1 0 11 |
||
в |
1 0 1 0 1 |
ж |
1 1 1 1 1 0 0 |
||
л |
1 0 1 1 0 |
ю |
1 1 1 1 1 0 1 |
||
к |
1 0 1 1 1 |
ш |
1 1 1 1 1 1 0 0 |
||
w |
1 1 0 0 0 |
Ц |
1 1 1 1 1 1 0 1 |
||
д |
1 1 0 0 1 0 |
Щ |
1 1 1 1 1 1 1 0 |
||
п |
1 1 0 0 11 |
э |
1 1 1 1 1 1 1 1 0 |
||
У |
1 1 0 1 0 0 |
ф |
1 1 1 1 1 1 1 1 1 |
57
|
32 |
/ = - |
2 A log, Л = — (0,145 log, 0,145 + |
- f 0,095 |
log2 0,0095 + 0,074log,0,074 + ... + |
+ |
0,002 log2 0,002)= 4,35 бита. |
Если бы все буквы алфавита имели равные вероятности появления в тексте, то каждая буква несла следующее коли
чество информации: |
^ |
max — |
|
І = 1 |
|
На самом же деле последовательные |
буквы конкретного |
алфавита не независимы. Сочетание букв «киберне...» вряд ли вызовет сомнение в следующей букве. Наличие в языках опре деленных закономерностей позволяет значительно уменьшить число двоичных единиц (битов) для передачи одной буквы.
В самом деле, приняв по телеграфу начало нового слова, например ст..., нельзя сказать, какие буквы последуют даль ше: может быть, передаваемое слово окажется «стойкой» или «стволом», может быть, «стоимостью», «степенью» или «строи тельством». Однако, если подсчитать на материале большого количества самых разнообразных текстов, сколько раз встре чается каждая буква алфавита после букв с и т, мы узнаем вероятность появления различных букв. И тогда окажется, что появление некоторых букв вслед за буквами с и г имеет боль шую вероятность (например, буквы е, о, а, р), других букв — меньшую (например, ы, в), а для многих букв вероятность будет вовсе равна нулю: ведь нельзя вспомнить ни одного слова, в котором за буквами ст следовали бы буквы б, г или щ. Значит, в передаваемом тексте появление тех или иных
букв |
не является |
«чисто случайным»; |
между последующими |
|
и предыдущими |
значениями передаваемых букв |
существует |
||
определенная взаимосвязь. |
|
|
||
Возможно подсчитать условную информацию 1Аі (Л2 ) по |
||||
явления следующей буквы (А2), если |
известна |
предыдущая |
||
(Ai). |
Далее необходимо вычислить информацию |
появления |
третьей |
буквы, зная все предыдущие ІАіА, |
(Л3 ) и т. д. |
||||
Тогда |
для п |
букв |
потребуется I(Alt |
А2, |
Ап) — I (А{) + |
|
+ ^At(Aï) |
+ ••• + |
іа>Аі ••• л л - і И п ) двоичных символов. Следова- |
||||
тельно, |
на одну |
букву в среднем придется при достаточно |
||||
больших п следующее число бит: |
|
|
||||
/(A1) |
+ |
IAL(A3) |
+ . . . + |
I A T M . . .An-V{An) |
I AtAf- |
An-l |
|
|
|
П |
|
|
|
58
Это следует |
из того, что все |
IА,А,---АІ-ІІАІ) |
|
положитель |
|||||
ны и не возрастают с ростом і. |
Тогда |
для |
достаточно |
боль |
|||||
ших і значение |
/дм.---лг-і(Л-) |
можно считать |
постоянным. |
||||||
Обозначим |
через |
/ m i l l предельное |
значение |
величины |
|||||
Л. А,— Ап-іі^п) |
|
(предел |
П-УОО), |
т. е. текст |
можно |
закодиро |
|||
вать так, чтобы среднее число двоичных символов |
на |
букву |
|||||||
было как угодно близко к / т і П . |
|
|
|
|
|
|
|||
Отношение |
/ш ,-„ к максимально возможной |
информации |
|||||||
одной буквы |
/„ах называется коэффициентом сжатия |
языка, |
|||||||
т. е. |
|
|
|
|
|
|
|
|
|
|
|
|
£ = - ^ - , |
|
|
|
(11.60) |
||
|
|
|
Лпах |
|
|
|
|
|
|
где k — коэффициент сжатия; |
|
|
|
|
|
|
|||
Лпах— информация, |
которую |
несет |
одна |
буква |
алфавита |
||||
при |
равной вероятности их появления |
в |
тексте. |
Таким образом, коэффициент сжатия отражает имеющую ся закономерность в построении слов данного языка. Если бы такой закономерности не было, то буквы в словах следовали бы друг за другом в хаотическом порядке и /тіп=ЛпахКоэф фициент сжатия в этом случае был бы равным 1.
В теории кодирования вводится еще одно понятие — избы точность языка. Численное значение избыточности языка определяется формулой
|
R=l—k, |
|
(11.61) |
|
|
где R — избыточность языка; |
|
|
|
|
|
k — коэффициент сжатия. |
|
|
|
|
|
Избыточность языка |
отражает существующий |
порядок |
в |
||
языке. Чем выше показатель R, тем выше этот |
порядок. |
|
|||
Подсчитаем величины |
k я R для русского |
языка. |
|
||
В нормальном тексте средняя длина слова |
составляет |
||||
обычно не более 7 букв. Проведя соответствующие |
подсчеты, |
||||
можно получить |
д7 (Л8 ) = 1,85 бита и принять / т і п |
= |
|||
= 1,85 бита. Тогда коэффициент |
сжатия |
|
|
|
|
log2 |
32 |
5 |
|
|
|
Избыточность равна |
|
|
|
|
|
# = 1 —0,37 = 0,63.
Отметим, что избыточность в значительной степени опре деляется тем, на основе какой литературы исследуются зави симости букв алфавита. Например, в специальной литературе много терминов, специфических выражений и т. д. Коэффи-
59
циент сжатия для такой литературы получится значительно меньшим, чем для художественных произведений, а значит, избыточность специальной литературы выше, чем художест венной. Поэтому чтение специальных текстов на иностранном языке значительно проще, чем чтение художественных произ ведений.
Количество информации, содержащееся в сообщении, точ но говорит, как много мы узнаем в результате сообщения. Возникает вопрос, почему же мы пользуемся расширенным объемом посылаемых сообщений, пользуемся избыточной ин формацией. Избыточность информации позволяет нам повы сить надежность передаваемого сообщения, защитить смысл информации от возможных искажений, шумов и помех при передаче.
Рассмотрим простой пример. Предположим, в библиотеке выписаны шифры необходимых книг. Через некоторое время понадобилась книга с шифром Б-1264. При пересылке требо вания была искажена одна цифра и в результате получена не та книга. Теперь допустим, что послан не шифр, а полное название книги: В. Г. Болтянский. «Математические методы оптимального управления». В принятом сообщении были до пущены следующие ошибки: «Балтянский» вместо «Болтян ский, «етоды» вместо «методы», «упраления» вместо «управ ления», но смысл сохранился, и несомненно будет прислана именно эта книга. Избыточность информации принесла пользу.
Посторонние явления, протекающие в системе связи, вызы вают различные искажения передаваемых сообщений: искаже ния звука при разговоре по телефону, искажения изображения на экране телевизора и т. д. В результате этих помех (шумов) искажается количество информации, содержащейся в сообще нии. Уровень помех может быть таким большим, что полно стью исказит передаваемое сообщение. Поэтому достовер ность — одно из важнейших требований при передаче инфор мации. Уменьшение возможности ошибки может быть достиг нуто за счет увеличения избыточности сообщения. Именно высокая избыточность облегчает исправление возникающих ошибок. Мы увеличили избыточность при передаче заказа книги, и три ошибки не смогли изменить смысла передаваемо го сообщения. Надежность передачи может быть достигнута и путем повторных передач одних и тех же данных. Например, если бы один и тот же шифр Б-1264 был написан трижды, одна ошибка не исказила бы его смысла. Поэтому в практике библиотечного дела принято записывать полное название книги и ее один или несколько шифров.
Но увеличивая помехоустойчивость, повышая избыточность информации, мы заведомо уменьшаем скорость передачи ин формации, которая должна быть своевременной. Поэтому в каждом конкретном случае необходимо найти оптимальную
60