Файл: Учебник для вузов Общие сведения Аппаратное обеспечение.docx

(коды с 128₁₀ по 255₁₀)

В дальнейшем основной кодировкой русских букв для первой опера- ционной системы ПК – MS DOS стала «Альтернативная кодировка ВЦ Академии Наук СССР» (вторая половина таблицы для кодов 128-255 при- ведена на рисунке 1.5). Содержит псевдографику (позволяющую в тексто- вом режиме рисовать рамки из одинарных и двойных линий). Существует несколько модификаций, отличающихся символами в последних 14 пози- циях. Зарегистрирована в IANA (InternetAssignedNumbersAuthority–ор-

ганизация, отвечающая за административное управление в Internet) как IBM866 или CP866.

Рисунок 1.5. Таблица символов DOS Cyrillic (CP866, коды с 128₁₀ по 255₁₀)

С широким распространением операционной системы Microsoft Windows и появлением ее национальных локализаций для второй полови- ны таблицы ASCII было введено понятие «кодовая страница» (code page, CP). Полная таблица кодовых страниц Microsoft Windows приведена в Приложении 1. Несколько наиболее важных кодировок показаны в таблице 1.1.

Таблица 1.1. Некоторые национальные кодовые страницы (CP) операционной системы Microsoft Windows

Локализация	ANSI CP	Mac CP	DOS (OEM) Primary CP	DOS (OEM) Secondary CP
English (United States)	1252	10000	437	850
English (Britain, Canada и др.)	1252	10000	850	437
French (Standard)	1252	10000	850	437
German (Standard)	1252	10000	850	437
Russian	1251	10007	866	855

Кодировка русских букв в операционной системе Microsoft Windows

– CP1251 – показана на рисунке 1.6.

Рисунок 1.6. Таблица символов CP1251 (коды с 128₁₀ по 255₁₀)

В операционной системе Linux для представления русских букв ис- пользуется кодировка КОИ-8R (рисунок 1.7), зарегистрированная в IANA как KOI8-R(http://koi8.pp.ru/).

Рисунок 1.7. Таблица символов KOI8-R (коды с 128₁₀ по 255₁₀)

Стандартизован и зарегистрирован также украинский клон КОИ-8 – KOI8-U (рисунок 1.8), имеющий отличия от KOI8-R во второй строке сим- волов псевдографики.

Рисунок 1.8. Таблица символов KOI8-U (коды с 128₁₀ по 255₁₀)

Кириллица Macintosh (компьютеров фирмы Apple), она же CP10007, довольно близка к CP1251. Не зарегистрирована в IANA, но часто обозна- чается как x-mac-cyrillic (рисунок 1.9).

Рисунок 1.9. Macintosh Cyrillic, CP10007 (коды с 128₁₀ по 255₁₀)

В 1991 году в Калифорнии была создана некоммерческая организа- ция Unicode Consortium, в которую входят представители многих компь- ютерных фирм (Borland, IBM, Lotus, Microsoft, Novell, Sun, WordPerfect и др.), и которая занимается развитием и внедрением стандарта «The Unicode Standard».

Стандарт кодирования символов Unicode становится доминирую- щим в интернациональных программных многоязычных средах. Microsoft Windows NT и его потомки Windows 2000, 2003, XP, Vista используют Unicode, точнее UTF-16, как внутреннее представление текста. UNIX- подобные операционные системы типа Linux, BSD и Mac OS X приняли Unicode (UTF-8), как основное представления многоязычного

текста.

Unicode резервируют 1114112 (2²⁰+2¹⁶) символов кода, в настоящее время используются более 96000 символов. Первые 256 кодов символов точно соответствуют таковым ISO8859-1, наиболее популярной 8- разрядной таблицы символов «западного мира»; в результате, первые 128

символов также идентичны таблице ASCII. На рисунке 1.10 показан рус- ский блок Unicode (коды от 0400₁₆ до 04FF₁₆).

Рисунок 1.10. Кириллица в Unicode

Кодовое пространство стандарта Unicode разделено на 17 планов («planes»), и каждый план имеет 65536 (= 2¹⁶) точек кода. Первый план (план 0), Основной Многоязычный План (BMP – Basic Multilingual Plane) – тот, в котором описано большинство символов. BMP содержит символы почти для всех современных языков, и большое количество специальных символов.

Еще два плана используются для «графических» символов. План 1, Дополнительный Многоязычный План (SMP – Supplementary MultilingualPlane) главным образом используется для исторических символов, а также используется для музыкальных и математических символов. План 2, Supplementary Ideographic Plane (SIP), используется для приблизительно 40000 редких китайских иероглифов. План 15 и План 16 открыт для любо- го частного использования.

В то же время, подобно двоичным файлам, кодировка Unicode мало подходит для непосредственной передачи по сети – байты в тексте вполне могут приходиться на область управляющих символов, поэтому обычно применяются две другие основанные на Unicode кодировки переменной длины, обозначаемые как UTF (Unicode Transformation Format): 7- битная UTF-7 (последний пересмотр – RFC2152

, 1997 г., зарегистрирована в IANA как UTF-7) и 8-битная UTF-8 (RFC2279, 1998 г., зарегистрирована в IANA как UTF-8). Обе они в каком-то смысле уже не являются языковы- ми кодировками, а являются программно распознаваемым кодом относи- тельно исходного Unicode, но зарегистрированы они именно как кодиров- ки, наравне с ISO 8859-5 или KOI8-R. Естественно, обе они не являются специфически «русскими», а пригодны для написания «сколько угодно»- язычного письма.

В UTF-8 все символы разделены на несколько групп по значению первых битов. Символы с кодами менее 128₁₀ кодируются одним байтом, первый битом которого равен нулю, а последующие 7 бит в точности соот- ветствуют 128 символам 7-й таблицы ASCII (см. таблицу 1.2), следующие 1920 символов – двумя байтами (Greek, Cyrillic, Coptic, Armenian, Hebrew и Arabic символы). Последующие символы кодируются тремя и четырьмя байтами.

Таблица 1.2. Принцип кодирования символов в UTF-8

Диапазон кодов (hexadecimal)	UTF-8 (binary)	Notes
000000 - 00007F	0xxxxxxx	Первый бит 0, следующие 7 со- ответствуют таблице ASCII
000080 - 0007FF	110xxxxx 10xxxxxx	Первые 3 бита 110 – всего ис- пользуется 2 байта, второй байт начинается с 10
000800 - 00FFFF	1110xxxx 10xxxxxx 10xxxxxx	Первые 4 бита 1110 – всего ис- пользуется 3 байта, второй и третий байты начинаются с 10
010000 - 10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	Первые 5 бит 11110 – всего ис- пользуется 4 байта, второй, третий и четвертый байты начинаются с 10

Особняком стоит 7-битная, русская кодировка – транслитерация

, или транскириллица, когда русские буквы передаются похожими по зву- чанию английскими primerno takim obrazom.

В конце 1997 г. Microsoft подвергла ревизии свои кодовые таблицы и включила в них новый символ евро- валюты "Евро" (рисунок 1.11), он помещен в позицию

128 (0x80) большинства таблиц и в позицию 136 (0x88) русской таблицы CP1251.