Файл: Учебник для вузов Общие сведения Аппаратное обеспечение.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 19.03.2024
Просмотров: 172
Скачиваний: 0
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
СОДЕРЖАНИЕ
Глава 1. Общие сведения об информационных процессах
Законодательство Российской Федерации о защите компьютерной информации
Требования к организации рабочих мест пользователей ПК
Глава 2. Аппаратное обеспечение персональных компьютеров
Устройства хранения информации
2.8 Оборудование компьютерных сетей
2.9 Оборудование беспроводных сетей
2.10. Дополнительное оборудование
(коды с 12810 по 25510)
В дальнейшем основной кодировкой русских букв для первой опера- ционной системы ПК – MS DOS стала «Альтернативная кодировка ВЦ Академии Наук СССР» (вторая половина таблицы для кодов 128-255 при- ведена на рисунке 1.5). Содержит псевдографику (позволяющую в тексто- вом режиме рисовать рамки из одинарных и двойных линий). Существует несколько модификаций, отличающихся символами в последних 14 пози- циях. Зарегистрирована в IANA (InternetAssignedNumbersAuthority–ор-
ганизация, отвечающая за административное управление в Internet) как IBM866 или CP866.
Рисунок 1.5. Таблица символов DOS Cyrillic (CP866, коды с 12810 по 25510)
С широким распространением операционной системы Microsoft Windows и появлением ее национальных локализаций для второй полови- ны таблицы ASCII было введено понятие «кодовая страница» (code page, CP). Полная таблица кодовых страниц Microsoft Windows приведена в Приложении 1. Несколько наиболее важных кодировок показаны в таблице 1.1.
Таблица 1.1. Некоторые национальные кодовые страницы (CP) операционной системы Microsoft Windows
Кодировка русских букв в операционной системе Microsoft Windows
– CP1251 – показана на рисунке 1.6.
Рисунок 1.6. Таблица символов CP1251 (коды с 12810 по 25510)
В операционной системе Linux для представления русских букв ис- пользуется кодировка КОИ-8R (рисунок 1.7), зарегистрированная в IANA как KOI8-R(http://koi8.pp.ru/).
Рисунок 1.7. Таблица символов KOI8-R (коды с 12810 по 25510)
Стандартизован и зарегистрирован также украинский клон КОИ-8 – KOI8-U (рисунок 1.8), имеющий отличия от KOI8-R во второй строке сим- волов псевдографики.
Рисунок 1.8. Таблица символов KOI8-U (коды с 12810 по 25510)
Кириллица Macintosh (компьютеров фирмы Apple), она же CP10007, довольно близка к CP1251. Не зарегистрирована в IANA, но часто обозна- чается как x-mac-cyrillic (рисунок 1.9).
Рисунок 1.9. Macintosh Cyrillic, CP10007 (коды с 12810 по 25510)
В 1991 году в Калифорнии была создана некоммерческая организа- ция Unicode Consortium, в которую входят представители многих компь- ютерных фирм (Borland, IBM, Lotus, Microsoft, Novell, Sun, WordPerfect и др.), и которая занимается развитием и внедрением стандарта «The Unicode Standard».
Стандарт кодирования символов Unicode становится доминирую- щим в интернациональных программных многоязычных средах. Microsoft Windows NT и его потомки Windows 2000, 2003, XP, Vista используют Unicode, точнее UTF-16, как внутреннее представление текста. UNIX- подобные операционные системы типа Linux, BSD и Mac OS X приняли Unicode (UTF-8), как основное представления многоязычного
текста.
Unicode резервируют 1114112 (220+216) символов кода, в настоящее время используются более 96000 символов. Первые 256 кодов символов точно соответствуют таковым ISO8859-1, наиболее популярной 8- разрядной таблицы символов «западного мира»; в результате, первые 128
символов также идентичны таблице ASCII. На рисунке 1.10 показан рус- ский блок Unicode (коды от 040016 до 04FF16).
Рисунок 1.10. Кириллица в Unicode
Кодовое пространство стандарта Unicode разделено на 17 планов («planes»), и каждый план имеет 65536 (= 216) точек кода. Первый план (план 0), Основной Многоязычный План (BMP – Basic Multilingual Plane) – тот, в котором описано большинство символов. BMP содержит символы почти для всех современных языков, и большое количество специальных символов.
Еще два плана используются для «графических» символов. План 1, Дополнительный Многоязычный План (SMP – Supplementary MultilingualPlane) главным образом используется для исторических символов, а также используется для музыкальных и математических символов. План 2, Supplementary Ideographic Plane (SIP), используется для приблизительно 40000 редких китайских иероглифов. План 15 и План 16 открыт для любо- го частного использования.
В то же время, подобно двоичным файлам, кодировка Unicode мало подходит для непосредственной передачи по сети – байты в тексте вполне могут приходиться на область управляющих символов, поэтому обычно применяются две другие основанные на Unicode кодировки переменной длины, обозначаемые как UTF (Unicode Transformation Format): 7- битная UTF-7 (последний пересмотр – RFC2152
, 1997 г., зарегистрирована в IANA как UTF-7) и 8-битная UTF-8 (RFC2279, 1998 г., зарегистрирована в IANA как UTF-8). Обе они в каком-то смысле уже не являются языковы- ми кодировками, а являются программно распознаваемым кодом относи- тельно исходного Unicode, но зарегистрированы они именно как кодиров- ки, наравне с ISO 8859-5 или KOI8-R. Естественно, обе они не являются специфически «русскими», а пригодны для написания «сколько угодно»- язычного письма.
В UTF-8 все символы разделены на несколько групп по значению первых битов. Символы с кодами менее 12810 кодируются одним байтом, первый битом которого равен нулю, а последующие 7 бит в точности соот- ветствуют 128 символам 7-й таблицы ASCII (см. таблицу 1.2), следующие 1920 символов – двумя байтами (Greek, Cyrillic, Coptic, Armenian, Hebrew и Arabic символы). Последующие символы кодируются тремя и четырьмя байтами.
Таблица 1.2. Принцип кодирования символов в UTF-8
Особняком стоит 7-битная, русская кодировка – транслитерация
, или транскириллица, когда русские буквы передаются похожими по зву- чанию английскими primerno takim obrazom.
Таким образом, в настоящее время при работе в Интернете Вы може- те встретить следующие кодировки для кириллицы:
В дальнейшем основной кодировкой русских букв для первой опера- ционной системы ПК – MS DOS стала «Альтернативная кодировка ВЦ Академии Наук СССР» (вторая половина таблицы для кодов 128-255 при- ведена на рисунке 1.5). Содержит псевдографику (позволяющую в тексто- вом режиме рисовать рамки из одинарных и двойных линий). Существует несколько модификаций, отличающихся символами в последних 14 пози- циях. Зарегистрирована в IANA (InternetAssignedNumbersAuthority–ор-
ганизация, отвечающая за административное управление в Internet) как IBM866 или CP866.
Рисунок 1.5. Таблица символов DOS Cyrillic (CP866, коды с 12810 по 25510)
С широким распространением операционной системы Microsoft Windows и появлением ее национальных локализаций для второй полови- ны таблицы ASCII было введено понятие «кодовая страница» (code page, CP). Полная таблица кодовых страниц Microsoft Windows приведена в Приложении 1. Несколько наиболее важных кодировок показаны в таблице 1.1.
Таблица 1.1. Некоторые национальные кодовые страницы (CP) операционной системы Microsoft Windows
Локализация | ANSI CP | Mac CP | DOS (OEM) Primary CP | DOS (OEM) Secondary CP |
English (United States) | 1252 | 10000 | 437 | 850 |
English (Britain, Canada и др.) | 1252 | 10000 | 850 | 437 |
French (Standard) | 1252 | 10000 | 850 | 437 |
German (Standard) | 1252 | 10000 | 850 | 437 |
Russian | 1251 | 10007 | 866 | 855 |
Кодировка русских букв в операционной системе Microsoft Windows
– CP1251 – показана на рисунке 1.6.
Рисунок 1.6. Таблица символов CP1251 (коды с 12810 по 25510)
В операционной системе Linux для представления русских букв ис- пользуется кодировка КОИ-8R (рисунок 1.7), зарегистрированная в IANA как KOI8-R(http://koi8.pp.ru/).
Рисунок 1.7. Таблица символов KOI8-R (коды с 12810 по 25510)
Стандартизован и зарегистрирован также украинский клон КОИ-8 – KOI8-U (рисунок 1.8), имеющий отличия от KOI8-R во второй строке сим- волов псевдографики.
Рисунок 1.8. Таблица символов KOI8-U (коды с 12810 по 25510)
Кириллица Macintosh (компьютеров фирмы Apple), она же CP10007, довольно близка к CP1251. Не зарегистрирована в IANA, но часто обозна- чается как x-mac-cyrillic (рисунок 1.9).
Рисунок 1.9. Macintosh Cyrillic, CP10007 (коды с 12810 по 25510)
В 1991 году в Калифорнии была создана некоммерческая организа- ция Unicode Consortium, в которую входят представители многих компь- ютерных фирм (Borland, IBM, Lotus, Microsoft, Novell, Sun, WordPerfect и др.), и которая занимается развитием и внедрением стандарта «The Unicode Standard».
Стандарт кодирования символов Unicode становится доминирую- щим в интернациональных программных многоязычных средах. Microsoft Windows NT и его потомки Windows 2000, 2003, XP, Vista используют Unicode, точнее UTF-16, как внутреннее представление текста. UNIX- подобные операционные системы типа Linux, BSD и Mac OS X приняли Unicode (UTF-8), как основное представления многоязычного
текста.
Unicode резервируют 1114112 (220+216) символов кода, в настоящее время используются более 96000 символов. Первые 256 кодов символов точно соответствуют таковым ISO8859-1, наиболее популярной 8- разрядной таблицы символов «западного мира»; в результате, первые 128
символов также идентичны таблице ASCII. На рисунке 1.10 показан рус- ский блок Unicode (коды от 040016 до 04FF16).
Рисунок 1.10. Кириллица в Unicode
Кодовое пространство стандарта Unicode разделено на 17 планов («planes»), и каждый план имеет 65536 (= 216) точек кода. Первый план (план 0), Основной Многоязычный План (BMP – Basic Multilingual Plane) – тот, в котором описано большинство символов. BMP содержит символы почти для всех современных языков, и большое количество специальных символов.
Еще два плана используются для «графических» символов. План 1, Дополнительный Многоязычный План (SMP – Supplementary MultilingualPlane) главным образом используется для исторических символов, а также используется для музыкальных и математических символов. План 2, Supplementary Ideographic Plane (SIP), используется для приблизительно 40000 редких китайских иероглифов. План 15 и План 16 открыт для любо- го частного использования.
В то же время, подобно двоичным файлам, кодировка Unicode мало подходит для непосредственной передачи по сети – байты в тексте вполне могут приходиться на область управляющих символов, поэтому обычно применяются две другие основанные на Unicode кодировки переменной длины, обозначаемые как UTF (Unicode Transformation Format): 7- битная UTF-7 (последний пересмотр – RFC2152
, 1997 г., зарегистрирована в IANA как UTF-7) и 8-битная UTF-8 (RFC2279, 1998 г., зарегистрирована в IANA как UTF-8). Обе они в каком-то смысле уже не являются языковы- ми кодировками, а являются программно распознаваемым кодом относи- тельно исходного Unicode, но зарегистрированы они именно как кодиров- ки, наравне с ISO 8859-5 или KOI8-R. Естественно, обе они не являются специфически «русскими», а пригодны для написания «сколько угодно»- язычного письма.
В UTF-8 все символы разделены на несколько групп по значению первых битов. Символы с кодами менее 12810 кодируются одним байтом, первый битом которого равен нулю, а последующие 7 бит в точности соот- ветствуют 128 символам 7-й таблицы ASCII (см. таблицу 1.2), следующие 1920 символов – двумя байтами (Greek, Cyrillic, Coptic, Armenian, Hebrew и Arabic символы). Последующие символы кодируются тремя и четырьмя байтами.
Таблица 1.2. Принцип кодирования символов в UTF-8
Диапазон кодов (hexadecimal) | UTF-8 (binary) | Notes |
000000 - 00007F | 0xxxxxxx | Первый бит 0, следующие 7 со- ответствуют таблице ASCII |
000080 - 0007FF | 110xxxxx 10xxxxxx | Первые 3 бита 110 – всего ис- пользуется 2 байта, второй байт начинается с 10 |
000800 - 00FFFF | 1110xxxx 10xxxxxx 10xxxxxx | Первые 4 бита 1110 – всего ис- пользуется 3 байта, второй и третий байты начинаются с 10 |
010000 - 10FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | Первые 5 бит 11110 – всего ис- пользуется 4 байта, второй, третий и четвертый байты начинаются с 10 |
Особняком стоит 7-битная, русская кодировка – транслитерация
, или транскириллица, когда русские буквы передаются похожими по зву- чанию английскими primerno takim obrazom.
В конце 1997 г. Microsoft подвергла ревизии свои кодовые таблицы и включила в них новый символ евро- валюты "Евро" (рисунок 1.11), он помещен в позицию 128 (0x80) большинства таблиц и в позицию 136 (0x88) русской таблицы CP1251. | Рисунок 1.11. Символ "Евро" |
Таким образом, в настоящее время при работе в Интернете Вы може- те встретить следующие кодировки для кириллицы:
-
CP1251– Cyrillic Windows – операционной системы Microsoft Windows; -
CP866– Cyrillic DOS – операционной системы MS DOS; -
ISO 8859-5– Cyrillic ISO – 8-ми битная таблица ASCII ; -
KOI8-R– операционной системы Linux; -
CP10007– операционной системы компьютеров Macintosh; -
UTF-8 – универсальная Unicode кодировка переменной длины.
- 1 2 3 4 5 6 7 8 9 ... 31