Файл: Среднее профессиональное образование.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 29.04.2024

Просмотров: 159

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
символы пишущей машинки, как правило, имеют одинаковую ширину (моноширинные). Именно эти две особенности должен учитывать FineReader при распознавании. На обычных типограф- ских шрифтах тип печати должен быть установлен в Auto.
9.9. ПРОВЕРКА ПРАВОПИСАНИЯ И СОХРАНЕНИЕ
РЕЗУЛЬТАТОВ РАБОТЫ
Модуль распознавания анализирует не только отдельные сим- волы, но и целые слова, используя при этом встроенный словарь.
Кроме того, этот модуль особым образом помечает «неуверенно распознанные» символы.
Работа со словами, неизвестными системе, и с неуверенно распознанными символами осуществляется в модуле проверки правописания. Он вызывается кнопкой Проверить правописание.
На рис. 9.5 вы видите спеллер FineReader за работой. Он предла- гает варианты, один из которых надо выбрать и нажать кнопку
Заменить. Можно поправить ошибку прямо в окне спеллера, а можно оставить слово, как оно есть, если это правильное, но не известное спеллеру слово, и тогда воспользуемся кнопкой Про-
пустить.
Весь распознанный текст виден в окне текста главного окна программы. Оно представляет собой несложный текстовый редак- тор, позволяющий свободно изменять и гарнитуру шрифта, и его начертание. К тому же в этом окне цветом будут отмечены неуве- ренно распознанные символы.
Рис. 9.5. Диалогоиос окно проверки ирапописания
214
Рис. 9.6. Выбор формата сохранения изображения
После окончания проверки правописания следует определить,
в каком формате сохранять полученные результаты (кнопка Сохра-
нить), например RTF, DOC, PDF, HTML, DBF, XLS (рис. 9.6).
Как видно из приведенного списка, FineReader позволяет пе- редавать результаты распознавания практически во все широко используемые приложения, такие как MS Word, MS Excel, а так- же использовать автоматический ввод для публикации в Web и для заполнения баз данных. Такая универсальность подчас оказы- вается просто незаменимой.
9.10. А ЕСЛИ ВЫ ПОЛЬЗУЕТЕСЬ ДРУГОЙ OCR-СИСТЕМОЙ?
У каждой модели сканера своя программа, в ней свои настрой- ки, свои возможности. Но есть и кое-что общее.
Практически все программы делают быстрое предварительное сканирование (Preview), после которого вы можете:
• выделить мышью область сканирования. Если не производить выделение, тогда сканируется все рабочее поле сканера или же предыдущая ручная установка этой области;
• выбрать режим сканирования: цветной файл с различным ко- личеством цветов, черно-белый, в оттенках серого и другие режимы;
• выставить параметры яркости, контраста или выбрать авто- матическое определение этих параметров;
• запустить основное сканирование (Scan). '
215


Было бы неплохо научиться подбирать параметры изображе- ния для оригиналов плохого качества в зависимости от вида де- фектов исходного текста, ведь одно дело, когда текст напечатан бледной лентой печатной машинки, и совсем другое, когда шрифт слишком темный с жирными заплывшими буквами. И уж совсем иначе выглядят настройки для сканирования газетного листа на плохой бумаге с мелким шрифтом.
Подбор настроек сканера уменьшает количество неверно рас- познанных букв до вполне приемлемого качества сканирования и распознавания — есть надежда, что ошибки будут не в каждом слове, а хотя бы через строчку.
Это интересно
Самый важный параметр для программ распознавания яр-
кость. Опытные люди говорят, что изменения яркости примерно
на 3% может изменить количество ошибок на целых 15 %.
Особенно важен подбор оптимальной яркости при сканирова- нии достаточно большого объема текста низкого качества, ведь повозившись 10 ... 15 мин с настройками вы сэкономите часы му- торной и канительной работы по вылавливанию ошибок. Подбор выполнить несложно: вы сканируете одну и ту же страничку тек- ста 4...5 раз, изменяя яркость в обе стороны от среднего значе- ния.
После этого каждое изображение распознавайте той програм- мой, которая имеется в вашем распоряжении, и сосчитайте коли- чество ошибок по каждому варианту. Те настройки более правиль- ные, где ошибок меньше всего. Можно повторить цикл подбора уже вокруг варианта с меньшим количеством ошибок, уменьшая шаг отклонения. И не забудьте, что выискивать ошибки лучше спеллером (проверкой правописания), ведь читая текст с экрана многие ошибки можно просто не заметить.
Контрольные вопросы
1. Для чего используются программы оптического распознавания текста?
2. Перечислите принципы технологии распознавания.
3. Чем этап сканирования отличается от распознавания?
4. Как называются встроенные программы проверки правописания?
5. Как осуществить подбор оптимальной яркости при сканировании?
Глава 10
СИСТЕМЫ МАШИННОГО ПЕРЕВОДА
Глобализация мировой экономики и интеграционные процес- сы в Европе сделали проблему взаимопонимания различных на- родов особенно актуальной. К тому же всемирная сеть Интернет открыла доступ к мировым многоязычным информационным ре- сурсам, и все это в комплексе явилось мощным стимулом разви- тия переводческих услуг.
10.1. СРЕДСТВА АВТОМАТИЗАЦИИ ПЕРЕВОДОВ
Традиционный перевод текстов, т.е. без применения средств автоматизации, перестает устраивать, поскольку требует больших затрат времени. Какие средства автоматизации перевода текстов появились благодаря возможностям компьютера?
Прежде всего, это текстовый редактор, сокративший время на последующее редактирование перевода, а также многочис- ленные электронные словари, позволяющие быстро и без труда находить требуемое значение любого слова и вставлять его в пе- реведенный текст. Применение только этих средств обеспечило рост производительности перевода на 20...30% по сравнению с ручной работой.
Следующим шагом автоматизации перевода стало применение систем Translation Memory (TM) и технологий машинного пере- вода (МП). Принцип работы систем ТМ построен на сравнении текста, подлежащего переводу, с внутренней базой, хранящей разбитый на предложения параллельный текст на исходном язы- ке и его перевод, полученный традиционным способом. При за- грузке нового документа в ТМ-систему происходит его разделе- ние на сегменты и сопоставление с текстами из базы. Часть этих сегментов оказывается уже переведенной ранее, и система визуа- лизирует их как уже известные, другие — как частично совпадаю- щие с БД, а некоторые — как требующие перевода.
Таким образом, переводчику не нужно тратить усилия на то,
что он уже делал прежде. Подобные системы оказываются весьма
217

эффективными при переводе аналогичных документов, например повторяющейся технической документации: ее можно перевести один раз, а для последующих выпусков достаточно переводить лишь изменения в первоисточнике.
Наиболее известными системами ТМ в настоящее время явля- ются Trados TWB и Transit. Они используются в большинстве пе- реводческих бюро мира. В России они пока не получили широкого распространения в силу относительно высокой стоимости.
Технологии МП тоже нашли определенное место при автоматиза- ции процесса переводов. Но наибольшую эффективность обеспечи- вает комплексное решение, опирающееся на все имеющиеся в насто- ящий момент лингвистические технологии машинного перевода.
10.2. ИСТОРИЯ ЭЛЕКТРОННОГО ПЕРЕВОДА
Работы по машинному переводу начались с середины 1950-х годов.
Это интересно
В 2004 г. мы будем отмечать неофициальный юбилей
50-летие машинного перевода, В далеком 1954 г. в Джорджтаун-
ском университете (США) были проведены первые эксперименты,
доказавшие тогда саму возможность с помощью ЭВМ перево-
дить тексты с одного языка на другой.
Машины 50 лет назад были «слабыми», поэтому пользоваться можно было только ограниченным набором лингвистических средств. Именно поэтому тогда использовались пословный пере- вод и словосочетания, но преимущественно в идиоматических вы- ражениях. По мере развития вычислительной техники подходы к машинному переводу менялись.
Активные исследования в области машинного перевода велись и зарубежом силами таких известных компьютерных лингвистов,
как А.Эттингер (США), И.Бар-Хиллер (США), Н.Хомски (Изра- иль). Наибольшую известность приобрели труды японского уче- ного М.Нагао, который предложил использовать при машинном переводе уже готовые, введенные в память ЭВМ варианты про- чтения исходных текстов, ранее сделанные опытными лингвиста- ми. Эти труды и легли в основу методики Translation Memory («Па- мять переводчика»), широко используемой до сих пор при пере- воде документации в крупнейших корпорациях мира.
У нас в стране пионерами теории машинного перевода были
Д. Ю. Панов, А. А. Ляпунов и И. С. Мухин. В их трудах заложен фун- дамент, на основе которого в наши дни развиваются такие извест- ные системы компьютерного перевода, как PROMT, Сократ и недавно появившаяся Retrans Vista.
218
10.3. ОТЕЧЕСТВЕННЫЕ СИСТЕМЫ МАШИННОГО ПЕРЕВОДА
Российскими разработчиками созданы четыре поколения про- грамм-переводчиков.
Первое поколение. 1991 г. ознаменован появлением пакета
PROMT (Programmers Machine Translation) версии 3.0, работаю- щего под DOS, который был ориентирован на переводы доку- ментации по программному обеспечению и не имел возможно- стей пополнения и коррекции словаря. В 1992 г. появился пакет
Stylus, в состав которого была включена утилита для коррекции словаря в соответствии со своей предметной областью. В 1993 г.
был создан пакет Stylus for Windows 2.0, ставший первой в мире программой перевода в среде Windows 3.1.
Второе поколение. В 1994 г. пользователям была представлена полноценная версия Stylus for Windows со встроенным редакто- ром, возможностью сохранения элементов форматирования сре- ды Word, синхронной прокруткой исходного текста и перевода,
механизмом сохранения промежуточных результатов. Такая про- граммная архитектура позволила организовывать передачу данных из редактора MS Word и обеспечила перевод текстов различной тематики. Словарный запас программы значительно расширился с появлением большого общелексического словаря, к которому можно было подключать специализированные словари и словари пользователя.
В 1995 г. совместно с компанией «Бит» был разработан пакет
Stylus Lingvo Office, объединивший программу распознавания тек- ста (OCR), переводчик и программу проверки орфографии (Lingvo
Corrector).
Третье поколение. В 1996 г. появляется 32-разрядная версия Stylus под Windows-95 и -NT. Ее архитектура базируется на ядре перево- да под названием «технология Гигант». Эта технология обеспечи- вает единую оболочку для перевода, редактирования результатов и корректировки словарей любых языковых пар, причем пользо- ватель может обращаться к ядру перевода из самых разных прило- жений. В качестве базового инструментального средства в компа- нии был выбран макроязык программирования MS Visual C++.
Переводчики для Internet — WebTranSite и «упрощенная» вер- сия Stylus Lite появляются в 1997 г.
Четвертое поколение. Программа-переводчик четвертого поко- ления РгоМТ-98 (1998 г.) состоит из трех компонентов, объеди- ненных оболочкой: PROMT — среда переводчика; File Translator —
приложение для пакетной обработки большого количества доку- ментов; Web View — браузер с синхронным переводом HTML-стра- ниц.
В основе программ-переводчиков четвертого поколения лежит технология HTML-to-HTML, позволяющая переводить Web-
219

страницы с полным сохранением форматирования и впослед- ствии двигаться по переведенным ссылкам. В 1998 г. появляется также новая версия переводчика для Интернета — WebTranSite-98
и версия 1.0 переводчика для карманных компьютеров — Pocket
PROMT.
WebTranSite-98 отличается от предыдущей версии возможнос- тью подключения дополнительных словарей, улучшающих каче- ство перевода, и новой системой поиска, которая служит для формирования запросов разной сложности на родном языке, их перевода и отправки на один из популярных поисковых серверов.
Pocket PROMT открывает новую линию программных продук- тов компании, ориентированную на платформу Windows-CE для карманных компьютеров. Текст для перевода можно набирать на клавиатуре либо открыть готовый небольшой файл размером до
32 Кбайт в текстовом формате или в формате Pocket Word.
10.4. ПЕРЕВОДЧЕСКИЕ ПАКЕТЫ PROMT
В 2000 г. компания «PROMT» выпустила «двухтысячные» вер- сии своих трех главных переводческих пакетов: профессионально- го — PROMT Translation Office-2000, для Интернета - PROMT
Internet-2000 и домашнего — Magic Gooddy-2000.
10.4.1. Основные возможности пакета PROMT
В состав пакета PROMT Translation Office-2000 входят восемь компонентов: SmarTool (Microsoft Office 97/2000 Support) Mail
Translator, PROMT, Dictionary Editor, Electronic Dictionary (вхо- дит в комплект Гигант и ERRE), WebWiew, QTrans, Clipboart
Translator и Integrator.
Многоязычные переводчики PROMT Translation Office-2000 и
PROMT Internet поддерживают семь направлений перевода с уча- стием русского языка, в том числе и с итальянского на русский.
Интерфейс PROMT Translation Office и PROMT Internet оформ- лен в стиле Office-2000. Улучшило технику перевода введение объек- та «тематика документа», которое определило набор подключа- емых словарей и порядок их подключения, а также список заре- зервированных слов.
Magic Gooddy — англо-русско-английский переводчик с про- стым мультимедийным интерфейсом, доступным даже самым не- подготовленным пользователям. Кроме обычных для переводчи- ков возможностей Gooddy умеет выполнять команды, которые вы произнесете вслух (на русском и английском языках), произно- сить текст или его перевод на английском или русском языках,
переводить текст практически из любого приложения или редак-
220
тора, например, просто перенеся выделенный фрагмент мышкой на изображение Gooddy.
Пакет PROMT Translation Office-2000 «заговорил» не хуже Magic
Gooddy, а новая версия Magic Gooddy не только переводит, но и экзаменует.
Правда, не обошлось без потерь — «двухтысячные» версии па- кетов PROMT утратили способность работать в Windows-95: им необходима Windows-98/2000 либо Windows-NT версии 4.0.
Среди систем электронного перевода программы-переводчики
PROMT получили наибольшее распространение. Они предостав- ляют широкие возможности по настройке на перевод текстов,
подключению специализированных словарей, созданию пользо- вательских словарей. Текст для перевода может вводиться не толь- ко с клавиатуры, но и со сканера, а также возможен перевод текстов непосредственно в текстовых редакторах.
При работе со сканером и наличии установленной на компью- тере какой-либо системы оптического распознавания текстов
(FineReader, Cunieform или AutoR) можно запустить OCR-про- грамму непосредственно из системы PROMT. Система OCR про- чтет напечатанный на бумаге текст при помощи сканера и пере- даст его в систему PROMT для перевода и редактирования.
10.4.2. Особенности работы программы PROMT
С чего начинать перевод текста с использованием электронно- го переводчика PROMT?
Прежде всего необходимо загрузить программу-переводчик,
имеющую стандартный для Windows интерфейс.
Предположим, мы хотим набрать текст для перевода непос- редственно в системе PROMT, тогда выберите команду Создать
из меню Файл. В появившемся окне Направление перевода выбери- те, с какого языка вы будете переводить, и нажмите OK (pиc. 10.1).
Появится пустое окно документа с мигающим курсором на первой позиции. Можно начи- нать набирать исходный текст в верхнем окне.
Главное окно программы
PROMT разделено на две час- ти, под которыми располага- ется информационная панель.
Для перевода текста исходный текст помещается, набирается или копируется в верхнюю часть экрана, нижняя часть предназначена для переведен- Рис. 10.1. Выбор направления пе- ного текста (рис. 10.2). ревода
221


Рис. 10.2. Главное меню программы PROMT
Информационная панель в нижней части экрана содержит три вкладки. На вкладке Используемые словари отображается список подключенных словарей, которые будут использоваться при пе- реводе. На вкладку Незнакомые слова будут помещаться слова,
которые не найдены в словарях при переводе. Данные слова ос- танутся в тексте без перевода и будут выделены красным цве- том.
Некоторые слова не требу- ют перевода, и их надо зарезер- вировать путем перетаскивания на третью вкладку информаци- онной панели — Зарезервиро-
ванные слова. При этом необхо- димо определить для них семан- тический класс и транслитера- цию. Транслитерация — это за- пись слова одного языка буква- ми другого, например Internet —
Интернет. Можно воспользо- ваться контекстным меню, по-
Рис. 10.3. Окно Конвертировать являющимся после нажатия
файл правой кнопки мыши. В тексте
222
Рис. 10.4. Выбор возмож- ностей перевода меню
Перевод
зарезервированные слова отмечаются зе- леным цветом.
При открытии файла командой Файл/
Открыть появится окно Конвертировать
файл (рис. 10.3). Обычно программа-пе- реводчик правильно определяет формат конвертирования и направление перево- да, но при необходимости формат мож- но выбирать самостоятельно.
В меню Перевод выбирается одна из возможных команд (Текущий абзац, Весь
текст) (рис. 10.4), здесь же можно из- менить направление перевода.
В программе предусмотрены словари нескольких типов: генеральные, специ- ализированные, пользовательские. Генеральные словари содер- жат свыше 150000 общеупотребляемых слов и выражений и зак- рыты для пользователя. Специализированные словари предназ- начены для перевода текста по определенной тематике, а пользо- вательские словари создаются самими пользователями исходя из их опыта перевода. Возможно открытие сразу нескольких сло- варей.
При переводе система PROMT использует только те словари,
которые помещены в список «Используемые словари», отобража- емый на информационной панели. Сначала система ищет перевод слова в словарях из этого списка (список просматривается сверху вниз), а затем в генеральном словаре. Если в разных словарях для одного слова даны разные переводы, то будет использован тот из них, который приведен в наиболее приоритетном словаре. Если список пуст, то будет использоваться только генеральный сло- варь.
10.4.3. Последовательность действий при выполнении перевода в PROMT
Для перевода текста следует выполнить следующие действия.
1. Открыть файл с исходным текстом или создать новый доку- мент, если текст будет набран непосредственно в PROMT. Исход- ный текст появится в окне документа. Отредактировать исходный текст, если это необходимо, обратив внимание на разбивку тек- ста на абзацы.
2. Подключить словари, которые будут использоваться при пе- реводе текста. Это позволит получить более качественный перевод предметно-ориентированных текстов.
Для изменения списка подключенных словарей щелкните пра- вой кнопкой мыши по вкладке Используемые словари и выберите
223