Добавлен: 24.04.2024
Просмотров: 119
Скачиваний: 1
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором). В содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в такого рода словарях в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.
В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.
1.3 Системы машинного перевода и их классификация.
В 1990 году Лари Чайлдс, специалист по машинному переводу, предложил следующую классификацию систем МП по принципу независимости машины от действий человека, ставшую сейчас общепринятой:
-
FAMT (Fully – automated machine translation) – полностью автоматизированный машинный перевод; -
HAMT (Human – assisted machine translation) – машинный перевод при участии человека; -
MAHT (Machine – assisted human translation) – перевод, осуществляемый человеком с использованием компьютера.
Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку даже в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов. Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова английского "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", “бидон”, “прекратить”, “перестать”,“колпак дымовой трубы”, "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?
Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Но тем не менее сегодня все «коробочные» продукты – переводчики, и онлайновые службы построены только по схеме FAMT.(№ 8,15)
Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.
Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики. Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков.
В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.
К МТ-программам относятся и продукты машинного перевода фирмы ПРОМТ.
Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Перевод, осуществляемый человеком с использованием компьютера. При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным.
Вот список наиболее известных систем ТМ:
- Transit швейцарской фирмы Star,
- Trados (США),
- Translation Manager от IBM,
- Eurolang Optimizer французской фирмы LANT,
- DejaVu от ATRIL (США),
- WordFisher (Венгрия).
Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.
Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:
- Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.
- Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.
- Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.
- Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.
- Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.
Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна.
Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.
Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation's Workbench фирмы Trados (для краткости часто также называемый Trados).
Есть, однако, впечатление, что ресурсы развития в этом направлении уже практически исчерпаны и без перехода к новым технологиям, радикального улучшения качества перевода достигнуть не удастся. К числу таких новых: технологий относится вовлечение пользователя в процесс перевода, а также:
-
автоматическое определение контекста употребления слова с тем, чтобы выбирать для перевода адекватные словарные значения; -
использование баз знаний, в которых собрана информация о предметной области; -
самообучение системы в ходе взаимодействия с пользователем.
Еще недавно о подобных возможностях на персональном компьютере не могло быть и речи. Сейчас мощности и объема памяти уже вполне достаточно, нет только систем, которые обеспечивали бы хорошее качество перевода.(№ 15)
Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:
-
"Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ; -
ПРОМТ, образованная в 1991 г.; -
"Медиа Лингва".
Наиболее известной из числа эксплуатируемых за рубежом систем машинного перевода является система SYSTRAN, разработанная и поддерживаемая компанией SYSTRAN Software Inc. и используемая службой машинного перевода при комиссии Европейского союза. Данная служба, объем переводов в которой составляет около 2,5 млн. страниц в год, использует систему SYSTRAN для перевода с английского на немецкий, французский, испанский, греческий и итальянский языки, а также с французского на английский, испанский и итальянский. Достоинства системы:
-
получаемый текст может подвергаться редактированию легко и быстро; -
имеется возможность переводить большой объем научно-технических материалов; -
система «многоязычна»; -
инженерные решения достаточно простые (стандартные ЭВМ).
Одно из главных достоинств заключается, в том, что при МП обеспечивается соблюдение последовательной, непротиворечивой терминологии, в то время как в человеческом переводе терминологической лексики часто возникает разнобой. Это достоинство является весьма существенным для научно-технического перевода. Скорость перевода составляет 1 млн. слов в час за время (работы центрального процессора.
Система обеспечивает правильный перевод диаграмм, графиков и прочих нетекстовых включений. В ЭВМ могут вводиться изменения, например, при изменениях стандарта на терминологию. Поправки редакторов также постепенно накапливаются и вводятся в словарь.
Лингвистический анализатор СИСТРАНа состоит из следующих четырех основных этапов. Первый этап разрешает омографию. Второй исследует предложение справа налево, запоминая при переходе от слова к слову, какие типы синтаксических отношений потенциально возможны внутри каждого самостоятельного предложения, если учесть типы встретившихся слов. Используя набор регистров, в которых содержатся данные о возможных типах синтаксических отношений, этот этап затем устанавливает основные структуры внутри предложения (глагол плюс объект, предлог плюс объект и т. д.). Третий этап, двигаясь слева направо, уточняет эти отношения, опознавая типы объектов, определительные структуры и пр. Четвертый этап, используя данные, полученные в результате работы предшествующих этапов, включая информацию о «границах предложений, типах главных и зависимых предложений, осуществляет анализ в границах этих предложений, определяя подлежащее и сказуемое в каждом из этих предложений.
Следует отметить, что в некоторых случаях информация может передаваться от одного предложения к другому. В памяти ЭВМ отведено специальное место для такой информации. Она особенно необходима для перевода местоимений, антецеденты которых могут находиться в другом предложении. Основные задачи, которые выполняются универсальным программным обеспечением СИСТРАНа, следующие:
-
считывание текста; -
разбивка текста на слова; -
поиск слов в различных словарях; -
приписывание словарных кодов словам или словосочетаниям текста; -
распределение памяти под анализируемые предложения; -
контроль за выполнением программ перевода; -
подготовка перевода к печати, выдаче на микрофиши и пр.
Программное обеспечение системы позволяет обеспечить скорость перевода в 200 000 —300 000 слов в час. (№ 11)