Файл: Лекция 10 Системы понимания естественного языка.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 17.03.2024

Просмотров: 30

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.


Готовый акустический сигнал преобразуется в формат данных, принятый для вывода звуковой информации. Используются два формата: WAV (Waveform Audio File Format), являющийся одним из основных, или VОХ (Voice File Format), широко используемый в компьютерной телефонии. Вывод также может осуществляться непосредственно на звуковую карту.

Инструментарий синтеза русской речи

Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вслух смешанные русско-английские тексты. Инструментарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синтеза, словарь ударений русского языка, модуль правил произнесения английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступает звуковой файл в формате WAV или VOX, записываемый в память или на жесткий диск.

Cистема распознавания речи


Система распознавания речи состоит из двух частей.Эти части могут быть выделены в блоки или в подпрограммы.Для простоты скажем, что система распознавания речи состоит из акустической и лингвистической частей.Лингвистическая часть может включать в себя фонетическую, фонологическую, морфологическую, синтаксическую и семантическую модель языка.

Акустическая модель

Акустическая модель отвечает за представление речевого сигнала.Лингвистическая модель интерпретирует информацию,получаемую от акустической модели, и отвечает за представление результата распознавания потребителю.

Оба подхода имеют свои достоинства и недостатки.При разработке технических сисвыбор подхода имеет первостепенное значение.темCуществует два подхода к построенрию акустической модели:изобретательский и бионический.Первый базируется на результатах поиска механизма функционирования акустической модели.При втором подходе разработчик пытается понять и смоделировать работу естественных систем.

Лингвистическая модель

Лингвистический блок подразделяется на следующие ярусы (слои, уровни); фонетический, фонологический, морфологический, лексический,синтаксический, семантический.Всего их шесть. За основу взят русский язык. Все ярусы суть априорная информация о структуре естественного языка, а, как известно, любая априорная информация об интересующем предмете увеличивает шансы принятия верного решения. На том стоит вся статистическая радиотехника. А естественный язык несет
весьма сильно структурированную информацию, из чего, кстати, вытекает, что для каждого естественного языка может потребоваться своя уникальная лингвистическая модель (предвижу трудности с русификацией сложных систем распознавания речи). В соответствии с данной моделью на первом - фонетическом- уровне производится преобразование входного (для лингвистического блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном речевом сигнале можно обнаружить лишь аллофоны - варианты фонем, зависящие от звукового окружения. Но сути это не меняет. Обратите внимание, что фонемы сотоварищи могут перекочевать в лингвистический блок. На следующем - фонологическом - уровне накладываются ограничения на комбинаторику фонем (аллофонов). Ограничение - это правило наизнанку, значит, опять есть полезная априорная информация: не все сочетания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математический аппарат цепей Маркова. Далее, на морфологическом уровне оперируют со слогоподобными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограничение уже на структуру слова, подчиняясь закономерностям моделируемого естественного языка. Лексический ярус охватывает слова и словоформы того или иного естественного языка, то есть словарь языка, так же внося важную априорную информацию о том, какие слова возможны для данного естественного языка. Семантика устанавливает соотношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При помощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения. Отсюда следует вывод, что система должна быть "умной". Чем лучше у нее будет построена модель семантических связей, эквивалента "системы мысленных образов", тем больше вероятность правильно распознать речь.

Классификация систем распознавания речи


Классификация по назначению:

  • командные системы

  • системы диктовки текста

По потребительским качествам:



  • диктороориентированные (тренируемые на конкретного диктора)

  • дикторонезависимые

  • распознающие отдельные слова

  • распознающие слитную речь.

По механизмам функциониро-вания:

  • простейшие (корреляционные) детекторы

  • экспертные системы с различным способом формирования и обработки базы знаний

  • вероятностно-сетевые модели принятия решения, в том числе нейронные сети.


Заключение


Для человека естественным и привычным является именно диалог, а не монолог. Как следствие недооценки необходимости речевого ответа появляется повышенная утомляемость операторов, монотонность речи и ограниченность применимости речевого интерфейса. Чем может помочь слепому компьютер, оснащенный распознавателем речи, если он лишен устройства обратной не визуальной связи?

Широко известен факт непроизвольной подстройки голоса под голос собеседника. Почему не использовать эту способность человека для увеличения безошибочности распознавания речи компьютером за счет корректировки произношения оператора с помощью двустороннего диалога? Кроме того, вполне возможно, что правильно организованный и модулированный синтез может в значительной степени снизить риск появления у оператора заболеваний, связанных с монотонностью речи и дополнительным напряжением. Повсеместное проникновение графического пользовательского интерфейса было обеспечено за счет совместного применения графического монитора, средства вывода графической информации, и мыши- для ее ввода, а также, не в последнюю очередь, благодаря гениальным концептуальным находкам в области оконного интерфейса фирмы Xerox.

Будущее речевого интерфейса в не меньшей степени зависит от умения современных разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия "человек-компьютер". Основная работа еще впереди!!!



Литература


[1] Компьютерра 08.12.97.p.26-43

[2] Ю.М.Смирнов. Интеллектуализация ЭВМ.Москва,Высшая школа,1989 г.

[3] Expert system saves 20 million L on pipeline management. C&I July, 1994, р.31.

[4] Р. Harmon. The Market for Intelligent Software Products. Intelligent Sopware Strategies 1992, v.8, n.2, рр.5-12.

[5] D.R Perley. Migrating to Open Systems: Taming he Tiger. McGraw-Hill, 1993, р.252.

[6] Р. Harmon. The AI Tools Market The Market for Intelligent Software Building Tools. Part I. Intelligent Softwane Strategies, 1994, v 10, n.2, pp.1-14.


[7] Р. Harmon. The market for intelligent software pnducts Intelligent Software Strategies, 1992, v.8, n.2, рр.5-12.

[8] B.R. Clements and F. Preto. Evaluating Commencial Real Time Expert System Software for Use in the Process Industries. C&I, 1993, рр. 107-114.

[9] В. Моorе et al. Questions and Answers about G2. 1993. Gensym Corporation. рр.26-28.

[10] B. Moore. Memorandum. 1993, April. Gensym Corparation.

[11] Р. Богатырев. "Этот странный придуманный мир". Компьютерра. ©30-33. 1996 год.


Страница из