Файл: Виноградов Р.И. Автоматическое опознавание электрических сигналов.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 04.04.2024

Просмотров: 65

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

60

посторонних факторов. И только лишь после решения задачи в идеальных условиях полно перейти к более сложный ситуациям. Приведем один, на наш взгляд, поучительный пример. При пер­ вых экспериментальных исследованиях дикторы и микрофон нахо­ дились в главном зале ЦВМ М-20, непосредственно около пульта управления. Шум в зеле составлял порядка 75 дб. Ввод речевой информации производился без применения предварительной филь­ трации сигналов. При этом результаты опознавания сигналов име­ ли переменный успех. Однако, после того век машина была обуче- Н8 в качестве одного из звуков шуму в зале, оказалось, что во всех последующих экспериментах более ЪЩ> выделяемых признаков

опознаваемых сигналов принадлежало всегда

шуму. Одновременно

выяснилось, что мощное

электрическое поле

ЦВМ создавало доста­

точно сильные

наводки

как на микрофон, так и на аппаратуру,

что приводило

к дополнительным искажениям сигналов, Поолэ же

принятия. соответствующих мер надежность опознавания сразу повыоилаоь.

При проведении экспериментов, воторые осуществлялись в Академии с 1964 года, в качестве дикторов принимали участие слушэтели Академии, а также сотрудники нвучно-вычислительного отдела. Слушатели Академии привлекались к проведению экспери­ ментов в порядке выполнения лабораторных работ и дипломного проектирования. Кроме этого, активное участие в проведении экспериментов принимали члены военно-научного обществе слуша­

телей.

Методика проведения экспериментов была следующая. Один из дикторов произносил перед микрофоном не более деояти заданных звуков русской речи, воторые вводились в ЦВМ, где обрабатыва­ лись по программе ho6y4emie". При этом в ЦВМ вводилась лишь одна реализация каждого звука. После ввода программы "опозна­ вание" другие дикторы, а также и тот диктор, который принимал

участие в "обучении"

ЦВМ, произносили те

же’ звуки. При

этом

ЦВМ в соответствии с

введенной программой

производила

опозна­

вание произнесенного перед микрофоном звука и выдавала на пе­

чать результаты опознавания.

Кроме того,

применялись

и другие

методики, которые позволяли учитывать статистические

характе­

ристики речевых сигналов как

для одного

диктора, так

и 'для

группы дикторов.

 

Для

визуального

анализа значений инвариантных признаков,

а также

их изменений

во времени с успехом использовалась стан-


 

 

61

 

 

 

дартнэя программе для

ЦВМ М-20 СП-0136,

которая предназначена

для построения графиков. На ри с.2.10

и 2

. I I представлены от­

резки кривых, отображающих изменения

значений

инвариантных

признаков

звуков А и

0 в течение 15

и 20

мсек

соответственно.

Здесь по

оси абсцисс

можно нанести порядковый номер признаков,

+

 

+

 

+

Л

«эро

«о вовоспеть

I

eo«o coeoeocoeo во «осо во ео воео ео«о совововосово coco сово со^

I

I I

I I

I

I I

I I

I I

I I I

I

I I

I

I I I

I I

I I I

I I I

I I

I I

I +

I

I I

I

| |

 

I

I

I

I

I

I

|

I

I

I

I

I

I

I

I

I

I

|

I

I

I

I

I

I

I

I

I

|

I

I

+

I

I |

I

I I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

I

11

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис.2.10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

что, к сожалению, программой не предусмотрено, а по оси орди­ нат отмечены девять возможных градаций признаков. При необхо­ димости точность квантования может быть значительно увеличена,

О

С'Ъ C**iCO СОСО с о СОСО со СОСО СОСО СО СОСО со «О е о с о с о С*ОСО С О СО СО СО СОСО СОСО СО СО с о СО СО С э

Рис.2.11

но это связано со склеиванием лент, что легко сделать для де­ сятка реализаций и затруднительно для сотен.

Ниже приводятся примеры некоторых результатов эксперимен­ тальных исследований речевых сигналов человеке, которые, на наш взгляд,представляют определенный интерес для решения этой достаточно сложной и многообразной проблемы.

Прежде всего с целью экономии машинного времени были про­ ведены эксперименты для выяснения возможности использования


62

Рис.2.12

Рис.2.13

^ с .2 .1 4

Рио.2.15

Рис.2.16

Рис.2.17

63

Р и с .2 .2 2

64

отдельных небольших честей речевых сигналов для их надежного опознавания по разработанной иетодине. В результате этих экс­ периментов было установлено, что несмотря на сильное уменьше­ ние процента опознанных признаков с сокращением анализируемой длительности сигналов все же обеспечивается их надежное опозна­ вание при наличии примерно 100 признаков. Число признаков в опознаваемом сигнале могло быть и меньше, что зависело от ха­ рактера звука, а также вачества произношения. На рио.2.12, 2.13 и 2.14 приведены примеры зависимости процента опознанных признаков от количества признаков в опознаваемом сигнале. Не

рис.2.12 приведены результаты опознавания эвука А при различ­ ной его длительности. При этом в ЭВМ по программе "обучение" были введены две реализации звуков А и 0 , относительно кото­ рых и производилось опознавание. Ширина доверительного интер­

вала и = 0,15,

а связность признаков была равна г>= 4. Безуслов­

но, что для различных дикторов эти характеристики отличались

друг от друга,

но дня всех наблюдалась тенденция к улучшению

результатов с увеличением количества используемых признаков.

Знание средней

частоты определенных клиппировэнных сигналов

(звуков) позволило производить отсечку отдельных частей зву­ ков 38данной длительности.

Исследования зависимости количества опознанных групповых

признаков (0

в процентах

от числа

опознаваемых признаков)

от

ширины доверительного интервала я

и связности признаков

г

для гласных

звуков А и 0

представлены на рис.2.15 - 2.20.

На

рис.2.21 и 2.22 предотавлены графики зависимости запасе надеж­ ного опознавания й 9 от н и г , где Д0 есть разность между ординатами правильно опознанных групповых признаков и непра­ вильно опознанных при определенной ширине доверительного ин­

тервала.

Из графиков видно, что нэилучшие результаты при опо­

знавании

гласных

звуков можно получить, если связность призна­

ков будет

равна

3, а ширина доверительного интервала 0, 1.

Особые трудности возникли при опознавании сонорных звуков:

Л, М, Н,

Р. Это объясняется, видимо, тем, что разборчивость

клиппировэнных сигналов этих звуков, кроне

Р, практически бы­

ла очень

плохой.

 

 

В процессе "обучения" в ЦВМ вводилось

лишь по одной реали­

зации каждого звука, произнесенного одним диктором. При этом надежное опознавание обеспечивалось лишь при произнесении зву ка Л, а также всех звуков, произносимых диктором, принимавшим


 

 

 

 

65

 

 

 

 

 

 

 

 

 

 

 

Т а б х ИQ 8

2.4

Опознавание

 

 

м

 

 

 

Н

 

Обучение

 

I

П

в

17

I

П

В

 

I

100

-

-

-

12

10

22

24

||

п

-

100

з

I

13

13

3

7

 

 

 

 

 

 

 

10

 

 

в

-

5

100

II

10

10

7

 

-

2

13

100

13

18

13

21

 

I

б

3

б

10

100

-

-

2

Н

п

10

8

10

14

-

100

-

-

в

8

6

5

7

-

-

100

-

 

 

13

6

6

Ю

2

2

2

100

 

 

 

 

 

 

 

Т 8 б I и ц а

2.5

Оп08Н8В8НИе

 

 

1

 

 

 

 

 

Обученна

 

I

П

В

I

п

В

 

1,п

20

13

38

27

18

16

15

II

М

в, и

34

17

50

37 *

20

20

13

II

 

I

27

15

44

32

19

18

14

II

 

М

8

22

23

17

18

16

13

12

н

Ш,1У 22

22

15

21

10

22

63

38

 

2

14

22

19

19

14

19

88

25


66

учаотие в "обучении" ЦВН. Детальный анализ показал, что икежо место пересечение классов групповых признаков этих звуков.Пос­ ле применения обработки эталонных групповых признаков по соот­ ветствующей программе были устранены их пересечения, в резуль­ тате чего Л и Р начали надежно опознаваться. Однако звуки U и И пришлось подвергнуть дополнительному исследованию,в резуль­ тате чего были выяснены следующие обстоятельства.

Во-первых, звуки М в слове "Кост" и Н в слове "Нос" имеют непрерывно изменяющиеся групповые признаки. Длительность запи­ си звуков составляла примерно 50 мсек, благодаря чему достига-

хась

отсечке

звуков Н и Н. Полученные реализации были разби­

ты на

четыре

чести и использованы для "обучения" ЦВМ. К опо­

знаванию предъявлялись эти же реализации. Результаты опозна­ вания представлены в таблице 2 .4 , где римскими цифрами обозна­ чены части реализаций звуков, а арабокини - процент опознанных признаков.

Во-вторых, основные различия звуков У и Н содержатся во второй половине их реализаций. Это хорошо видно из таблицы 2.5, где в качестве примера приведены результаты опознавания этих звуков, но произнесенных другим дикторш . Здесь "обучающие” реализации звуков И и Н были разбиты на две части, 8 опозна­ ваемые - на четыре.

Вначале, для экономии машинного времени, к опознаванию предъявлялись звуки с длительностью не более 25 мсек, что для

звуков М и Н оказалось неприемлемым.

Проведенные эксперименты подтвердили влияние последующих

гласных

звуков на

предыдущие согласные, что

отмечалось ранее

в работах других

авторов

[39].

Это влияние

отчетливо видно из

таблицы

2. 6, где

приведены результаты

опознавания звука И в

 

 

 

 

 

Т а б л и ц а

2.6

Опознавание

Ииj

НИ£

ЙИд

MOj

М02

“ °Б

Обучение

 

 

 

 

 

 

 

 

Ни

 

87

42

48

36

 

28

27

Но

 

20

25

34

68

38

39