ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 25.07.2024
Просмотров: 92
Скачиваний: 0
Рис. 42. Анализ звука ружейного выстрела, произведенного о коридоре с очень сильной реверберацией.
них областях частот звуки реверберируют гораздо продол жительнее, чем в других. Следовательно, время ревербера ции помещения существенно зависит от частоты звука. Таким образом, с помощью звуковой спектрограммы мы можем определить реверберационные характеристики по мещения в области всех интересующих нас частот.
Если выстрелить из того же, что и в предыдущих слу чаях, ружья в сильно реверберирующем коридоре (стены коридора слабо поглощают звук), то звук будет ревербе рировать очень продолжительное время (рис. 42). Как и на рис. 41, на рис. 42 отчетливо видно, что время ревербе рации зависпт от частоты звука.
Мы уже говорили, что первоначально звуковой спект рограф был предназначен для анализа речи. С его помо щью визуализировали важные звуковые характеристики речи. Однако в анализе речи часто важнее знать положе ние весьма широкополосных областей, а не положение и амплитуды индивидуальных гармоник в узкой полосе частот (узкочастотпый анализ). С этой целью в спектро скопии звуков речи используется фильтр, полосу пропуска ния которого можно расширять или сужать. Широкополос ный фильтр подавляет информацию о положении и ампли тудах индивидуальных гармоник речи, но зато хорошо об рисовывает широкополосные области, столь важные в ана лизе речи. По сравнению с узкополосным широкополосный фильтр гораздо быстрее реагирует на внезапные измене ния речи, такие, как мгновенное затухание или мгновенное
51
возникновение звука. Ис пользуя широкополосный фильтр, можно более точно проследить динамику речи.
На рис. 43 показано, чего можно достигнуть в анализе речи с помощью широкопо лосного фильтра. На спектро граммах рис. 43 изображены шесть различных гласных звуков. Все они являются звуками человеческого голо са, то есть воспроизведены голосовыми связками челове ка. Наряду с основной часто той эти звуки содержат мно гочисленные гармоники.
Анализ с помощью узко полосного фильтра дал бы нам картину гармонической структуры гласных звуков, показав многочисленные ин дивидуальные гармоники как тоны частот, кратных основ ной частоте звука, изданного голосовыми связками. Но ши рокополосный фильтр, кото рый использовался для запи си, представленной на рис. 43, не различает индивиду альные гармоники. С его по мощью можно изображать в частотной шкале только час тотные области громкого зву ка. Столь сильное звучание происходит из-за резонанс ных явлений, возникающих в человеческом горле и по лости рта. Резонансные свой ства этих областей определя ются физической структурой горла и рта. Гармоники, ко торые попадают в области ре-
52
зоиансных частот, звучат гораздо сильнее, чем все осталь ные.
Эти области резонанса называются формантами. Ана лиз речи позволил установить, что именно форманты дают ключ к разгадке произнесенных звуков. Исследуя форман ты, можно установить личность человека, поскольку поло жение формант на частотной шкале для разных людей со вершенно различно, даже если они произносят один и тот же звук. Из рпс. 43 видно, что форманты различных глас ных звуков занимают разные положения на частотной (вертикальной) шкале.
На рис. 43, а изображен звук [і:], каким он слышится в слове, еѵе, на рис. 43, б и в представлены гласные звуки [і] в слове U [еі] в слове hate и т. д. Различное положение формант на этих спектрограммах очевидно.
Обратите внимание на перемещение двух наименьших по частоте формант при последовательном рассмотрении спектрограмм слева направо. Нижняя из этих двух фор мант движется вверх по частотной шкале, верхняя — вниз. Исключение составляет лишь последняя спектрограмма (крайняя справа), на которой обе эти форманты смести лись вниз. Положение этих формант на частотной шка ле — своего рода ключ к идентификации некоторых глас ных звуков (в частности, представленных на рис. 43). Да лее, поскольку место форманты определяется положением языка и челюстей, то форманта не переместится по частот ной шкале, даже если изменится частота гласного звука, определяемая голосовыми связками. Таким образом, широ кополосный фильтр подавляет нежелательную информа цию о положении индивидуальных гармоник и дает отчет ливое представление о положении наиболее важной фор манты вне зависимости от высоты тона.
ГЛАВА V
Изображение некоторых
звуков речи
На спектрограммах, изображенных на рис. 43, пред ставлены картины устойчивых гласных звуков, то есть звуков, которые не изменялись во время записи. Восполь зовавшись методом записи звуков речп, описанным в пре дыдущей главе, можно визуально наблюдать изменение звука во времени, столь характерное для человеческой ре чи. Рассмотрим некоторые из наиболее важных звуков речи.
Изображение звуков речи
Звонкие п глухие фрикативные звуки. Свистящие и ши пящие звуки, такие, как [s] в слове sister и [J] в слове she, называются сибилянтными или фрикативными (соответст венно от латинских sibilans — свистящий шипящий и fricaге — тереть). Когда мы произносим эти звуки, рот почти закрыт и струя выходящего воздуха испытывает сильное трение, за счет чего и образуются свистящий или шипя щий звуки. Звук [J] в слове she произносится без участия голосовых связок, поэтому он и называется глухим фрика тивным согласным звуком. Но если этот же фрикативный звук произнести с помощью голосовых связок, он превра тится в звонкий согласный фрикативный звук [3], каким он слышится в слове azure. Аналогичное превращение проис ходит со звуком [s] (в слове sister это глухой согласный фрикативный звук), когда звучание голосовых связок пре образует его в звук [z], каким он слышится, например, в слове zoo. Звук [z] также называется звонким согласным фрикативным звуком.
Характеристики этих звуков представлены на рис. 44. На верхней спектрограмме дан анализ слова sue, содержа-
54
Рпс. 44. Спектрограммы слов sue (вверху) и zoo (внизу).
щего глухой звук [s], за которым сразу следует гласный [и:]. Наиболее типичные области каждого из этих двух звуков указаны стрелками. Весьма отчетливо виден пере ход от одного звука к другому. Свистящий звук [s] похож на шум, поэтому он имеет очень широкий спектр частот, сплошь покрывающий всю спектрограмму. Когда же мы переходим к звуку [и:], в спектре появляются характерные для звонкого звука полосы — форманты (о них говорилось в предыдущей главе). В момент перехода, то есть в корот-
55
jtK f » |
Л |
«ft*» * |
» * 4 \ |
|
P п с. 45. Спектрограмма слова bob. |
кий промежуток времени, резонансная картина как бы на ложена на картину шума, иначе говоря, в это время звук является комбинированным. Окончательно шумоподобный спектр исчезает, когда мы переходим к чистому гласному звуку [и:] (правая часть спектрограммы).
На нпжнеп спектрограмме дан анализ слова zoo. Здесь резонансные полосы хорошо видны как в обеих частях спектрограммы (звуки [z] и [и:] соответственно), так и в переходной области. На участке спектрограммы, относя щемся к звуку [z], наряду с резонансными полосами виден и широкополосный шумоподобный спектр, характерный для глухого согласного звука [s] в слове sue. Когда мы пе реходим к чистому гласному звуку [и:], этот «шум» исче зает. !
Взрывные зй^ки. Как звонкие, так и глухие звуки, ко торые мы только что рассмотрели, являются продолжи тельными. Но кроме продолжительных, существуют и дру гие звуки — звуки, которые мгновенно возникают и так же мгновенно затухают. Такие звуки называются взрывными. Чтобы их воспроизвести, необходимо приостановить дыха ние и задержать поток выдыхаемого воздуха. Причем за держать поток воздуха можно либо у самого горла, либо в средней части полости рта, либо губами.
56
Р и с. 46. Спектрограмма слова Ъ о у .
Как выглядит взрывной звук на спектрограмме, видно на примере картины слова bob (рис. 45). Поскольку мы полностью приостанавливаем дыхание в начале и в конце этого слова, данный звук не содержит высокой частоты («чистый» участок в верхней части рис. 45). Аналогичные картины будут и для звука [к] в слове back, [t] в слове hit и [р] в слове up.
Дифтонги. Гласный звук, состоящий из двух элементов и произносимый в пределах одного слова, называется диф тонгом. На рис. 46 дан анализ слова boy, в котором диф тонгу предшествует взрывной звук [Ь]. Гласный звук в этом слове быстро изменяется от [о] к [і], образуя тем са
мым созвучие [оі]. Как иа спектрограмме слова |
bob |
(рис. 45), так и па спектрограмме слова boy (рис. 46) |
име |
ется светлая область, характерная для звука [Ь]. За этой областью сразу же появляются резонансные полосы, свой ственные гласному звуку. Однако в этом случае резонан сные полосы занимают новые положения в частотной шка ле достаточно плавно. Именно такие спектрограммы и ха рактерны для дифтонгов. Из рис. 46 видно, как резонанс ные полосы звука [э] переходят в резонансные полосы звука [і].
Комбинация звуков [и] и [j] может также образовывать дифтонги. На рис. 47 звук [и:] изображен слева, а переход
57
Рис. 47. Спектрограмма звука [и:] в слове you (слева) п спектрограмма полного слова you (справа).
Р п с. 48. Спектрограмма дпфтонга [ju:] в слове new (слева) п спектрограмма полпого слова new (справа).
от звука [j] к звуку [и:], как, например, в слове you, пока зан справа. В отличие от картины слова boy (рис. 46) ре зонансные частоты слова you (рис. 47) при переходе от од ного гласного звука к другому падают.
Тот же дифтонг, что и на рис. 47, показан на рис. 48 слева, а в сочетании со звуком [и] в слове new — справа. Звук [п] является звонким согласным, поэтому в левой час ти спектрограммы слова new видны резонансные полосы. Звук [п] мгновенно переходит в чистый гласный звук [j], который в свою очередь постепенно переходит в звук [и:], образуя тем самым дифтонг.
58
i.
P и c. 49. Спектрограмма звука [i:] в слове we (слева) п спектрограмма полного слова we (справа).
Можно рассмотреть и такой переход, как, например [\ѵ] — [і:]. Он происходит в слове we, формируя другой диф тонг. На рис. 49 слева дап конечный звук [і:], а справа — дифтонг [\ѵ] — [і:] в слове we. Как и прежде, здесь мы ви дим постепенное изменение положений резонансных полос.
Звуковые картины синтезированной речи
В последние годы предпринималось немало попыток создания синтезированной речи. Чтобы хорошо разбирать человеческую речь и к тому же узнавать голос говоряще го, передающая система, например телефон, ие должна искажать звуки, частота которых лежит в пределах от 300 до 3500 Гц. (Для большей уверенности частотную полосу следует расширить от 100 до 12 000, а то и 15 000 Гц.) Если же посылать закодированный сигнал, который в при емном устройстве преобразуется в свою первоначальную форму, то его можно передавать без искажений по каналу с гораздо более узкой полосой пропускания, чем обычно.
Вокодер. Наиболее успешно позволяет кодировать зву ки речи прибор, который получил название вокодера и был разработан X. Дадли. Поскольку кодирующие .системы очень отчетливо изображают основные характеристики ре чи, то для демонстрации того, насколько хорошо вокодер или любой другой синтезатор могут восстанавливать пер-
59
Рис. 50. Спектрограммы фразы This is the news (Это новости).
Вверху — оригинальная речь, внизу — речь, воспроизведенная вокодером.
воначальную речь, чаще всего используется методика изоб ражения звуков голоса, рассмотренная в этой главе.
На рис. 50 даны спектрограммы фразы This is the news. На верхней спектрограмме ее произносит человек, а на нижней — представлена эта же фраза, восстановленная во кодером. На основании этих спектрограмм мы можем су дить о схожести двух картин одного звука, полученных раз ными способами. Однако у закодированного звука есть пре имущество — его можно передавать по цепи с более узкой полосой пропускания. На рис. 50 нижняя спектрограмма получена с помощью вокодера, усовершенствованного Р. Л. Мпллером.
Вобанк. Звуки речи можно передавать по каналу с бо лее узкой, чем обычно, полосой пропускания, используя
60