Для обеспечения частотной селекции в вокодерах можно использовать механические фильтры камертонного типа [1 ]. Однако в прошлом этот метод считался очень дорогим и к тому же давал более крутую частотную характеристику, чем требовалось. В настоящее время для ограничения стоимости и обеспечения простого общего решения проблемы применяются волоконно-оптические световоды. Звуковой сигнал подается на пьезоэлектрический вибратор, который вызывает колебания волокон оптических световодов. Через колеблющиеся оптические волокна свет от источника передается на оптическую маску так, чтобы наибольшее количество света поступало при наличии определенных звуков или слов на входе вибратора. Для предотвращения воздействия шумов и помех на выходной сигнал вводится ограничитель.
15.6. МЕТОД РАСПОЗНАВАНИЯ ЧИСЕЛ
Учитывая человеческий опыт, выраженный, например, в достижениях активного полета, следует задаться вопросом, может ли слуховая система животных с ее слабочувствительньш гармоническим анализом оказаться на практике лучшим образцом для использования в роботах. К сожалению, при отрицательном ответе на этот вопрос диапазон возможных для применения методов будет очень широким. Как и в других областях, наилучший ответ на вопрос о том, что использовать в данный момент, по-видимому, можно найти в результате относительно свободного исследования имеющихся возможностей; при этом следует помнить о главной цели и избегать сдерживающего влияния предвзятых представлений.
Многочисленными опытами доказаны преимущества использования клиппированного речевого сигнала, о чем упоминалось выше. Клиппирование явилось основой предварительного варианта системы распознавания произносимых голосом цифр [47 ], разработанной Д. Дж. О. Брауном в Астокской кибернетической лаборатории. Система оказалась в некоторой степени инвариантной по отношению к дикторам и даже к различию между мужскими и женскими голосами. Следует подчеркнуть, что при ее разработке не было предпринято попытки ввести обучение. Однако в работе системы все же присутствовал некоторый элемент обучения. При наличии мгновенной обратной связи к диктору, который 266
Ограничитель- |
dV dt |
ch |
_г |
О |
Ifmdt і |
|||
% Г. |
Низкочастотный фильтр |
Усредняющий фильтр |
ЫноЪивритор |
Выходные усилители |
> |
Дискриминатор |
Распознающая логика |
Ламті |
Рис. 15.5. Структурная схема устройства распознавания речи |
что обратная связь является очень важным фактором в подобных системах распознавания речи. Структурная схема разработанной Брауном системы представлена на рис. 15.5. Речевой сигнал с микрофона поступает на дифференцирующее устройство, характеристика чувствительности которого возрастает от 10 Гц до 10 кГц со скоростью 6 дБ/окт. Сигнал с частотой свыше 10 кГц в данном случае несуществен, и характеристика начинает спадать с той же скоростью. После дифференцирования сигнал поступает на усилитель с большим коэффициентом усиления (свыше 70 дБ). Отметим, что использование в этом устройстве двухканальных усилителей на интегральных схемах вызвало ряд трудностей, в частности связанных со съемом сигнала, и пришлось разработать специальный усилитель. После усиления сигнал подается на ограничитель, который; сравнивает мгновенное значение амплитуды сигнала с некоторым фиксированным уровнем. Ограничитель работает как клиппиру — ющее устройство и как пороговое устройство для устранения низкоуровневых шумов. Сигнал на выходе ограничителя имеет вид последовательности импульсов постоянной амплитуды, изменяющихся по длительности и частоте. Они поступают на усилитель и далее на мультивибратор с одним устойчивым состоянием, который выдает импульсы постоянной длительности и амплитуды в момент прохождения через нуль в положительном направлении дифференцированных клиппированных импульсов. Эти импульсы с постоянными характерами подаются на вход усредняющего фильтра, ко- |
может следить, распознала машина произнесенное им слово или нет, он слегка изменяет свой голос так, чтобы быть «более понятным» машине. Изменения принимают форму некоторого акцентирования диктором взрывных и шипящих согласных в произносимых словах. По существу такие же изменения вносит в речь говорящий с глуховатым человеком, с тем, кто не знает достаточно хорошо язык, или говорящий по телефону в условиях плохой слышимости. Ясно, Д J if.’ U / с д/ и П 4 u fj у nj щ. и Усилитель |
Дифшерднцирующче устройство |
•торый выдает среднее значение за короткий фиксированный интервал. В фильтре используется сложное устройство обратной связи на интегральных схемах, которое здесь рассматриваться не будет. Высокочастотная составляющая выходного сигнала усредняющего фильтра устраняется активным низкочастотным фильтром, имеющим частоту среза 150 Гц.
Выходной сигнал этого фильтра представляет собой сигнал медленно изменяющейся формы, который является характеристикой самой произнесенной цифры, а не произношения диктора. Для включения тех или иных лампочек в зависимости от слова, произнесенного в микрофон, в оконечном распознающем логическом устройстве используются цифровые схемы. Опытный образец системы был предназначен для распознавания слов «один» (one), «два» (two), «шесть», (six), «семь» (seven) и «восемь» (eight) со включением соответствующей лампочки.
Хотя над устройствами, подобными этому, предстоит еще немало потрудиться, успех в разработке системы, распознающей речь независимо от индивидуальных особенностей диктора, показывает, что необходимо отказаться от многих предубеждений в этой ■области. Нет сомнения в том, что система может быть упрощена и область ее применения расширена, если дальнейшие поиски .в этом направлении будут финансироваться.