14.1. УХО ДЛЯ РОБОТА
Поиски устройств, способных воспринимать голос человека и отвечать ему, велись с первых дней цивилизации [1 ]. В средние века появились документы, сообщавшие о слушающих и говорящих устройствах [22]. Однако трудно сейчас определить, какие из этих сообщений были реальными, а какие — столь же фантастическими, как и легендарная дверь, реагирующая на команду «Сезам, откройся!»
Здесь мы не будем останавливаться на этих ранних сообщениях и надувательских, подобных упоминавшимся у Кемпелена [23], и непосредственно перейдем к более современным и практическим работам. Нетрудно сконструировать устройство, реагирующее на сигнал одной из речевых частот, такое, как первая управляемая речью собачка «Радио-Рекс», описанная Пэгетом [42]. Однако проблема анализа и распознавания речи гораздо сложнее.
В человеческом ухе имеется множество резонаторов, так называемых волосковых клеток, расположенных вдоль колеблющейся мембраны, называемой базилярной. Таких клеток около 30 ООО, они располагаются в ухе в четыре ряда. Из каждой клетки растут тонкие волоски, которые служат для преобразования движений мембраны в электрические сигналы, поступающие в клетку. Эти электрические сигналы по нервным волокнам передаются от уха в мозг.
Знания о природе механизма восприятия звука человеком и животными еще недостаточны, несмотря на широкие поиски и еще более обширные публикации. К счастью, инженеры-кибернетики не пытаются в точности воспроизвести ухо человека или животного. Вполне достаточно сделать работающее устройство для использования в роботах. Однако кибернетики всегда надеются, что их труды будут стимулировать поиски физиологов и психологов, занимающихся исследованием слухового механизма живых организмов.
Исследование характеристик уха человека показывает [21, что оно функционирует подобно эквивалентному устройству, приведенному на рис. 14.1. Среднее ухо работает как низкочастотный фильтр с частотой среза около 1500 Гц, выше которой частотная характеристика спадает со скоростью 18 дБ/ок. Резонаторы, расположенные вдоль базилярной мембраны, действуют подобно полосовым фильтрам, связанным с линией задержки. Каждый из полосовых фильтров работает в точности как резонансная схема с добротностью 0 порядка 1,5, так что избирательность этих резонаторов невысока.
Ухо, по-видимому, сигнализирует мозгу о трех параметрах — частоте, интенсивности и времени. В дополнение к этому существует еще важная бинауральная информация, получаемая благодаря наличию двух ушей.
Имеется много работ в области речевых систем связи, основывающихся на частотном анализе возможностей уха человека. В них широко использовалась работа по вокодеру, впервые описанная Дадли 124]. Так как скорость изменения звукового сигнала на любой отдельно взятой частоте, содержащейся в речи, относительно мала, то анализ речи на составляющих частотах, раздельная передача данных об энергетическом составе сигнала на каждой из этих частот и восстановление речи по этой информации об
і Н |
Линия задержки |
ттгпм Q Q Полосовые |
фильтры |
Низкочастотный фильтр |
Рис. 14.1. Структурная схема устройства, эквивалентного уху человека
энергии, по-видимому, является многообещающим способом передачи речи в системах связи.
К сожалению, этот способ не был окончательно принят, возможно, из-за неестественного звучания восстановленной речи. В случае роботов мы не должны заботиться о натуральности воспроизводимой речи, поскольку единственно важным является понимание роботами речевых звуков. Например, робот должен быть способен принимать устные приказы человека и действовать в соответствии с ними.
Хотя в ухе человека много слуховых клеток, однако разрешающая способность уха человека на частоте / не превышает 0,033:
б/// = 0,033.
Это показывает, что в речевом диапазоне 300—3000 Гц человек может воспринимать только около 60 различных тонов. По-видимому, роботов не следует обеспечивать большей возможностью в этом отношении, и, очевидно, достаточными будут даже меньшие возможности.
Ухо человека обладает рефлекторной способностью защиты от разрушающего действия громких шумов, обеспечиваемой стременной мышцей. Она сокращается при громких звуках. Ее можно рассматривать как некий эквивалент глазного зрачка в органе слуха. Для уха робота также желательно ввести подобную защиту. Нетрудно сконструировать схемы, которые детектировали бы определенный уровень звуковой энергии и использовались в защитных и активных цепях [4, 26].
Болье [21 ] было предложено устройство, состоящее из набора пассивных фильтров, воспроизводящее частотную характеристику улитки уха человека. Каждая секция содержит последовательное плечо из резистора (100 Ом), соединенного последовательно с индуктивностью, и шунтирующую цепь из резистора (100 Ом), соединенного последовательно с емкостью С и индуктивностью L такой же величины, как и в последовательном плече. Резонансные частоты шунтирующих цепей экспоненциально убывают по мере возрастания номера секции вдоль модели улитки. Всего используется 80 секций, которые нагружены на резистор сопротивлением 1000 Ом.
Реакция уха человека на звук не является постоянной, а зависит от характера слышимого звука. Например, помимо того что ухо по-разному реагирует на все звуковые частоты, сама реальная форма частотной характеристики меняется в зависимости от громкости звучания [38, 39]. Подобные особенности человеческого уха, по-видимому, не стоит воспроизводить применительно к роботам, и вполне возможно, что мы встретимся со слуховыми иллюзиями роботов, совершенно отличающимися от слуховых иллюзий, свойственных людям.
І4.2. МЕХАНИЗМ РАСПОЗНАВАНИЯ РЕЧИ
Автором данной книги уже был сделан обзор [ 1 ] широко проводимых исследований в области распознавания речи. Полезно напомнить, что большинство этих исследований связано с такими устройствами, которые полностью настраиваются человеком, а не с устройствами, которые обладают способностью к самообучению.
Весьма широко распространено мнение, что при отсутствии обратной связи, образующей замкнутый обучающий контур, по существу требуется 100%-ная точность распознавания. Однако при наличии разговорной, зрительной и, возможно, осязательной обратной связи от слушающего речь робота, показывающей говорящему, понял его робот или нет, требуется значительно более низкая точность. Следует отметить, что чем непрерывнее такая обратная связь, тем больше общая скорость связи.
Так называемая моторная теория предполагает, что все обучение человека восприятию какого-либо звука речи основывается на артикуляторных движениях, которые требуются для того, чтобы человек произносил этот звук. Эта теория не может помочь в объяснении того, как человек учится распознавать звуки, которые он не способен устно воспроизвести, и она, по-видимому, не даст результатов, приближающих к обучению роботов распознаванию речи.
Важно отметить, что изменения звуков речи при переходе от диктора к диктору очень велики, однако, они не являются для человека препятствием в восприятии и распознавании смысла речи. В некоторых случаях, прежде чем речь будет понятна, необходимо время, чтобы привыкнуть к ней, например, когда речь очень громкая или имеет незнакомый акцент. Однако даже и в этих случаях человек довольно быстро приспосабливается к говорящему.
Характер звучания речи каждого человека сильно меняется под влиянием различных обстоятельств. Например, когда человек устал или заметно выпил, его речь становится менее внятной и понятной. Другим обстоятельством, вызывающим сильные изменения в речи отдельного человека, является пребывание его в стрессовом состоянии. Такое состояние типично, например, для диспетчера воздушных сообщений, и роботы, проектируемые для совместной с человеком деятельности в этой области, должны определять подобные изменения и вносить на них соответствующую поправку. Можно предположить, что изменения речи под влиянием стресса являются гораздо более серьезными, чем многие изменения при переходе от диктора к диктору.
Крайне важной сферой применения роботов, понимающих речь, может стать автоматический перевод с одного языка на другой. К сожалению, работы по машинному переводу послужили в основном для выявления серьезных трудностей в этой области. Среди них, может быть, наиболее незначительная — это двойное толкование. Возможно, приличный автоматический перевод будет достигнут тогда, когда мы сможем сконструировать полностью самообучающихся роботов (с обратной связью по результатам обучения). Прогресс в области распознавания речи сильно замедлен [18, 20], хотя есть некоторые успехи в распознавании слитной, непрерывной речи. Хилл, сделавший обзор этого направления и описавший сегодняшнее положение дел [33], полагает, что в распознавании слитной речи имеется значительный прогресс. К примеру, на основе ранней работы Редди [34, 35] Виценсом было разработано устройство, способное иметь дело со слитными речевыми командами, обращенными к механической руке [36] и настольному калькулятору. В этой работе было установлено, что важной проблемой здесь является обеспечение скорейшего восстановления системы после целиком ошибочного распознавания отдельной команды.