Одна из интересных особенностей слуха человека — так называемый «эффект вечера с коктейлями». В людном помещении, где все разговаривают одновременно, слушатель может сосредоточить свое внимание на одном из говорящих, игнорируя все остальные звуки. Эта форма концентрации выполняется центральной нервной системой, и пока неизвестно, как эта особенность может быть внесена в систему слуха робота.
Человек узнает голос говорящего, если он слышал его раньше. Возможно, это происходит на основе частотного анализа. По «отпечатку» непрерывного частотного спектра речи можно опре — 254 делить говорящего. Имеются серьезные предложения использовать такие «отпечатки» голоса как вещественное доказательство в суде [13—15]. Однако это может оказаться неудобным вследствие того, что человек с хорошей мимикой может воспроизвести спектр, почти неотличимый от спектра речи того, чей голос имитируется [43]. При этом ссылаются на Лэйдфогда [30], сказавшего в связи с работами по идентификации голоса: «В действительности вам нужно узнать, президент ли сказал: „сбросить бомбу!“» Кое-кого пробирает дрожь при мысли о том, что уверенность такого рода может основываться на идентификации голоса по телефону и самому существованию человечества будет нанесен ущерб из-за простого игнорирования возможности построения системы передачи закодированных сообщений. Однако, возможно, именно это объясняет значительные затраты на исследования по идентификации голоса. Было бы желательно, чтобы робот мог «узнать» голос лица, которое ему приказывает, но вряд ли это произойдет в ближайшем будущем.
У человека обратная связь между речью н слухом может быть как внутренней, так и внешней. Внутренняя связь осуществляется через звукопроводящую кость, внешняя — через уши. Последняя является важной, и изменение цепи этой обратной связи, например введением некоторой временной задержки, может оказать разрушающее действие на речеобразование. Это может оказаться справедливым и для роботов.
Нетрудно будет сконструировать роботов, способных слышать ультразвук или инфразвук. Такие роботы будут чрезвычайно полезны в промышленности, так как смогут осуществлять невыполнимые человеком функции.
Важно, что для восприятия смысла речи необходимо принимать во внимание порядок, в котором произносятся различные звуки речи. Следовательно, каждое заключение о смысле сказанного основывается на предыдущем решении, и слушатель осуществляет непрерывную сегментацию речи. Итак, если решения базируются только на порядке следования сегментов речи, то нет необходимости в запоминании и влиянии на длину речевых сегментов. Это, однако, слишком упрощенный взгляд на вещи, и в некоторых случаях длина звука может передавать смысл.
Одна из областей, в которой может происходить взаимный обмен между инженерами в кибернетике и медицине,— это разработка искусственной гортани. Было много попыток сконструировать такое устройство для использования в медицине, однако все они ограничивались очень примитивным подходом.
Одним из важных моментов, которым часто пренебрегают при рассмотрении распознавания речевого сигнала, является ритм звучания, несущий важную информацию. Достаточно вспомнить, например, как порой кажется, что ритм стука вагонных колес нам что-то «говорит», и как в шумовом фоне ритмического характера можно вообразить музыку.
Подобно тому как глаз человека подвержен оптическим иллюзиям, органы слуха испытывают слуховые иллюзии. Знание их природы может дать ключ к пониманию особенностей обучения — через слуховую систему человека —в центральной нервной системе человека в целом. Однако, как упоминалось в связи с оптическими иллюзиями, в использовании данных о них необходимо соблюдать осторожность, пока не будет достигнута полная уверенность в том, что та или иная оптическая или слуховая иллюзия является универсальным свойством человека независимо от происхождения или условий развития индивидуума.
Одна из хорошо известных слуховых иллюзий вызывается монотонным повторением слов. Такой опыт легко поставить, используя магнитофон с замкнутой в кольцо лентой, на которой записано слово, и прокручивая эту ленту несколько раз. В качестве примера такого опыта Варрен [16] ссылается на эксперимент с повторением английского слова «tress» (длинный локон, коса). Слушатели воспринимали его как «stress» (ударение), «dress» (платье), «Joyce» (фамилия Джойс). Варрен сравнил этот процесс с распадом зрительного изображения, который возникает при стабилизации сетчатки. Он предложил разделить процесс на две части: сначала происходит утрата значения, а затем преобразование мозгом стимулирующего воздействия в имеющую смысл форму. По-видимому, мозг не очень хорошо приспособлен к анализу временной или пространственной последовательности стимулов, если только здесь дело не в другом. Это — очень важный момент.