Было обнаружено, что для распознавания произносимых цифр в сочетании с такими немногочисленными словами, как «plus» (плюс), «minus» (минус) и «total» (сумма), достаточно оперировать двумя типами согласных звуков английского языка — взрывными (s, t и т. д.) и мягкими (th, f и т. д.). Гласные звуки требуются в качестве дополнения, а для распознавания используются относительные фазы звуковых компонентов. При таком подходе три различных параметра распознаются в каждой из трех различных позиций при условии чередования звуков «согласный—гласный—согласный».
В диалоге между людьми используются такие виды визуальной обратной связи, как кивок головой или определенное выражение лица собеседника, и эта обратная связь помогает в общении. При телефонном разговоре отсутствие такой связи может вызвать снижение скорости передачи сообщения.
При диалоге человека с роботом визуальная обратная связь отсутствует и поэтому было бы полезно предусмотреть какую-либо звуковую обратную связь типа высокого короткого радиосигнала «бип» в знак приема и понимания и «жужжания» при неприеме или непонимании сказанного. Параллельно с такой формой обратной связи или вместо нее может использоваться и обратная связь посредством лампочки.
В некоторых типах устройств распознавания речи в конце предложения человек устно запрашивает повторения сказанного им предложения, употребляя слово «проверка», и может затем выдать устное заключение: «правильно» или «неверно». И хотя это, несомненно, снижает скорость общения человека с роботом, для получения одобрения в первых применениях роботов необходимо обеспечить как можно более низкий уровень ошибок. Лучше, чтобы робот, получив устное распоряжение, попросил повторить его, чем рисковать в случае ошибочных действий робота.
Классификация слышимых человеком звуков базируется на поистине безграничном опыте, на основе которого были сформированы знания о языковой системе, которой обладают люди. Далее, благодаря высокой избыточности речи, слушатель может извлечь из памяти гораздо больше языковой информации, чем он получает из непосредственной звуковой информации во время разговора. Поэтому человек может понимать беглую речь.
Большинство устройств распознавания речи целиком основывается на входной информации о волновом звуковом сигнале. Этот подход полностью себя оправдывает лишь при ограниченном словаре, особенно тогда, когда используются звуки, произносимые только одним индивидуумом [47].
Однако уже для простейшей формы беглой речи нельзя ожидать, что данный подход будет успешным. Единственная возможность в этом случае — построение устройства, способного к самообучению, и отказ от попыток соорудить такое устройство, базируясь на наших собственных предвзятых представлениях [31 ]. Такой прибор надо снабдить чем-то вроде улитки уха человека и предоставить ему возможность самостоятельно устанавливать ассоциативные связи между звуками речи [47]. Этот процесс, как и у людей, будет медленным.