Продолжение небольшого цикла винтажных статей полувековой давности, которые, думаю, заинтересуют читателей и коллег.
Вероятно, многие помнят прекрасные радиопередачи о приключениях Буратино. Необычный голос деревянного мальчика авторы передач «сконструировали» с помощью звукозаписывающей аппаратуры. Речь актера за писывали на магнитную пленку, которую затем пускали в убыстренном темпе. Вместо «папа Карло» Буратино стал говорить что-то вроде «пэпэ Кэрлы». Правда, на этом метаморфозы не кончились, но для нас дальнейшее не столь уж важно.
Обратите внимание: гласные стали неустойчивыми, один звуки заменились другими. Но попробуйте добиться того же, пропевая звуки «а» и «о» на разной высоте Вам это не удастся! Природа придумала механизм, который хотя и разрешает менять голос по высоте и тембру, но тем не менее сохраняет устойчивость звуковых образов.
Отличительные, более или менее постоянные. признаки гласных известны в акустике под названием «формант». Так именуют два или три добавочных тона, сопровождающих каждый звук голоса и способных меняться лишь в узких пределах. Для звука «е», например, характерны две формантные области. Одна из них ограничена интервалом 581-651 герц (колебаний в секунду), другая — 1843-1953 герца. Говорящий может изменить высоту голоса на тысячи герц, но добавочные тоны все-таки не выйдут из своих пределов, измеряемых десятками герц.
Если же голос напрочь отделен от губ, полости рта и перенесен на магнитную ленту, звуки можно исказить. Ведь с увеличением скорости воспроизведения высота всех тонов изменяется в одинаковом отношении. Смещаются и формантные области. Вот тогда-то вместо «папа Карло» и получается «пэпэ Кэрлы».
Никакому актеру не под силу совершить это маленькое чудо звукозаписи. Будь он мастером сценической речи, ему все равно не удастся «перетасовать» форманты. Они — те речевые опоры, по которым мы опознаем звуки и слова. Впрочем, такое сравнение не следует понимать буквально. Всякое сравнение упрощает. В нашем сознании «опора» — что-то абсолютно устойчивое, неизменное. Устойчивость формант, как мы видели, относительна. Звуковые опоры все-таки могут дрейфовать, хотя и в небольших пределах (порядка десятков герц). Тут напрашивается образ натянутого каната, по которому ходит цирковой артист.
Вероятно, нет двух канатоходцев, раскачивающих канат одинаково. Точно так же обстоит дело и с речью. Как физическое явление голос можно поставить в одни ряд с другими совершенно индивидуальными признаками личности — почерком и отпечатками пальцев. На Земле не найти двух людей, за исключением разве что близнецов, у которых все отличительные черты голоса совпали бы.
Тогда, быть может, человек способен перестроить произношение и заговорить голосом своего знакомого? Увы, это практически невозможно. Не позволяют «опорные канаты».
Теперь попробуйте войти в положение инженера, которому дали задание сконструировать устройство для голосового управления, скажем, электронно-вычислительной машиной. Когда он вспоминает, что нет двух одинаковых голосов, его охватывает отчаяние. Но стоит ему вступить в дискуссию с коллегами по работе, и он оказывается перед очевидным фактом: речевые отличия не такой уж непреодолимый барьер. Ведь люди-то понимают друг друга. Так почему бы машине не понять человека?
Звуков речи — фонем — как правило. несколько больше, чем букв в алфавите. В русском языке их 41. Если бы искусственное ухо опознавало слова именно по фонемам, то объем его памяти был бы совсем небольшим. Поначалу идея увлекла электронщиков, но вскоре их пыл заметно остыл. Созданные на этом принципе устройства слишком часто ошибались. Число устойчивых признаков в фонемах, оказывается, недостаточно для уверенного понимания речи.
Конечно, за единицы опознания можно взять целые слова. Тогда машина ошибалась бы редко. Но какая колоссальная память должна быть у нее! Задача слишком усложняется. Вот если бы машина предназначалась для Эллочки-людоедке… Помните, ее лексикон (по Ильфу и Петрову) включает всего 30 слов. Для многих технических задач больше и не нужно! Сочетая, скажем, 54 слова, можно получить 1300 команд. Вполне достаточно, чтобы помочь человеку управлять автомобилем и даже самолетом. Потому-то и обратились к идее устройств, способных понимать лаконичный командный язык.
Чтобы уяснить, как работает искусственное ухо, надо проследить за ходом преобразования сигнала в лабиринтах электронных цепей. Предположим, человек произнес перед микрофоном слово «учись». На выходе усилителя появится какое-то хаотически изменяющееся во времени напряжение, быть может, с небольшим разрывом, если внутри слова случайно оказалась микропауза (см. рисунок).
Любой сложный сигнал радиотехники умеют разложить на несколько синусоидальных, причем частота колебаний в каждой синусоиде будет своя. Пока человек произносит слово, амплитуды синусоид меняются. На рисунке изображены только три кривые, но их может быть и больше — до полутора десятков. Будем считать, что на графике выделены лишь тоны, соответствующие формантным колебаниям.
Сигналы проходят через детектор, который выделяет только пульсации амплитуд. Это плавно меняющиеся напряжения; длительность их изменений в точности равна времени, затраченному на произнесение слова. Каждое напряжение можно подать на одну из отклоняющих систем трехлучевой (или многолучевой) электронной трубки. На ее экране появятся три кривые (или несколько кривых). Возникшую картину называют спектрограммой слова в том варианте, в каком оно было произнесено.
Если слово «учись» произнести дважды с интервалом в одну минуту, получим две похожие, но неодинаковые спектрограммы. Отличия будут и по горизонтальной оси времени, и по вертикальной оси напряжений. Возникает задача — преобразовать спектрограммы в некую стандартную форму, по которой будет легче распознать произнесенное слово. Такая операция предусмотрена.
Электронная схема определяет длительность слов и укорачивает (сжимает) соответствующие им сигналы до единого масштаба времени — скажем, до ⅟₃₀ сек. Перед началом преобразования спектрограмма делится на 10 неравных полос, их ширина обратно пропорциональна скорости изменения первичного сигнала. После сжатия все полосы оказываются равными по ширине — в нашем примере по ⅟₃₀₀ сек. Как видно из рисунка, сжатие делает неодинаковые спектрограммы одного и того же слова почти неотличимыми.
Но и «почти неотличимость» для искусственного уха может оказаться все-таки заметным отличием. Поэтому в память устройства закладывают не один, а, скажем, четыре стандартных варианта спектрограммы одного и того же слова. Тем самым повышается вероятность правильного его опознания. Если для сравнения не подойдут первый или второй эталоны, то, быть может, схема сработает на третьем или четвертом.
Остается только добавить: устройства о работе которых уже появились сведения в технической литературе, сравнивают спектрограммы не в графической, а в цифровой форме. Ведь непрерывный сигнал всегда можно заменить последовательностью дискретных состояний схемы, подобно том>, как график заменяют таблицей значений функции.
Действующие, проектируемые и перспективные приборы для опознания речи можно разделить на несколько видов. Мы дали им совершенно условные названия.
ПРИЛОЖЕНИЕ
* «Сезам». Это схема, в которой реализовано сказочное заклинанье «Сезам, откройся!». Реагирует только на одно, два или три слова, но произнесенные любыми голосами. Может, если угодно, в самом деле открывать двери в вашем подъезде.
* «Жучка». Устройство, хорошо понимающее краткий командный язык из двух-трех десятков слов. Обычно оно натренировано на голос одного оператора. Как мы уже отметили, такой прибор способен управлять автомобилем или самолетом. Одна американская фирма успешно применила его в отделе технического контроля — для записи параметров только что изготовленных цветных кинескопов. Другая фирма заставила «Жучку» запоминать свободные места в большом складском помещении н отправлять туда прибывающие контейнеры. Прибор незаменим во время сложного научного эксперимента, когда надо записывать результаты, а руки исследователя заняты на пульте управления или облачены в резиновые перчатки.
* «Эксперт». Анализатор для выделения голоса одного из нескольких говорящих. Может помочь при опознании преступника, стать настройщиком музыкальных инструментов или контролером качества звучания радиоприемников, телевизоров и магнитофонов.
* «Собеседник». Его действия могут быть самыми разнообразными: совет по телефону, когда врач сомневается в постановке диагноза, устный ответ программисту о результатах вычислений на ЭВМ, ответ на запрос о состоянии текущего счета в банке и т. п.. Другая модификация — электронный секретарь, соединенный с пишущей машинкой.
* «Переводчик». Назначение устройства комментариев не требует. Это искусственное ухо, подключенное к ЭВМ с программой автоматического перевода с одного языка на другой.
* «Полный робот». Автомат, двигающийся впереди человека в опасных ситуациях. Подчиняется голосовым командам н докладывает о ситуации пославшим его людям. Мог бы помочь во время ремонта атомного реактора или путешествия на малоизученную планету.
Человеческое ухо существует в одном варианте. Искусственных, как видим, намечается несколько. Тем лучше! В том-то и сила техники, что она не копирует слепо природу.