Продолжение (надеюсь) небольшого цикла винтажных статей полувековой давности, которые, думаю, заинтересуют читателей и коллег.
Ученые и инженеры уже не первый год работают над созданием устройств, способных распознавать цифры, буквы и изображения предметов. Задача оказалась гораздо сложнее, чем думалось вначале!
На одной из помещенных здесь иллюстраций изображены разновидности буквы G. Нарисованы они электронным лучом для того, чтобы в типографии было изобилие шрифтов. Неодинаковые написания букв не только не затрудняют читателей, но даже нравятся им. Недаром шрифтовое богатство считается одним из источников красоты печатного издания. Но для машины, сортирующей почтовые конверты, денежные переводы или банковские чеки, разница в начертании цифр и букв — настоящее бедствие.
Чтобы научить ЭВМ грамоте и при этом не слишком усложнять входные устройства, конструкторам приходится маневрировать. Инженеры действуют подобно изобретателю Брайлю, который предложил для слепых особый шрифт — его можно ощупывать пальцами. Для машин тоже придумывают необычные формы печатных знаков. Два варианта начертания цифры 3 представлены на рисунке. Но изобретение особых приемов написания еще только полдела. На банковских бланках такие цифры оттискивают не типографской краской, а магнитными чернилами. Для считывания применяют головку наподобие магнитофонной. Она совершенно не замечает других надписей или загрязнений, нанесенных обычными чернилами, карандашом или пастой для шариковых ручек.
Теперь понятно, зачем понадобилась особая форма цифр. Стандартный шрифт дает стандартные электрические импульсы — одни и те же для каждого знака. Как видим, импульсы тока могут быть или одиночными, или групповыми. Когда разговор идет на языке электрических сигналов, машина в своей стихии. Сна легко сравнивает их с теми, что хранятся в ее «памяти», и тем самым опознает «увиденные» знаки.
Машинное чтение обыкновенного печатного текста требует несколько иных ухищрений. Исходный знак, например буква W, при помощи сетки разбивается на квадратные ячейки. Некоторые ячейки оказываются черными, остальные — белыми. На ту же сетку машина последовательно накладывает различные конфигурации из точек — своего рода созвездия. Для опознания буквы W лучше всего подойдет созвездие из пяти точек А. B, C, D, E. Их расположение показано на рисунке. Конфигурацию этих точек называют маской. Элементы А и D маски попали на черные ячейки сетки, В, С, Е — на белые.
Теперь перед машиной возникает задача: оценить степень черноты и белизны выделенных элементов. Шкала оценок простирается от 1 (черное поле) до 0 (белое поле). Для достаточно четко отпечатанной буквы фактическое измерение даст примерно такие оценки: 0,9; 0,9; 0,1; 0,1; 0,1. Когда электрическая схема действует по принципу суммирования, общий итог будет 2,1. Если отнести его к максимально возможному, то есть к 5, и результат выразить в процентах, получим 42%. Любая другая маска даст меньшую величину. Значит, машина нашла самую подходящую маску, которая в памяти устройства и соответствует букве W.
Как видим, обыкновенные печатные буквы можно распознать, выделяя для каждой из них некоторое характерное созвездие точек-признаков. Для хорошего чтения число таких элементов оказывается не слишком велико, потому что типографские шрифты при всем своем разнообразии все-таки не выходят за рамки определенного стандарта. Но количество вариаций резко возрастает, как только мы обращаемся к текстам, написанным от руки. Ведь сколько людей, столько и почерков. Где уж тут искать характерные точки-признаки! Остается один путь — обходить знак по контуру.
На рисунке, приведенном в заголовке статьи и ниже, показано устройство, читающее рукописные цифры. Точнее, не сами цифры, написанные на карточке, а их изображения, перенесенные на телеэкран. Процесс чтения довольно любопытен. Из верхней части экрана в нижнюю перемещается «ощупывающий» электронный луч. Он назван так потому, что вдобавок совершает небольшие круговые движения. Коснувшись знака (например, изображения цифры 6, которая стоит первой), луч «прилипает» к нему и обходит контур цифры, оставляя тонкий спиральный след. Тем временем машина регистрирует координаты перемещения луча по горизонтальной и вертикальной осям. Набор координат и помогает опознать цифру.
На рисунке ниже помещена схема аппарата, использующего другой принцип ощупывания. Луч света находит верхнюю точку знака 5 и начинает обходить его маленькими шажками-векторами. Чтобы результат не зависел от размера знака, число векторов приводится к стандартному — в данном случае к 32. Машина регистрирует направление обхода и число петель. Значение каждого вектора она записывает в виде электрического напряжения и передает его в суммирующий блок. Дальнейшие операции сходны с теми, что применяют для опознания напечатанных букв.
Читающие устройства сегодня можно встретить не только в вычислительных центрах. Если на конверте вы напишете по установленному образцу индекс почтового отделения, ваше письмо будет сортировать машина, и оно быстрее дойдет до адресата.
Советские конструкторы построили ЧАРС — читающий автомат с регистром сдвига. Это устройство способно распознавать до 540 машинописных знаков в секунду. Сдвиг проекций нужен потому, что в оригинале буквы никогда не стоят строго по одной линии.
Сетчатка человеческого глаза состоит из огромного количества палочек и колбочек, разбивающих изображение на элементы. Подобная операция предусмотрена и в персептроне — так называют машину, предназначенную для узнавания произвольных изображений. Нетрудно догадаться, что узнавание будет тем эффективнее, чем больше квадратных ячеек сделать в растровой сетке. Но проектировщики, понятно, заинтересованы, чтобы ячеек было как можно меньше — тогда удалось бы обойтись достаточно грубым растром.
Возможно ли такое решение? Одна необычная особенность нашего зрения показывает, что возможно. Посмотрите на хаотическую, казалось бы, картинку, составленную из цветных квадратиков. Сильно прищурьте глаза, а если у вас близорукость — просто снимите очки. Вместо цветовой кашицы вы увидите изображение красного гоночного автомобиля, почти такого же, как на верхнем снимке, помещенном ниже. Этот простой опыт показывает: глаз может обходиться очень грубым разложением на растровые элементы. В скоплении черных и белых квадратов мы после некоторой тренировки не без удивления обнаруживаем портрет А. Линкольна.
Впрочем, кинолюбители хорошо знакомы с подобными эффектами. Снимая движущиеся объекты с выдержкой ⅟₃₀ сек., они получают совсем нерезкие кадры — выдержка слишком велика. Но именно последовательность этих нерезких кадров дает на экране изображение, которое глаз находит совершенно четким.
Итак, есть надежда, что число ячеек в сетке персептрона не будет слишком большим. Американские инженеры несколько лет назад испытывали одно из таких устройств — его «глаз» был составлен из 400 светочувствительных элементов. Отводимые от них электрические импульсы направлялись в так называемые ассоциирующие элементы (их было 512). Самое любопытное, что в подключениях не было никакой системы. Так была предпринята попытка получить осмысленный результат при помощи структуры, в которой господствует случайность.
Конструкторы воспроизводили таким образом природный образец. Ведь, насколько известно, клетки мозга связаны между собою без определенной системы, то есть случайно. В персептроне выходные напряжения от ассоциирующих элементов поступают в анализатор, который «осмысливает» полученные сигналы и решает, к какому классу отнести рассматриваемое изображение. Разумеется, при случайных соединениях неизбежны ошибки, но зато есть широкие возможности к их исправлению. Оператор ведет обучение персептрона, изменяя электрические параметры ассоциирующих ячеек и добиваясь от машины правильной реакции. В таких устройствах нет предварительно заложенных в память образцов-эталонов, они вырабатываются в процессе обучения. И, как ни странно, машина со свободно организованной структурой иногда лучше других читает рукописный текст.
Уже построен персептрон, узнающий людей по фотографиям. Снимки подводятся к искусственному глазу поочередно, поворотом вращающегося стола. После некоторой тренировки устройство отличало мужчин от женщин, а в последующих экспериментах, когда емкость памяти увеличили, называло людей по именам.
Хотя в попытках наделить ЭВМ зрением есть бесспорные успехи, проблема еще далека от разрешения. Принципы действия системы «глаз плюс мозг» пока остаются загадкой. Однако ученые не теряют надежд и стараются решить, в сущности, «детскую» задачу: по каким признакам ребенок 3-4 лет узнает кошку независимо от того, в каком ракурсе она показана и в каком стиле изображена. Тем из вас, кто пожелает самостоятельно доискиваться ответа на этот вопрос, мы рекомендуем обратиться к книге Л. Растригина «Этот случайный, случайный, случайный мир» (М., «Молодая гвардия», 1969) и сборнику статей «Человеческие способности машин» (М., «Советское радио», 1971).