<<
>>

23. Плоские трансформации изображений — первый подход к распознаванию

Для человека не представляет никаких сложностей опознание даже такого объекта, который удален от него в пространстве или находится в движении. Точно так же безо всякого труда узнаем мы лица вне зависимости от их величины или удаленности от нас — настолько, разумеется, насколько позволяет разрешающая способность наших глаз (предмет не должен быть слишком мал, а расстояние — слишком велико).

И наконец, человек в состоянии опознать предметы (и лица), повернутые на какой-либо угол. Способен ли на это описанный нами синергетический компьютер?

Будем честны и скромно ответим «нет». Нму, прайда, удается распознать изображение, которое незначительно увеличено или уменьшено, либо повернуто на очень небольшой угол, однако при больших отклонениях си-

нергетический компьютер отказывается что-либо узнавать. Следует ли нам в таком случае признать несостоятельной саму концепцию? Ни в коем случае. Существует, как выяснилось, множество различных (и весьма интересных) способов помочь синергетическому компьютеру преодолеть этот барьер. Можно тем или иным образом предварительно обработать поступающие в компьютер данные, либо как-то изменить динамику его внутренних процессов. Первый подход представляет собой, как мы увидим несколько позже, чисто техническое решение проблемы, второй же, предположительно, обеспечит большее приближение возможностей компьютера к человеческому восприятию. На общедоступном языке описать реализацию первого, технического, подхода довольно сложно, а вот второе решение описывается весьма наглядно.

Несмотря на очевидную сложность, рискнем-таки начать с технического решения и рассмотрим его несколько подробнее. Читатели, не слишком интересующиеся математическими описаниями, могут просто пропустить это место, либо сразу перейти к следующей главе. Рассмотрим сначала независимость процесса распознавания от перемещений объекта в пространстве.

Для этого снова применим разложение распределения уровня серого некоторого изображения на отдельные волновые составляющие, т. е. анализ Фурье. На рис. 23.1а и 23.16 представлены два изображения одного и того же лица, но смещенные друг относительно в плоскости страницы. Выделим ряд пикселей, расположенных вдоль горизонтальной прямой, как это показано на рис. 23.2а и 23.26, и нанесем соответствующие значения уровня серого на графики на рис. 23.3а и 23.36. Естественно, кривая рас-пределения серого на графике 23.36 будет повторять кривую распределе-ния серого на графике 23.3а с некоторым смещением (равным смещению изображения на рис. 23.26 и 23.16). Разложим эти распределения на отдельные волновые составляющие с помощью уже упоминавшегося анализа Фурье. В результате получим некоторые наборы волн, схематично показанные на рис. 23.4а и 23.46 (рис. 23.4а соответствует рис. 23.3а, а рис. 23.46 — рис. 23.36).

Вся информация, содержавшаяся прежде в распределениях уровня серого изображений 23.2а и 23.26, теперь представлена в виде отдельных волн на рис. 23.4а и 23.46. Каким же образом это возможно? Каждая волна имеет определенную длину и определенную высоту (так называемую амплитуду). Сравним между собой волны одинаковой длины на рис. 23.4а и 23.46 (например, верхнюю слева и верхнюю справа). Мы видим, что амплитуды этих волн одинаковы. Однако сами волны (т. е., координаты их максимумов на горизонтальной оси) смещены друг относительно друга, причем на то же У

У

і

Рис. 23.1а. Прототипный образ

I ^

Рис. 23.2а. Выделение горизонтального ряда пикселей

X

Рис. 23.16. Он же, смещенный вправо

Рис. 23.26. То же, на смещенном изображении

Рис 23 За Распределение значений уровня серого вдоль выделенного ряда пикселей

Рис 23 36 То же, на смещенном изображении расстояние, на которое смещена кривая 23.36 относительно кривой 23.3а. Такое смещение называется в науке «сдвигом фазы».

х

X

\Г\/ХГ Рис.

23.4а. Разложение распределе-ния серого на отдельные волновые составляющие (для примера приве-дена лишь часть составляющих)

Рис. 23.46. То же, для смещенного вправо изображения Теперь мы видим, как сохраняется информация о распределении уровня серого при переходе от исходной кривой к волновому разложению. Для волны каждой длины следует задать амплитуду и фазу (положение первого максимума на горизонтальной оси). Чтобы закодировать таким образом все исходное изображение (рис. 23.1а и 23.16), еще недостаточно подвергнуть анализу распределение уровней серого лишь вдоль одного ряда пикселей — необходимо обработать все имеющиеся пиксели. Распространение же анализа Фурье из одного на два измерения не представляет для математика ни малейшей сложности; нужно лишь представить, что волны могут «бежать» не только вдоль горизонтальной оси, но и в любом другом направлении на плоскости.

Рис. 23.5. При логарифмическом отображении каждой точке плоскости х, у соответствует некоторая точка плоскости у'

Рис. 23.6. Поворот изображения в плоскости .т, у

Рис. 23.7. Логарифмическое представление изображения 23.6

Вернемся, однако, к проблеме распознавания образов вне зависимости от их положения в пространстве. Как можно видеть, волны на рис. 23.4а и 23.46 идентичны во всем, кроме фазы. Если бы удалось совершенно исключить из рассмотрения величину фазы, то, очевидно, опознание исходного изображения перестало бы зависеть от его положения — а это как раз то, что нам нужно. Проведем двумерное преобразование Фурье, которое даст нам и амплитуду волн, и их фазу Для кодирования же изображения воспользуемся только амплитудой — этого можно добиться с помощью одного совсем несложного математического приема, в результате которого в нашем распоряжении окажутся необходимые для данного случая коэффициенты Фурье.

Далее необходимо выяснить, не пропадет ли при «выбрасывании» фазы слишком много существенной для исходного изображения информации. В одномерном представлении это действительно было бы так, но в дву-мерном случае мы (при достаточно общих условиях) можем избавиться от фазы без каких-либо неприятных последствий.

Теперь изображение описывается уже не посредством исходного распределения уровня серого, а совокупностью амплитуд, т. е. значений коэффициентов Фурье. После такой «предварительной обработки» распознавание изображения оказывается синергетическому компьютеру вполне по силам. Прежде он конструировал «холмистый ландшафт» на основе запомненных распределений уровня серого (т. е. собственно, изображений); сейчас же он проделал аналогичную процедуру с запомненными амплитудами и сумел, таким образом, распознать смещенное в плоскости изображение лица.

Процесс становится еще более абстрактным, если требуется распознать изображение объекта независимо от величины этого изображения и его ориентации в плоскости. В этом случае нам предстоит произвести так называемое логарифмическое отображение, при котором каждой точке плоскости ставится в соответствие определенная точка на другой плоскости (рис. 23.5). При таком отображении повороту изображения в плоскости (рис. 23.6) соответствует некоторый сдвиг каждой точки его отображения на другой плоскости в вертикальном направлении (рис. 23.7). Увеличению же и уменьшению изображения (рис. 23.8) соответствует сдвиг точек отображения по горизонтали (рис. 23.9).

Теперь оказывается возможным свести новую задачу к уже решенной старой (на радость всем читателям-математикам). Как добиться инвариантности распознавания относительно сдвигов в плоскости (т. е. независимости от этих самых сдвигов), мы узнали несколько абзацев назад. Нужно лишь провести преобразование Фурье, взять только значения амплитуд волно-

Рис. 23.8. Уменьшение изображения

Рис. 23.9. Логарифмическое представление изображения 23.8

вых составляющих, и сдвиг отображения в плоскости не помешает нам распознать исходное изображение. Для читателей, далеких от математики, все это, наверное, представляется невообразимой абстракцией, однако результаты вполне наглядны и очень хорошо поддаются интерпретации. Рассмотрим рис. 23.10 и 23.11, на каждом из которых слева вверху помещено изображение лица: на рис.

23.10 лицо ориентировано «правильно», а на рис. 23.11 — повернуто на некоторый угол. Так как изображения двумерны, значения коэффициентов Фурье приходится наносить на двумерную плоскость; нам в этом помогает специальная компьютерная программа, причем фазовые коэффициенты она сразу отбрасывает. При построении зависимости коэффициентов Фурье от соответствующих длин волн целесообразно следующее: откладывать на осях х иу не сами длины волн, а величины,

Рис. 23.10. Преобразования прототипного образа.

(а) Исходное изображение, (б) После проведения преобразования Фурье, (в) Лога-рифмическое представление предыдущего результата, (г) Повторное преобразование Фурье

обратные им (так называемые волновые числа), и, кроме того, соединить одинаковые значения амплитуд горизонталями. Каждая горизонталь соответствует, таким образом, какому-то определенному коэффициенту Фурье. На рис. 23.10 (б) можно видеть ярко выраженный максимум, причем значение коэффициента с различной скоростью уменьшается в направлении от центра изображения к его краям. Если сравнить эту зависимость с соответствующей зависимостью на рис. 23.11 (б), то можно заметить, что оба распределения величин коэффициентов Фурье все еще отличаются друг от друга, причем второе изображение явно повернуто относительно первого на тот же угол, на какой повернуто исходное изображение.

Рис. 23.11. Преобразования прототипного образа, повернутого в плоскости х, у. (а) Исходное изображение, (б) После проведения преобразования Фурье. Ясно видно, что полученная картина повернута по отношению к 23.10 (б), в) Логарифмическое представление предыдущего результата. Картинка явно смсщсна вниз по сравнению с 23.10 (в), (г) Повторное преобразование Фурье. Становится очевидно, что исходные изображения действительно идентичны; при этом можно определить и кодовое обозначение, присвоенное данному изображению, несмотря на то, что и оно оказывается повернутым

Рис. 23.12. Тс же преобразования, что и на рис.

23.11, — для нормального, уменьшенного и увеличенного изображения

В следующем квадрате (рис. 23.10 (в) и 23.11 (в)) можно видеть результаты следующего шага: логарифмического отображения предыдущего распределения. И здесь между изображениями существует выраженное отличие. Картинка на рис. 23.11 (в) сдвинута вниз по сравнению с аналогичной картинкой на рис. 23.10 (в). Сделаем последний шаг: произведем еще раз преобразование Фурье и вычислим значения коэффициентов (рис. 23.10 (г) и 23.11 (г)). Как видите, изображения полностью совпали. Иными словами, мы добились искомой инвариантности. Картинка останется неизменной, как бы мы ни поворачивали исходное изображение лица девушки. Если подвергнуть описанной процедуре другие портреты, мы получим какие-то другие закодированные изображения. И хотя закодированное изображение выглядит совершенно непохоже на оригинал, оно обладает таким весьма важным преимуществом, как независимость от каких бы то ни было поворотов этого самого оригинала (в плоскости изображения).

Абсолютно то же самое можно проделать и с увеличенными или уменьшенными изображениями (см. рис. 23.12): после проведения описанных преобразований увеличенные и уменьшенные лица ничем не отличаются друг от друга. Наконец, можно убедиться и в том, что результаты последнего преобразования увеличенных, уменьшенных и повернутых в собственной ¦/--Л

<1?

'¦Ж-

- ' и

»

Рис. 23.14. Способности к восприятию человеком перевернутых изображений не безграничны. На первый взгляд, представленные здесь лица кажутся одинаковыми. Попробуйте, однако, перевернуть книгу!

Рис. 23.13. Преобразования повернутого, смещенного и увеличенного изображения

плоскости изображений в точности совпадают с аналогичным результатом, полученным из исходного изображения (рис. 23.13). Синергетическому компьютеру, таким образом, предъявлялись не исходные изображения, каждое со своим распределением уровней серого, а изображения, предварительно обработанные и приведенные к инвариантному виду (нижний правый квадрат в вышеприведенных рисунках). Такой процедуре подверглись и запомненные изображения, и изображения, предъявлявшиеся компьютеру для опознания. Компьютер производил с кодированными портретами те же операции, что и раньше с оригиналами, и отличал их друг от друга с той же однозначность, даже если ему показывали только фрагмент изображения.

С помощью описанного метода можно, совершенно очевидно, распознать даже лицо, перевернутое «вниз головой». Не составляет труда также

ІІ ? і

[чі

Рис. 23.15. Здесь мы видим чашу, наполненную овощами и фруктами. А что мы увидим, перевернув книгу? (Фрагмент картины Джузсппс Арчимбольдо.)

заметить мельчайшие различия в лицах очень похожих друг на друга людей, один изкоторый стоит «нормально», а другой встал на голову Способен ли на такое распознавание человек? Взгляните на рис. 23.14: обе дамы представляются нам практически «на одно лицо». Однако стоит перевернуть книгу «вверх ногами», и сразу станет очевидным разительное несходство между ними. Еще один пример представлен на рис. 23.15. И здесь обнаруживается значительная разница между «правильным» и перевернутым изображениями. Совершенно очевидно, что в данном случае человеческие возможности восприятия уступают компьютерным; если одно лицо изображено «правильно», а другое — «вверх ногами», то человеку не удается отличить друг от друга изображения этих лиц не только по мелким, но даже и по относительно крупным их чертам. Возникает естественный вопрос: не существует ли других компьютерных процедур, которые были бы так же похожи на человеческие способы восприятия, как вышеописанные? Подробным рассмотрением этого вопроса мы займемся в следующей главе.

<< | >>
Источник: Хакен Г., Хакен-Крелль М.. Тайны восприятия. — Москва: Институт компьютерных исследований, 2002, 272 стр.. 2002

Еще по теме 23. Плоские трансформации изображений — первый подход к распознаванию:

  1. Оглавление
  2. 23. Плоские трансформации изображений — первый подход к распознаванию
  3. ГЛАВА 48. ИНФЕКЦИОННЬЕ ЗАБОЛЕВАНИЯ ВО ВРЕМЯ БЕРЕМЕННОСТИ