birmaga.ru
добавить свой файл

1

ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1


А.В. СЕРГИН

Институт прикладной математики им. М.В. Келдыша РАН, Москва

E-mail: post-box2000@mail.ru
КОМПЬЮТЕРНАЯ МОДЕЛЬ ВОСПРИЯТИЯ: ИЕРАРХИЯ

ОБЪЕМЛЮЩИХ СЕНСОРНЫХ ХАРАКТЕРИСТИК
Аннотация

В соответствии с новой теоретической концепцией связывания в зрительном восприятии человека [1, 2] строится математическая модель иерархии объемлющих сенсорных характеристик. На этой основе разрабатывается компьютерная программа распознавания трехмерных геометрических объектов по плоским изображениям. Результаты компьютерных экспериментов по распознаванию прямых параллелепипедов хорошо согласуются с данными психофизиологических экспериментов по опознанию человеком частично замаскированных геометрических фигур.
Объемлющая характеристика – это перцептивная гипотеза о том, что данное специфическое сочетание признаков соответствует определённому объекту или событию. Объемлющая характеристика данного перцептивного уровня выражает такое сочетание сенсорных признаков или характеристик нижележащего уровня, которое составляет значимую целостность [1, 3]. Последовательность объемлющих характеристик образует иерархию: от сенсорных признаков до высших объемлющих характеристик, связывающих сенсорные данные в целостные образы и сцены.

Подходящий математический аппарат, позволяющий описать иерархию объемлющих характеристик, дает теория графов. В качестве первой версии модели построен алгоритм распознавания объектов на перспективной проекции сцены, составленной из белых прямых параллелепипедов с черными ребрами на белом фоне [3]. Поскольку перспективная проекция переводит отрезок в отрезок, то можно считать, что на вход подается набор отрезков. Такая упрощенная постановка задачи позволяет сосредоточить внимание на содержательной стороне проблемы распознавания: обнаружении среди разрозненных и не наделенных функциональным смыслом входных данных (отрезков) важных для функционирования организма трехмерных объектов (параллелепипедов). Похожая задача может возникать перед роботом, который перекладывает коробки на складе, или разбирает нагромождение из кирпичей.


На первом уровне иерархии объемлющих характеристик модель описывает изображение в терминах отрезков и псевдоотрезков (псевдоотрезок есть отрезок, часть которого может быть не видна на исходном изображении). На втором уровне – в терминах плоских Y-образных фигур и четырехугольников. На третьем уровне – в терминах прямых трехгранных углов и прямоугольников, на четвертом – прямых параллелепипедов. Объекты первого и второго уровня лежат в картинной плоскости. Объекты третьего и четвертого уровня расположены в трехмерном пространстве.

Рис. 1. Схема формирования иерархии объемлющих характеристик

в процессе распознавания прямых параллелепипедов

Таблица 1
Иерархия объемлющих характеристик в задаче распознавания

прямых параллелепипедов. Слова, набранные жирным шрифтом, означают

объемлющие характеристики, все остальное – общепринятые термины


Перцеп-

тивный

уровень

Объемлющая характеристика

Пространственная организация: определение объемлющих характеристик в терминах нижележащих уровней

1

Отрезок

Отрезок

Псевдоотрезок

Или отрезок, или два отрезка, лежащие на одной прямой

2

Плоская Y-фигура

Три отрезка, попарно не лежащие на одной прямой, но имеющие общую для всех трех вершину


Плоский четырехугольник

Четыре псевдоотрезка, такие, что каждый из них:

1) имеет общую вершину с предыдущим и с последующим, и не лежит ни с одним из них на одной прямой

2) не пересекается с псевдоотрезком через одного

3

Прямой трехгранный угол

Одна плоская Y-фигура, такая, что она может быть проекцией прямого трехгранного угла

Прямоугольник

(в трехмерном

пространстве)

Один плоский четырехугольник, такой, что восстановленный по нему параллелограмм:

1) является прямоугольником

2) целиком находится в той же стороне от фокуса, что и картинная плоскость

4

Прямой параллелепипед

Определение опущено из-за громоздкости выражения.


Важным свойством описанной иерархии является тот факт, что любому объекту легко дать определение в терминах объектов нижележащих уровней (эти определения даны в правой части таблицы 1). Для каждого определения можно построить граф , в котором:

1. В качестве вершин выступают объекты нижележащего уровня, упоминаемые в определении.

2. В качестве ребер выступают отношения, в которых, согласно определению, необходимо состоять объектам нижележащего уровня.

Граф является ослабленной формальной записью исходного определения. Ослабленной в том смысле, что он отражает лишь часть исходного определения, которую можно выразить в терминах попарных отношений между объектами.


Кроме того, можно построить граф , в котором:

1. В качестве вершин выступают объекты нижележащего уровня, фактически обнаруженные на исходном изображении.

2. В качестве ребер выступают отношения, в которых объекты нижележащего уровня фактически состоят.

Тогда построение объемлющих характеристик сводится к:

1. Поиску изоморфных вложений в

2. Проверке исходного определения для изоморфных графу подграфов графа (если граф как формальное определение действительно слабее исходного).

Описанная процедура применяется для построения объемлющих характеристик второго уровня, затем третьего уровня и так далее, вплоть до высших объемлющих характеристик - прямых параллелепипедов.

Наиболее трудоемкой частью процедуры распознавания является поиск изоморфных вложений графов. В общем случае это NP-полная задача [4], то есть не известно алгоритмов, способных решить ее за полиномиальное время. Пусть в графе вершин, а в графе вершин, и степень вершины (количество инцидентных ей ребер) ограничена числом . Была использована модификация алгоритма, описанного в разделе 3.3 работы [5], имеющая время работы не хуже . Специфика данной модели такова, что числа и – небольшие, а число (количество фактически найденных объектов на нижележащем уровне) может быть велико. Благодаря линейности алгоритма по параметру , увеличение числа объектов на исходном изображении не приводит к лавинообразному увеличению времени, необходимому для их распознавания.


Алгоритм распознавания реализован в виде программы на языке C++. Исходная конфигурация объектов для распознавания задается в текстовом файле. Этот файл строится специальной программой рендеринга и состоит из наборов по 6 чисел. Каждый набор задает один отрезок: первые 3 числа определяют начало отрезка, последние 3 числа - его направление и протяженность (2 из 6 чисел оказываются одинаковыми для всех отрезков, поскольку все они лежат в картинной плоскости). Эксперименты по распознаванию производились на компьютере с процессором Pentium-4 (2400 МГц, 512 Мб RAM).



Рис. 2. Результаты компьютерного распознавания параллелепипедов, конфигурация которых показана слева вверху. Жирными линиями показаны отрезки, которые программа выделяет в качестве признаков, позволяющих сформировать перцептивную гипотезу. Пунктирными линиями программа достраивает распознанные параллелепипеды




Рис. 3. Результаты компьютерного распознавания параллелепипедов. Жирными линиями показаны отрезки, специфическое сочетание которых программа идентифицирует как параллелепипед. Пунктиром показаны линии, достроенные распознающей программой

На рис. 2 и 3 представлены примеры распознавания параллелепипедов. Эти и другие компьютерные эксперименты показали, что параллелепипеды успешно распознаются во всех случаях, когда их проекции состоят хотя бы из двух граней, и ни одна из вершин не скрыта за другими параллелепипедами. Частичная маскировка граней другими параллелепипедами не создает препятствий для распознавания. Таким образом, углы оказываются ключевыми признаками для идентификации трехмерных геометрических фигур. Эти результаты хорошо согласуются с психофизиологическими экспериментами И.А. Шевелева с соавторами [6], в которых установлено, что X-образные фигуры и их фрагменты играют ключевую роль при восприятии человеком геометрических объектов.


Таким образом, компьютерные эксперименты показывают адекватность и эффективность модели объемлющих характеристик. Результаты успешного распознавания объектов и характер возникающих трудностей хорошо соответствуют опыту психофизиологических экспериментов по восприятию человеком трехмерных объектов.
Список литературы
1. Сергин В.Я. Перцептивное связывание сенсорных событий: гипотеза объемлющих характеристик // Журнал высшей нервной деятельности. 2002. Т. 52. № 6. С. 645-655.

2. Sergin V.Ya. Perceptual binding of sensory events: the hypothesis of inclusive characteristics // Neuroscience and Behavioral Physiology. 2003. Vol. 33. № 8. P. 753-761.

3. Sergin A.V., Sergin V.Ya. Mechanisms of Perception: Embedded Sensory Characteristics Model // "Cybernetics and Systems '2004". World Scientific Publishing Co. 2004. Vol. 1. P. 216-221.

4. Eppstein D. Subgraph Isomorphism in Planar Graphs and Related Problems // Journal of Graph Algorithms and Applications. 1999. Vol. 3, №3. P. 1-27.

5. Fortin S. Graph isomorphism problem. Technical Report 96-20, University of Alberta, Edomonton, Alberta, Canada, 1996.

6. Шевелев И.А., Каменкович В.М., Лазарев Н.А., Новикова Р.В., Тихомиров А.С., Шараев Г.А. Психофизиологическое и нейрофизиологическое исследование опознания неполных изображений // Сенсорные системы. 2003. Т. 17. № 4. С. 339-346.


УДК 004.032.26(06) Нейронные сети