birmaga.ru
добавить свой файл

1
Карпов В.Э., Вальцев В.Б.


НИИ Информационных технологий, г.Москва, Институт истории естествознания РАН

Динамическое планирование поведения робота на основе сети «интеллектуальных» нейронов
В работе рассматриваются вопросы применения сетей больших пирамидных нейронов (интеллектуальных нейронов) для решения задач управления техническими объектами. В качестве примера описывается система динамического планирования поведения мобильного робота, построенная на основе сети подобных элементов.

Введение


Одной из актуальных задач современной робототехники по-прежнему остается задача создания автономных мобильных роботов, способных к ориентации в пространстве, принятию решений в сложной, реальной обстановке, решающих задачи распознавания образов и проч. Сфера возможного применения подобного рода устройств велика – от создания роботов-погрузчиков, патрульных роботов и роботов охранников до роботов-экскурсоводов (роботов-гидов) и т.д.

Спектр задач, которые должен уметь решать такой робот, крайне велик. В этой работе мы рассмотрим одну из компонент подобного робота – систему динамического планирования действий робота для принятия решений и выработки управляющих воздействий. При этом в основе системы планирования будет лежать модель искусственной нейронной сети, построенная из т.н. интеллектуальных нейронов.

В качестве конкретного примера подобного рода мобильных устройств рассмотрим задачу создания системы управления для робота–экскурсовода.

Робот-экскурсовод

Робот–экскурсовод (РЭ) представляет собой мобильное устройство, предназначенное для воспроизведения некоторого лекционного материала. РЭ должен двигаться по определенному маршруту, который представляет собой линию с нанесенными на нее метками. Метки определяют места останова и начала воспроизведения соответствующего текста. Движение по маршрутной линии (полосе) реализуется на аппаратном уровне с помощью специального контроллера, при этом робот может определять уровень точности позиционирования на линии.


Основным требованием к РЭ является его безопасность: робот ни в коем случае не должен причинять вред людям и экспонатам. Это означает немедленный останов робота в случае нештатной ситуации, в т.ч. – в случае возникновения препятствия на его пути или потери маршрутной полосы. Для этого он оснащен датчиками препятствий двух видов – датчиками уровня 0 (ДП0), определяющим препятствие непосредственно в зоне безопасности робота, и ультразвуковым датчиком (УЗД), реагирующим на удаленные препятствия. Реакция на сигнал датчика ДП0 – безусловный останов системы. Реакция на сигнал от УЗД менее критична – здесь робот может реагировать на него более разнообразно. При этом может оцениваться расстояние до препятствия – степень потенциальной опасности.

Робот является автономным устройством, поэтому он должен следить за уровнем заряда своих бортовых аккумуляторов. При уменьшении заряда ниже критического робот должен начать процедуру поиска источника питания.

Таким образом, основными функциями робота являются: движение по определенному маршруту – полосе; реакция на наличие препятствий в рабочей зоне робота; реакция на снижение уровня заряда аккумуляторов; определение точек останова на маршруте и воспроизведение соответствующего лекционного материала.

Структура робота-экскурсовода


РЭ состоит из ходового модуля, шасси, множества первичных и вторичных датчиков, контроллера ходовых двигателей, контроллера исполнительных механизмов и управляющей ЭВМ. На рис.1 представлена общая структура робота–экскурсовода.



Рис.1. Структура РЭ

Первичные датчики – это датчики препятствий, полосы, освещенности и проч. Вторичные датчики – это акустические датчики (микрофон), видеокамера и т.д. Контроллер ходовых двигателей (КХД) отвечает за перемещение робота. Он обеспечивает совместно с контроллером безусловных рефлексов останов системы в случае нештатной ситуации. Контроллер исполнительных механизмов управляет дополнительными исполнительными механизмами (голова, манипуляторы и т.д.). УЭВМ - управляющая (центральная) ЭВМ. Связь УЭВМ с контроллером рефлексов осуществляется по медленному стандартному интерфейсу RS232.


Система построена по иерархическому принципу. На нижнем уровне иерархии находятся датчики, которые отвечают за безопасность системы и исполнительные механизмы. Все критическое управление осуществляется через контроллер рефлексов. Этот контроллер должен с достаточной частотой опрашивать датчики препятствий ближнего действия (зона безопасности), и при возникновении критической ситуации должен в простейшем случае останавливать ходовые двигатели (аварийный останов).

Таким образом, поведение робота, необходимое для решения поставленной задачи, осуществляется на верхнем уровне – в УЭВМ, а быстрые реакции, необходимые для обеспечения безопасности – на нижнем уровне с помощью контроллера рефлексов. Более приоритетными являются команды, которые вырабатываются контроллером рефлексов, даже если они противоречат командам управляющего компьютера.

На рис.2. схематически изображено расположение основных датчиков РЭ.



а) б)
Рис.2. а) расположение датчиков, б) зоны чувствительности датчиков препятствий
Внешний вид РЭ представлен на рис.3.



Рис.3. Внешний вид робота

Постановка задачи


Среди множества разнообразных задач управления поведением робота рассмотрим одну более простую, модельную. Ограничимся рассмотрением ситуации, при которой робот воспринимает только три входных сигнала – от датчика препятствий, от датчика уровня заряда аккумулятора и датчика, определяющего точность позиционирования робота на полосе движения. Требуется создать систему планирования действий робота в зависимости от интенсивности этих входных сигналов.

Сигналы от датчиков являются аналоговыми, представляющими значения уровней интенсивности. Необходимо разработать систему управления, которая, исходя из величин сигналов, спланирует действия робота на некотором временном отрезке.


При этом предполагается, что сигналы имеют разные приоритеты или значимость (высший приоритет имеет сигнал от датчика препятствий – требование безопасности). План действий должен определять именно желаемую реакцию системы, т.е. задавать не управляющее воздействие непосредственно, а лишь определить, какую задачу должен решать робот (реакция на препятствие, позиционирование на линии или запуск процедуры реакции на снижение разряда аккумулятора). Таким образом, речь идет о динамическом планировании поведения робота на высоком уровне.

Существует множество способов решения подобного рода задач – от применения нечеткой логики и методов инженерии знаний до построения автоматических регуляторов. Здесь же рассмотрим вопрос применимости механизма искусственных нейронных сетей (ИНС) как основы системы динамического планирования поведения сложных систем. При этом сеть будет построена не из известных формальных, а из т.н. интеллектуальных нейронов.

Искусственная нейронная сеть


Считается, что основой нейроинтеллектуального направления ИИ является предложенная в 1943 г. У.С. Мак-Каллоком и В. Питтсом модель системы, состоящей из пороговых нейроподобных элементов – формальных нейронов (ФН). Дальнейшее развитие этой модели привело к созданию перцептрона Розенблатта (1962 г.), его жесткой критике и последующему забвению, что привело к некоторому застою в развитии работ по этому направлению. Положение спасло создание к началу 70-х гг. различных моделей многослойных систем из нелинейных элементов.

Изначально в теории ИНС существовало два магистральных направления развития. Первое, коннекционистское, декларировало, что в основе модели ИНС должны лежать простые функциональные элементы. Все же многообразие структур, отражающее устройство и поведение реальных нейронов, согласно этому подходу, может явиться результатом объединения простых формальных нейронов.

Второе, нейробиологическое, направление характеризуется созданием сетей, состоящих из сложных нейронов, приближенных к биологическим моделям.


В настоящее время доминирующим в ИИ направлением является коннекционистский подход. В первую очередь это обусловлено достаточно хорошей формализацией моделей. Однако основной проблемой коннеционистский подхода является принципиально малая размерность решаемых задач и, как следствие, его узкая специлизация. Как только мы переходим от задач аппроксимации или многомерной оптимизации к решению сложных, многоуровневых задач, требующих привлечения семантических уровней, оказывается, что необходимо вводить более сложные, нежели формальные нейроны, функциональные элементы. Попытки «выращивания» подобного рода сложных нейронов из сети простых приводят к тому, что количество ФН растет катастрофически, появляются практически неустранимые сложности обучения таких сетей и т.п. Скажем, для моделирования нейрона-детектора необходимо порядка десяти ФН, а нейрон памяти требует уже несколько десятков ФН.

Основными же трудностями нейробиологического подхода являются, во-первых, отсутствие однозначных моделей биологических нейронов (разные школы по-разному описывают нейроны), во-вторых – проблемы формирования сети из сложных нейронов, описания связей между ними. Если модель сети формальных нейронов построена как раз на принципе ее самоорганизации, т.е. установления связей и их весов между элементами, то в нейробиологическом подходе приходится формировать как саму сеть, так и ее параметры априорно, подстраиваясь под конкретную задачу. В этом смысле можно считать коннекционистский подход более универсальным (в классе решаемых оптимизационных задач).

В настоящей работе рассматривается одна из нейробиологических моделей построения ИНС. Эта модель названа ее автором - Вальцевым В.Б. – брейнпьютером (от англ. brain – мозг). В ее основе лежит модель реальной нервной клетки - нейрона.

Концепция интеллектуального нейрона

Микроструктурной функциональной единицей мозга является нейронный модуль, состоящий из популяции нервных клеток, имеющих общий эффекторный выход. Таким модулем является большой пирамидный нейрон (БПН) и группа связанных с ним нейронов, использующих эффекторный выход БПН. БПН имеет наибольшую разветвленность дендритов, ответственных за восприятие информации, что позволяет ему собирать информацию от нейронов всех слоев коры головного мозга. БПН имеет максимальный набор функциональных блоков [Вальцев и др., 1999]. Доминирование БПН в интеллектуальных механизмах мозга подтверждается тем, что БПН преобладают в ассоциативных зонах. Считается, что эволюция мозга сопровождалась прежде всего ростом числа БПН; онтогенетическое созревание мозга человека совпадает с наибольшим увеличением числа и размеров именно БПН.


Согласно «брейнпьютерному» подходу, развитие интеллекта характеризуется не простым возрастанием потоков воспринимаемой и анализируемой информации, а обеспечением адаптивной целенаправленной деятельности организма. Целенаправленность (мотивация) поведения определяется удовлетворением актуальной потребности - снятием влияний, которые вызывают потребность. Вследствие того, что принцип целенаправленности является общим для психики, для мозга, а также для БПН [Лавров, 1996], [Вальцев, 1999б], БПН рассматривается как основное микроструктурное звено интеллектуального механизма мозга.

Строение интеллектуального нейрона


Внешний вид и строение входов интеллектуальной нервной клетки представлены на Рис.4:



Рис.4. Структура «интеллектуального» нейрона
Основные функциональные элементы клетки – это ее тело, в котором происходит накопление потенциала от входов и аксонный холмик, который при превышении потенциалом клетки некоторого порогового значения генерирует с выхода клетки нервные импульсы.

Вход запрета нервной клетки выполняет роль тормоза аксонного холмика. Благодаря ему передача импульсации с клетки может быть прекращена, при этом ее внутренний потенциал изменен не будет.

Вход торможения. При подаче на него нейроимпульсации уменьшает внутренний потенциал клетки, при этом снижая ее активность.

Вход потребности (регуляция). При подаче импульсов на вход потребности потенциал нервной клетки нарастает, но, при наличии импульсов только на этом входе, не может превысить его порогового значения, необходимого для начала генерации выходных импульсов.

Вход возбуждения. При наличии импульсации только на вход возбуждения потенциал нервной клетки не может превысить значение, равного примерно 30% от порогового.

Вход памяти. Самый сложный, обучаемый вход. При подаче импульсов на максимально обученный вход памяти потенциал нервной клетки не сможет подняться выше значения в 70% от порогового. В состоянии нулевой обученности импульсы на вход памяти не увеличивают потенциал нервной клетки. Обучение памяти происходит при наличии определенных сочетаний импульсов на входах регуляции, памяти и возбуждения. При этом вход памяти обучается - потенциал, привносимый этим входом в нервную клетку, увеличивается на 20%. При отсутствии импульсации на входе памяти нейрон с течением времени разобучается.


Потенциалы, привносимые всеми входами, кроме запрета, суммируются в общий потенциал нервной клетки, превышение которого над пороговым значением этой клетки индуцирует ее реакцию на выходе.

Мы не будем подробно останавливаться на математической модели нейрона, отметив только, что нервная клетка осуществляет суммирование потенциалов входов:



Здесь 0 – начальный потенциал, n (n=1..4) – потенциалы входов памяти, регуляции, возбуждения, торможения и запрета соответственно.

Когда потенциал превышает пороговое значение и при этом потенциал на входе запрета не превышает некое заданное значение, нейрон генерирует импульсы, причем частота импульсов прямо пропорциональна превышению потенциала над порогом:

,

где ,  - порог нейрона,  - коэффициент зависимости частоты генерации от надпорогового потенциала.

Описание функционирования нейросети


Как уже говорилось, одним из основных понятий функционирования нейрнной сети является потребность. Целенаправленность поведения сети определяется именно переходом в такое состояние, при котором снимаются влияния, вызывающие эти потребности (удовлетворение актуальных потребностей). Потребности были выбраны следующих типов:

  1. Аккумулятор. У робота есть потребность в наличии определенного уровня заряда аккумулятора.

  2. Линия. Потребность следовать по намеченной маршрутной линии.

  3. Препятствие. Потребность не натыкаться на препятствия, т.е. реакция на препятствие.

Исходя из этого сеть должна строиться таким образом, чтобы обеспечить поведение, удовлетворяющее (снимающее) этим потребностям. Например, при снижении уровня заряда аккумулятора робот должен подавать определенный предупреждающий сигнал; при потере линии робот должен стремиться вернуться на полосу движения; при наличии препятствия - совершать останов, объезд либо выдавать предупреждение в зависимости от расстояния до препятствия (т.е. интенсивности возникшей потребности). При этом, разумеется, наибольший интерес представляют именно интенсивности реакций робота в зависимости от величины возникающих потребностей.


Управляющая нейронная сеть представлена на рис.5. Сеть состоит из типовых конструкционных блоков – блоков обучения, регуляции, фильтров и т.д.



Рис.5. ИНС системы управления РЭ
Генераторы импульсации («Препятствие», «Аккумулятор» и «Линия») генерируют на входы возбуждения нейронов блока «Регулятор» импульсацию, пропорциональную интенсивности входных сигналов. Импульсация поднимает уровень потенциала на этих нейронах до некоторого допорогового значения.

При этом сигналы генератора «Препятствие» поступают входы регуляции нейронов «Регулятор Препятствие», «Регулятор Аккумулятор», «Регулятор Линия». Это можно трактовать так, что реакция на препятствие имеет потребность в каждом из перечисленных типов регуляторов. Сигналы генераторов «Линия» и «Аккумулятор» поступают только на входы регуляции соответствующих нейронов, т.е. реакция на потерю линии и разряд аккумулятора не испытывают потребности в остальных.

Блок Регулятор. Эти три нейрона представляют собой потребности робота, которые отражаются в уровнях выходной импульсации соответствующих нейронов. Далее эта импульсация подается на входы возбуждения нейронов блока фильтров доминанты.

Фильтр. Выход каждого из трех нейронов фильтра нейронов связан с входом торможения двух оставшихся нейронов. Значения импульсации с выходов нейронов фильтра будут выходными значениями сети. Задача фильтра заключается в том, чтобы позволить нейрону с наибольшей интенсивностью выходной импульсации затормозить соседние нейроны. Это – т.н. фильтр доминанты. Таким образом, снимая информацию со всех трех нейронов фильтра, можно однозначно определить тот выход нейросети, который был активирован. Соответственно интенсивная импульсация на одном из выходов фильтра доминанты указывает на рекомендацию нейросети к выводу потребности, соответствующей названию нейрона.


Роль фильтра доминанты иллюстрируется на рис. 6.





а) частичное отсечение






б) полное отсечение

Рис. 6. Действие фильтра: а) частичное отсечение импульсации нейрона регулятора; б) полное отсечение выхода регулятора «Линия» при доминировании сигналов регулятора «Полоса»
На графиках видно, что, несмотря на интенсивную импульсацию нейронов регуляторов, соответствующие фильтры производят частичное либо полное отсечение выходной импульсации. На рис. 6, б показан график потенциала нейрона фильтра, который близок к порогу, но не может превысить его. Видимо, в этой ситуации речь идет о явном доминировании сигнала регулятора «Препятствие».

В конструкции нейросети помимо основных блоков предусмотрены сервисные блоки – блок автоматической регулировки усиления, блок обратного обучения, и блок восстановления.

Блок автоматической регулировки усиления (АРУ). Задача блока состоит в наращивании чувствительности нейронов блока «Регулятор» к малым воздействиям. Дело в том, что слабая импульсация генераторов, отвечающих за подачу измеряемых параметров, может привести к отсутствию вообще какой-либо реакции на выходе нейросети.

Блок Обучение. Обучение нейросети производится в периоды времени, определяемые генератором периода обучения. Для этого в нужные периоды с генератора подается интенсивная равномерная импульсация, длящаяся в течение периода обучения. Выходы с этого генератора поступают на входы регуляции нейронов блока «Вентиль», а на входы возбуждения этих нейронов подаются выходы с нейронов фильтра доминанты.


На входы памяти последних упомянутых нейронов поступает равномерная возбуждающая импульсация с генераторов «Аккумулятор», «Линия» и «Препятствие». Обучение нейронов происходит при определенном сочетании пачек импульсов на входах памяти и возбуждения. Выходы нейронов блока «Обучение» поступают на входы торможения нейронов блока «Регулятор». Таким образом обученные нейроны будут затормаживать нейроны регуляторов, тем самым снижая их значимость. Это необходимо для того, чтобы при длительно не изменяющихся параметрах генераторов удовлетворить как можно больше параметрических категорий, а не сосредотачиваться только на одной, т.е. сеть всегда будет отражать несколько потребностей, а не ограничиваться лишь одной.

Блок восстановления предназначен для подготовки системы к принятию нового решения. Суть его сводится к устранению остаточной угасающей импульсации.

Здесь следует отметить один важный момент. Рассмотренная схема является почти точной копии схемы нейронной сети, которая была предложена в свое время для решения задачи из совершенно иной области. Речь шла о задаче распределения ресурсов в условиях конкуренции - распределения эфирного времени на телевидении. Оказалось, что, несмотря на свою несхожесть, эти задачи могут быть успешно решены на основе одной структуры нейронной сети. Видимо, речь здесь идет о возможном наличии некоторых инвариантах НС.

Моделирование


Так как программа является системой управления верхнего уровня, то ее задачей является принятие решений, а не непосредственная выработка управляющих сигналов на исполнительные устройства робота.

На рис.7 изображена схема работы системы планирования.



Рис.7. Принцип работы системы планирования

Сигналы от датчиков (линия, препятствие, аккумулятор) преобразуются в импульсацию – параметры соответствующих генераторов уровней сигнала. Установленные параметры генераторов являются составной частью конфигурацию нейронной сети. Далее осуществляется моделирование работы ИНС, во время которого снимаются сигналы с нейронов фильтра доминанты. Полученная импульсация выходных нейронов представляет собой временную развертку интенсивностей соответствующих потребностей, т.е. план действий робота. Далее эта импульсация преобразуется в частотно–временную характеристику и может быть развернута в план действий (реакций) робота. В соответствии с этим планом формируется комплекс управляющих воздействий на исполнительные механизмы робота.




а) б)

Рис. 8. Фрагменты интерфейсов программ: а) моделирующая программа, б) управляющая программа
Таким образом, задавая интенсивность импульсации генераторов блока «Уровень», определяется текущая активность сигналов нейронной сети. Считывание выходных импульсов нейронов блока «Фильтр» позволяет получить развертку во времени значимости соответствующих реакций сети, т.е. временную развертку плана реакции (действий) системы.

Эксперименты


Сеть была настроена таким образом, что доминирующей являлась потребность «Препятствие». Это означает, что при равных уровнях сигналов входных генераторов система планирует прежде всего реакцию именно на объезд препятствия (требование безопасности).

Ниже приведены результаты некоторых экспериментов при характерных значениях входных сигналов. На рис. 9, а показана реакция системы при нулевых значениях сигналов датчиков. В этой ситуации в первой половине срока система планирует отработку слежения за препятствиями (несмотря на то, что препятствия пока не видны), а далее планируется проанализировать состояние заряда батарей.



а)



б)

Рис.9. Реакция системы на одинаковые входные воздействия: а) реакция на нулевые воздействия; б) реакция на максимальные воздействия

Интересно, что почти такой же план действий формируется и при максимально интенсивных значениях входных сигналов, т.е. в ситуации, когда обнаружены препятствия, заряд аккумулятора на исходе и робот потерял линию.


Тривиальной также является реакция системы на один явно доминирующий сигнал – система определяет реакцию именно на него. Здесь интересным может быть только то, что, планируя реакцию на раздражитель в начале периода, система все равно определяет реакцию на препятствие во второй половине периода.


а)



б)

Рис. 10. Реакция на доминирующий сигнал: а) сигнал «Аккумулятор»; б) сигнал «Линия»
То, что система планирует прежде всего отработку сигнала «Препятствие», видно из рис. 11.



Рис.11

Лишь при явном превышении уровня прочих второстепенных раздражителей система либо планирует реакцию на препятствие во втором периоде (рис. 12, а), либо вовсе не планирует реакцию на него (рис. 12, б).


а)



б)

Рис. 12. Явное доминирование уровней второстепенных сигналов


Выводы


Проведенные эксперименты показали принципиальную возможность использования сетей интеллектуальных нейронов при решении задач управления сложными техническими объектами. Кроме того, в ходе работы было получено подтверждение тезиса о том, что, видимо, должны существовать некоторые инварианты структур ИНС, которые могут быть применены для широкого круга самых разнообразных задач - от уже упомянутой задаче распределения ресурсов до рассмотренной задачи динамического планирования в управлении техническим объектом. Это представляется особенно важным потому, что процесс конструирования подобного рода сетей, определение связей, номенклатуры и параметров элементов сети является крайне трудоемким (в отличие от сетей формальных нейонов с их механизмами самоорганизации на основе обучения).

Далее, несомненный интерес представляют такое свойство системы, как зачастую нетривиальность («разумность») предлагаемых решений. Речь идет о том, например, как система планирует свое поведение в случае отсутствия явных раздражителей.

Помимо этого система обладает своеобразной гибкостью в смысле простоты и естественности изменения своего поведения - достаточно изменить параметры генераторов блока потребностей для того, чтобы сеть поменяла приоритеты своих целей.

Разумеется, существует ряд проблем, связанных с использованием предложенного метода. Это и сугубо технические сложности, связанные с необходимостью быстрого моделирования (в идеале лучше всего подошли бы параллельные вычисления), и трудоемкость процесса создания и настройки сети, и то, что называется слабой управляемостью процесса принятия решения. В последнем случае речь идет о том, что, в отличие от большинства формальных систем, невозможно получить объяснение тому, почему система выработала именно такой план действий. Впрочем, это особенность всех нейроподобных структур.

Список литературы

  1. [Вальцев, 1998] Вальцев В.Б., Григорьев В.Р., Никонов В.Г., Щеблыкин А.В. Бионика – как одно из основных направлений в решении теоретических и прикладных проблем искусственного интеллекта // Труды 3-его международного Симпозиума “Интеллектуальные системы” (Интелс`98)


  2. [Вальцев, 1999a] Вальцев В.Б., Григорьев В.Р., Черкашин Е.А. Значение мотивационной регуляции в интеллектуализации функций нейрона. //Нейрокомпьютеры и их применение. V Всероссийская конференция. М. 1999. с.478-481

  3. [Вальцев, 1999,б] Вальцев В.Б., Лавров В.В., Лаврова Н.М., Субстрат интеллектуальных функций мозга: аналогия модели большого пирамидного нейрона //Международная конференция "50 лет развития кибернетики. С.-Пб. 1999. с.92-94.

  4. [Горбань, 1990] Горбань А.Н. Обучение нейронных сетей. - М.:СП ПараГраф, 1990. – 159 c.

  5. [Лавров, 1996] Лавров В.В. Мозг и психика: естественное и сверхъестественное. С.-Пб. 1996. -155 с.

  6. [Соколов, 1989] Соколов Е.Н., Вайткявичус Г.Г. Нейроинтеллект: от нейрона к нейрокомпьютеру. -М.:Наука, 1989, - 238 с.

  7. [Valtzev, 1996] Valtzev V.B., Grigoriev V.R., Nikonov V.G., Kobzar I.V. Brainputer and Neural Architecture of Neurocomputers. Journal of Neurocomputer, Volume 1 Number 1, p.54-59, 1996