Российские математики создали систему, позволяющую изучать системы с итеративным обучением. Это позволит научить роботизированные системы лучше исполнять рутинные действия, принятые в промышленном производстве, обслуживании конвейеров, управлении транспортными средствами. Эта работа была поддержана грантом Российского научного фонда.
Что такое итеративное обучение? Оно напоминает освоение человеком какого-либо однообразного действия. Мы осваиваем такие действия при помощи длительных тренировок, в ходе которых запоминаем результаты предыдущих попыток и используем их в дальнейшем. Итеративное обучение – это аналог таких тренировок, доступный для машинного интеллекта.
Примером такого обучения может служить тренировка баскетболиста. Он забрасывает мяч в корзину много раз подряд, каждый раз наблюдая за ним, делая выводы и стремясь скорректировать свои действия в следующих попытках. Соответствующий процесс может быть доступен и искусственному интеллекту. При каждой попытке задействуется как информация из данной попытки, так и из прежних, то есть используется память.
В интеллектуальном обучении можно выделить два процесса – монотонное выполнение однотипного действия и его последовательное уточнение и исправление. Были созданы математические модели, описывающие эти действия, — так называемые 2D-модели.
Упомянутая научная работа основана на векторном поле, в котором каждая стрелка указывает направление одной определённой силы. Расчёты проводились при использовании аналогии с физическими полями и простыми физическими конструкциями. Одной из таких конструкций может быть бочка с отверстиями в стенках, в которую налили воду; вода вытекает из всех отверстий до тех пор, пока её уровень не сравняется с последним, самым нижним отверстием, и вытекание прекратится, — то есть система придёт в устойчивое равновесие. Такая аналогия подтвердилась в ходе расчётов, в которых использовалось свойство дивергенции – способность векторов расходиться из одной точки.
Ещё одно соображение состояло в том, что свойством любой системы является её устойчивость. И любая система стремится прийти в такое устойчивое состояние. При итеративном обучении это означает, что с увеличением количества повторений уменьшается ошибка. Обычно при изучении устойчивости применяется метод функций Ляпунова, но для 2D-систем он нуждается в серьёзной доработке, или же нужно разрабатывать принципиально иной метод исследований. Это и постарались сделать российские специалисты.
Достоинство разработанной системы в том, что она позволяет увеличить скорость обучения различных роботов, при этом её сравнительно просто реализовать.
Сама мысль о том, что роботов можно научить самостоятельно учиться на ошибках, ещё недавно казалась фантастической. Однако сама сущность роботов подталкивала именно к этому: роботы тем и отличаются от механических устройств, что способны выполнять более сложные и продуманные действия и в некотором роде «осмыслять» их. Сам же процесс такого осмысления сводится установлению новых математических связей между объектами и действиями. Точно так же в целом мыслят люди и животные, разница лишь в количестве одновременно обрабатываемой информации. По идее, роботы могут научиться безошибочно выполнять такие сложные действия, которые не под силу человеческому интеллекту. Пока, конечно, дело обстоит совсем по-другому, и способность роботов к обучению ограничена. Так, в экспериментальной японской гостинице, на все должности в которой были посажены роботы, они не смогли справиться даже с довольно простыми задачами, и владельцам спешно пришлось нанимать на их места живых людей.