Презентация на тему: МОСКВА 2019 МИНОБРНАУКИ РОССИИ Федеральное государственное образовательное

МОСКВА 2019 МИНОБРНАУКИ РОССИИ Федеральное государственное образовательное
Терминология
Машинное обучение с подкреплением
Развёрнутая схема обучения с подкреплением
Наглядная схема
Опыт
Награда
Стратегия
Обучение
Этапы рабочего процесса при использовании обучения с подкреплением
Пример: Обучение беспилотного автомобиля
Популярный пример: обучение ходьбе роботов
Q -обучение
Функция полезности действия
Функция полезности действия
Определение функции полезности действия
Стратегия действий агента при Q -обучении
Процесс обучения
Хранение оценок полезности действий в таблице
Глубокое Q-обучение
Архитектура нейросетевого аппроксиматора Q-функции. Вариант 1.
Архитектура нейросетевого аппроксиматора Q -функции. Вариант 2.
Системы адаптивной критики
Системы адаптивной критики
Критик
Актор
Обучение критика
Обучение актора
Задача о перевёрнутом маятнике
Математическая модель маятника
Целевое состояние маятника
Архитектуры сетей для управления маятником
Используемый инструментарий
До обучения
Результаты обучения маятника
Результаты обучения маятника
Сравнение результатов применения двух видов нейросетевых аппроксиматоров Q -функций
Сравнение результатов Q -обучения и адаптивной критики
Мультиагентное обучение с подкреплением
Задача перемещения твёрдого тела группой роботов (отсутствие прямой информационной связи)
Постановка задачи
Подход к решению задачи
Подход к решению задачи
Структура актора и критика
Вычислительный эксперимент – траектория перемещения тела
Визуализация работы трёх роботов
Визуализация работы трёх роботов
Литература
Благодарю за внимание!
1/49
Средняя оценка: 4.8/5 (всего оценок: 12)
Код скопирован в буфер обмена
Скачать (16432 Кб)
1

Первый слайд презентации

МОСКВА 2019 МИНОБРНАУКИ РОССИИ Федеральное государственное образовательное учреждение высшего образования « МИРЭА – Российский технологический университет » РТУ МИРЭА Институт кибернетики Кафедра автоматических систем ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ Докладчик: Барашков Алексей Андреевич, программист, ООО Викрон, выпускник кафедры Автоматических систем. Научный руководитель: Филимонов Александр Борисович, профессор кафедры Автоматических систем, д.т.н., с.н.с. 1

Изображение слайда
2

Слайд 2: Терминология

Соответствие терминов, принятых в искусственном интеллекте, терминам, принятых в области систем управления: «Агент» - «Регулятор» «Окружающая среда» - «Объект управления » «Действие» - « У правляющий сигнал». 2

Изображение слайда
3

Слайд 3: Машинное обучение с подкреплением

Агент действует в некой среде. Агент с помощью датчиков определяет состояние s, в котором находится Агент совершает действие a. Агент переходит в новое состояние s’. Агент оценивает, на сколько данное действие было полезным при помощи награды r. 3

Изображение слайда
4

Слайд 4: Развёрнутая схема обучения с подкреплением

4

Изображение слайда
5

Слайд 5: Наглядная схема

5

Изображение слайда
6

Слайд 6: Опыт

За счёт совершения различных действий в среде агент набирается опыта. Опыт – в каком состоянии было совершено какое действие, какая награда была за это получена и в какое новое состояние в результате агент попал. < s, a, r, s ’> Опыт должен быть максимально разнообразным: желательно побывать в наибольшем числе состояний и попробовать в каждом из них как можно больше различных действий. 6

Изображение слайда
7

Слайд 7: Награда

7 Агент оценивает ситуацию – пару «состояние-действие» при помощи скалярной награды (действительного числа). Награда показывает, насколько полезно было совершить определённое действие в данном состоянии Задание инженером правильного метода формирования награды играет определяющую роль в успехе обучения

Изображение слайда
8

Слайд 8: Стратегия

Агент руководствуется некоторой стратегией действий. Стратегия определяет в каком состоянии будет совершено какое действие.

Изображение слайда
9

Слайд 9: Обучение

За счёт использования полученного опыта обновляется стратегия поведения агента. После завершения обучения агент может действовать, используя полученную стратегию. 9

Изображение слайда
10

Слайд 10: Этапы рабочего процесса при использовании обучения с подкреплением

10

Изображение слайда
11

Слайд 11: Пример: Обучение беспилотного автомобиля

Бортовой компьютер обучается вождению... (агент ) с помощью данных с датчиков (камеры и LIDAR),... ( состояние) которые отображают дорожные условия, положение автомобиля,... ( среда) генерирует команды рулевого управления, торможения и газа,... ( действие) и, согласно соответствию «состояние-действие»,... ( стратегия) пытается оптимизировать комфорт водителя и эффективность расхода топлива... ( вознаграждение ) Алгоритм действия обновляется методом проб и ошибок с помощью алгоритма обучения с подкреплением 11

Изображение слайда
12

Слайд 12: Популярный пример: обучение ходьбе роботов

12

Изображение слайда
13

Слайд 13: Q -обучение

Самый простой популярный алгоритм обучения с подкреплением. В основе лежит определение оценки функции полезности ( Q -функции) для конечного числа действий. 13

Изображение слайда
14

Слайд 14: Функция полезности действия

Каждое действие в каждом состоянии можно оценить при помощи функцией полезности Q π ( s, a ) – ожидаемой суммой наград при совершении агентом действия a в состоянии s и совершении последующих действий в соответствии со стратегией π. Процесс обучения – определение функции полезности в процессе функционирования агента. 14

Изображение слайда
15

Слайд 15: Функция полезности действия

Функция полезности показывает, насколько большую награду можно получить за определённое действие, а также насколько данное действие является перспективным. Т.е. сколько ещё наград можно будет собрать в будущем, если при движении из нового состояния, используя текущую стратегию. На сколько сильно будет учитываться перспектива получения наград в будущем, инженер задаёт с помощью коэффициента обесценивания γ : 0 < γ < 1 15 Функция полезности действия

Изображение слайда
16

Слайд 16: Определение функции полезности действия

Функция полезности действия Q π ( s, a ) – ожидаемая суммой наград при совершении агентом действия a в состоянии s и совершении последующих действий в соответствии со стратегией π : где M [·]- математическое ожидание, γ - коэффициент обесценивания, t F - момент достижения конечного состояния (если таковое отсутствует, то t F = ∞)

Изображение слайда
17

Слайд 17: Стратегия действий агента при Q -обучении

Стратегия действий – выбор действия с максимальной текущей оценкой полезности. π t ( s ) = argmax a Q t ( s, a ). 17

Изображение слайда
18

Слайд 18: Процесс обучения

18 В начальный момент t = 0 случайным образом выбираются оценки полезности действий Q 0 ( s, a ) Процесс обучения заключается в обновлении оценок полезности: , где a = a ( t ), s = s ( t ), s ' = s ( t +1). Может производиться с темпом 0 < α ≤ 1: Множество действий A обязательно конечно

Изображение слайда
19

Слайд 19: Хранение оценок полезности действий в таблице

19 a 1 a 2 … a n s 1 Q ( s 1, a 1 ) Q ( s 1, a 2 ) … Q ( s 1, a n ) s 2 Q ( s 2, a 1 ) Q ( s 2, a 2 ) … Q ( s 2, a n ) … … … … … s m Q ( s m, a 1 ) Q ( s m, a 2 ) … Q ( s m, a n )

Изображение слайда
20

Слайд 20: Глубокое Q-обучение

Для аппроксимации функции полезности в непрерывном пространстве состояний используется нейронная сеть. Т.е. если состояний бесконечно много, нейронная сеть позволяет правильно определить полезность состояний, находящихся близко к уже исследованным. Глубокая нейронная сеть позволяет не производить предварительную обработку информации о состоянии. Например, на вход нейронной сети может подаваться изображение с камеры. 20

Изображение слайда
21

Слайд 21: Архитектура нейросетевого аппроксиматора Q-функции. Вариант 1

21 Архитектура нейросетевого аппроксиматора Q-функции. Вариант 1. Обучающий пример :

Изображение слайда
22

Слайд 22: Архитектура нейросетевого аппроксиматора Q -функции. Вариант 2

Обучающий пример :

Изображение слайда
23

Слайд 23: Системы адаптивной критики

Более сложный алгоритм, чем Q -обучение. Нет ограничений на количество действий (например, действие - угол поворота руля на любой угол от -90 ° до +90°). Используется два блока: актор и критик. Позволяет настраивать управляющее устройство ( актор ) таким образом, чтобы предлагаемое им действие в каждом состоянии имело максимальную полезность. Актор может иметь различную структуру. Критик, как правило, реализуется с помощью нейронной сети. 23 Системы адаптивной критики

Изображение слайда
24

Слайд 24: Системы адаптивной критики

Критик – блок системы управления, который оценивает качество её работы. Задачей критика является аппроксимация функции полезности действий Q. Актор – блок системы управления, задающий действия этой системы. Задача актора – выбор наилучших с точки зрения критика действий. Актор и критик можно реализовать при помощи нейронных сетей. 24 Авторы - Данил Валентинович Прохоров, Дональд С Вунш II, Миссурийский университет науки и технологий, 1997. В IT-сообществе широко известна небольшая модификация метода под названием DDPG, 2015.

Изображение слайда
25

Слайд 25: Критик

Задачей критика является аппроксимация функции полезности Q. Реализуется нейронной сетью с матрицей синаптических весов W c. На его вход подаются векторы состояния s и действия a. Критик имеет один выход, на который выводится оценка полезности действия. Функциональное преобразование критика: 25

Изображение слайда
26

Слайд 26: Актор

Задачей актора является формирование стратегии π t ( s ). Стратегия формируется таким образом, чтобы предлагаемые действия были наилучшими с точки зрения критика. Основу актора можно представить нейронной сетью (но не обязательно) с матрицей синаптических весов W a : 26

Изображение слайда
27

Слайд 27: Обучение критика

Эталонные значения выхода для обучения критика формируются с использованием формулы для обновления оценки функции полезности: где a’ - действие в состоянии s ’, предлагаемое актором : Обучение критика (обновление матрицы весов W c ) производится за счёт минимизации разности эталонного значения и текущего выхода нейронной сети: 27

Изображение слайда
28

Слайд 28: Обучение актора

Обучение актора (обновление матрицы весов W a ) производится методом обратного распространения ошибки при максимизации определяемой критиком полезности, действия, предлагаемого актором : 28

Изображение слайда
29

Слайд 29: Задача о перевёрнутом маятнике

29 Задача о перевёрнутом маятнике Простая задача для апробации методов обучения с подкреплением. Целевое состояние маятника: стабилизация в вертикальном положении (нулевой угол отклонения от вертикальной оси, нулевая угловая скорость). Чем ближе положение маятника к вертикальному, больше награда. В точке подвеса – мотор. Действие - управляющий момент, создаваемый мотором.

Изображение слайда
30

Слайд 30: Математическая модель маятника

Уравнение, описывающее движение маятника θ - угол отклонения от вертикальной оси, J - момент инерции, h - расстояние от точки подвеса до центра тяжести маятника, m - масса маятника, l - длина маятника, g - ускорение свободного падения, M - управляющий момент Фазовые координаты – угол отклонения от вертикальной оси θ и угловая скорость Величина управляющего момента ограничена

Изображение слайда
31

Слайд 31: Целевое состояние маятника

Целевое состояние маятника: θ = 0, ω = 0 Награда вычисляется в соответствии с требованием близости текущего состояния к целевому r ( s, a ) = – ( c 1 θ 2 + c 2 ω 2 ), причём c 1 = 1; c 2 = 0,1

Изображение слайда
32

Слайд 32: Архитектуры сетей для управления маятником

32 Q -обучение (вариант 1) Q -обучение (вариант 2) Адаптивная критика

Изображение слайда
33

Слайд 33: Используемый инструментарий

33

Изображение слайда
34

Слайд 34: До обучения

34

Изображение слайда
35

Слайд 35: Результаты обучения маятника

35 Время обучения – порядка 5 – 10 минут

Изображение слайда
36

Слайд 36: Результаты обучения маятника

36

Изображение слайда
37

Слайд 37: Сравнение результатов применения двух видов нейросетевых аппроксиматоров Q -функций

Зелёным цветом обозначен первый вариант Q -обучения Красным –второй вариант

Изображение слайда
38

Слайд 38: Сравнение результатов Q -обучения и адаптивной критики

38 Синим цветом обозначена адаптивная критика Красным – Q -обучение (второй вариант)

Изображение слайда
39

Слайд 39: Мультиагентное обучение с подкреплением

Наиболее актуальная на настоящее время область исследований. 39

Изображение слайда
40

Слайд 40: Задача перемещения твёрдого тела группой роботов (отсутствие прямой информационной связи)

40

Изображение слайда
41

Слайд 41: Постановка задачи

41 В разных точках вдоль периметра цилиндра находятся роботы, давящие на него с разной силой. Роботы не могут друг с другом обмениваться сообщениями. Роботам необходимо переместить цилиндр к удалённой точке, находящейся на расстоянии порядка сотен метров. Каждый робот обучается самостоятельно. Остальные роботы для него – неизвестные факторы окружающей среды.

Изображение слайда
42

Слайд 42: Подход к решению задачи

42 Подход к решению задачи В каждом роботе используется независимая система адаптивной критики. Обучение происходит полностью за время движения. Каждый робот в результате обучения получает уникальную роль в коллективе.

Изображение слайда
43

Слайд 43: Подход к решению задачи

Робот измеряет скорость движения и угол отклонения направления движения от направления к цели. Эти данные характеризуют состояние. Действие робота – величина силы, с которой он действует на цилиндр. Награда тем больше, чем меньше отклонение угла направления движения от направления к цели и немного возрастает при увеличении скорости. 43 Подход к решению задачи

Изображение слайда
44

Слайд 44: Структура актора и критика

44

Изображение слайда
45

Слайд 45: Вычислительный эксперимент – траектория перемещения тела

45

Изображение слайда
46

Слайд 46: Визуализация работы трёх роботов

46

Изображение слайда
47

Слайд 47: Визуализация работы трёх роботов

47

Изображение слайда
48

Слайд 48: Литература

Саттон Р.С., Барто Э.Г. Обучение с подкреплением: пер. с англ. – М.: БИНОМ. Лаборатория знаний, 2011 – 399 с. Рассел С., Норвиг П. Искусственный интеллект: современный подход, 2-е изд.: Пер. с англ. – М.: Издательский дом «Вильямс», 2006 – 1408 с. Главы 17, 21 Matiisen T. Guest Post (Part I): Demystifying Deep Reinforcement Learning // Intel Nervana [ Электронный ресурс ]. –  Режим доступа : URL: https://www.intelnervana.com/demystifying-deep-reinforcement-learning / – 2015. Барашков А.А. О методе глубокого обучения в задачах адаптивного управления динамическими объектами // Проблемы и перспективы студенческой науки. 2018. № 1(3). – С. 53-56. Редько В. Г., Прохоров Д. В. Нейросетевые адаптивые критики //Научная сессия МИФИ. – 2004. – С. 77-84. Lillicrap T. P. et al. Continuous control with deep reinforcement learning // arXiv preprint arXiv:1509.02971. – 2015. Filimonov A.B., Filimonov N.B., Barashkov A.A. Machine Learning in Solid Body Movement Problems by Group of Mobile Agents // Journal of Advanced Research in Technical Science. 2018. No. 10 48 Литература

Изображение слайда
49

Последний слайд презентации: МОСКВА 2019 МИНОБРНАУКИ РОССИИ Федеральное государственное образовательное: Благодарю за внимание!

49

Изображение слайда