Мультиагентное обучение с подкреплением

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Рассмотрены современные и классические алгоритмы одновременного машинного обучения множества агентов, основанные на теории игр, табличных, нейросетевых, эволюционных и роевых технологиях. Представлено последовательное развитие теоретической модели алгоритмов, базирующееся на марковских процессах принятия решений. Реализация алгоритмов выполнена на языке программирования Python с использованием библиотеки глубокого обучения PyTorch. Средой машинного обучения является компьютерная игра StarCraft II с интерфейсом кооперативного мультиагентного обучения SMAC.

Author(s): А.Н. Алфимцев
Edition: 1
Publisher: Изд. МГТУ им. Н.Э. Баумана
Year: 2021

Language: Russian
Pages: 225
City: Москва
Tags: искусственный интеллект, машинное обучение, глубокое обучение, нейронные сети, мультиагентная система, теория игр

Предисловие ...................................................... 3
Введение ......................................................... 5
Глава 1. Независимое табличное обучение ............................ 9
1.1. Классификация ................................................ 9
1.2. Модель ....................................................... 11
1.3. Алгоритм ..................................................... 14
1.4. Карта ......................................................... 16
1.5. Технология .................................................... 22
1.6. Код .......................................................... 23
1.6.1. Алгоритм независимого табличного Q-обучения ............... 23
1.6.2. Тестирование Q-таблицы ................................... 27
1.7. Эксперимент .................................................. 28
1.8. Выводы ....................................................... 31
1.9. Задачи для самоконтроля ....................................... 32
Глава 2. Обучение в матричных и стохастических играх ................. 34
2.1. Классификация ................................................ 34
2.2. Модель ....................................................... 37
2.2.1. Матричные игры .......................................... 37
2.2.2. Стохастические игры ....................................... 39
2.3. Алгоритм ..................................................... 42
2.3.1. Поиск экстремума стратегий (PHC) .......................... 42
2.3.2. «Выигрывай или учись быстро» (WoLF-PHC) ................. 44
2.3.3. Q-обучение Нэша (Nash-Q) ................................. 46
2.4. Карта ......................................................... 48
2.5. Технология .................................................... 51
2.6. Код .......................................................... 52
2.6.1. Алгоритм WoLF-PHC ...................................... 52
2.6.2. Алгоритм Nash-Q .......................................... 57
2.7. Эксперимент .................................................. 66
2.7.1. Матричные игры .......................................... 66
2.7.2. Стохастические игры ....................................... 69
2.8. Выводы ....................................................... 70
2.9. Задачи для самоконтроля ....................................... 70
Глава 3. Нейросетевое обучение ..................................... 73
3.1. Классификация ................................................ 73
3.2. Модель ....................................................... 78
3.2.1. Глубокое Q-обучение ....................................... 78
3.2.2. Децентрализованные частично наблюдаемые марковские
процессы принятия решений (Dec-POMDP) ....................... 79
3.2.3. Двойная декомпозиция Q-значений ......................... 81
3.2.4. Глубокий детерминированный градиент стратегий ............. 83
3.3. Алгоритмы .................................................... 85
3.3.1. Независимое глубокое обучение с использованием полно-
связной нейронной сети (IQN) ................................... 85
3.3.2. Централизованное обучение с использованием сверточной
нейронной сети (CDQN) ........................................ 90
3.3.3. Декомпозиция Q-значений c использованием рекуррентной
нейронной сети (VDN) .......................................... 92
3.3.4. Мультиагентный глубокий детерминированный градиент
стратегий (MADDPG) ........................................... 96
3.4. Карта ......................................................... 101
3.5. Технология .................................................... 104
3.6. Код .......................................................... 105
3.6.1. Алгоритм IQN ............................................. 105
3.6.2. Алгоритм VDN ............................................ 111
3.6.3. Алгоритм MADDPG ....................................... 121
3.7. Эксперимент .................................................. 130
3.7.1. Алгоритм IQN ............................................. 130
3.7.2. Алгоритм CDQN .......................................... 132
3.7.3. Алгоритм VDN ............................................ 133
3.7.4. Алгоритм MADDPG ....................................... 135
3.8. Выводы ....................................................... 137
3.9. Задачи для самоконтроля ....................................... 138
Глава 4. Эволюционное обучение .................................... 143
4.1. Классификация ................................................ 143
4.2. Модель ....................................................... 147
4.2.1. Нейроэволюция ........................................... 147
4.2.2. Коэволюция .............................................. 149
4.3. Алгоритмы .................................................... 151
4.3.1. Независимый генетический алгоритм (InGA) ................. 151
4.3.2. Коэволюционный алгоритм (CoE) ........................... 153
4.4. Карта ......................................................... 156
4.5. Технология .................................................... 159
4.6. Код .......................................................... 160
4.6.1. Алгоритм InGA ........................................... 160
4.6.2. Алгоритм CoE ............................................. 165
4.7. Эксперимент .................................................. 171
4.7.1. Алгоритм InGA ............................................ 171
4.7.2. Алгоритм CoE ............................................. 173
4.8. Выводы ....................................................... 174
4.9. Задачи для самоконтроля ....................................... 175
Глава 5. Роевое обучение ........................................... 179
5.1. Классификация ................................................ 179
5.2. Модель ....................................................... 182
5.2.1. Комбинаторная оптимизация ............................... 182
5.2.2. Роевая марковская модель принятия решений ................. 186
5.3. Алгоритм ..................................................... 187
5.4. Карта ......................................................... 190
5.5. Технология .................................................... 194
5.6. Код .......................................................... 195
5.7. Эксперимент .................................................. 202
5.8. Выводы ....................................................... 203
5.9. Задачи для самоконтроля ....................................... 204
Заключение ....................................................... 207
Литература ....................................................... 209
К главе 1 ....................................................... 209
К главе 2 ....................................................... 210
К главе 3 ....................................................... 212
К главе 4 ....................................................... 215
К главе 5 ....................................................... 218