Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов.
В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и метаалгоритмом ESBAS.
Издание предназначено для тех, кто интересуется исследованиями в области искусственного интеллекта, применяет в работе глубокое обучение или хочет освоить обучение с подкреплением с нуля. Обязательное условие – владение языком Python на рабочем уровне.
Author(s): Андреа Лонца
Edition: 1
Publisher: ДМК Пресс
Year: 2020
Language: Russian
Commentary: Vector PDF
Pages: 286
City: М.
Tags: Machine Learning; Algorithms; Deep Learning; Reinforcement Learning; Python; TensorFlow; Optimization; OpenAI Gym; Dynamic Programming; Q-Learning; Imitation Learning; Model-Based Reinforcement Learning; Model-Free Reinforcement Learning; TensorBoard
Титульный лист
Об авторе
Предисловие
Часть I. Алгоритмы и окружающие среды
Глава 1. Ландшафт обучения с подкреплением
Введение в ОП
Сравнение ОП и обучения с учителем
История ОП
Глубокое обучение
Элементы ОП
Стратегия
Функция ценности
Вознаграждение
Модель
Применения ОП
Игры
Робототехника и индустрия 4.0
Машинное обучение
Экономика и финансы
Здравоохранение
Интеллектуальные транспортные системы
Оптимизация энергопотребления и умные сети электроснабжения
Резюме
Вопросы
Для дальнейшего чтения
Глава 2. Реализация цикла ОП и OpenAI Gym
Настройка окружающей среды
Установка OpenAI Gym
Установка Roboschool
OpenAI Gym и цикл ОП
Разработка цикла ОП
Привыкаем к пространствам
Разработка моделей МО с помощью TensorFlow
Тензоры
Создание графа
Простой пример линейной регрессии
Введение в TensorBoard
Типы окружающих сред ОП
Зачем нужны различные среды?
Окружающие среды с открытым исходным кодом
Резюме
Вопросы
Для дальнейшего чтения
Глава 3. Решение задач методом динамического программирования
МППР
Стратегия
Доход
Функции ценности
Уравнение Беллмана
Классификация алгоритмов ОП
Безмодельные алгоритмы
Алгоритмы ОП, основанные на модели
Разнообразие алгоритмов
Динамическое программирование
Оценивание и улучшение стратегии
Итерация по стратегиям
Итерация по ценности
Резюме
Вопросы
Для дальнейшего чтения
Часть II. Безмодельные алгоритмы ОП
Глава 4. Применения Q-обучения и алгоритма SARSA
Обучение без модели
Порядок действий
Оценивание стратегии
Проблема исследования
TD-обучение
TD-обновление
Улучшение стратегии
Сравнение методов Монте-Карло и TD-методов
SARSA
Алгоритм
Применение SARSA к игре Taxi-v2
Q-обучение
Теория
Алгоритм
Применение Q-обучения к игре Taxi-v2
Сравнение SARSA и Q-обучения
Резюме
Вопросы
Глава 5. Глубокая Q-сеть
Глубокие нейронные сети и Q-обучение
Аппроксимация функций
Q-обучение с нейронными сетями
Неустойчивость глубокого Q-обучения
DQN
Решение
Алгоритм DQN
Архитектура модели
Применение DQN к игре Pong
Игры Atari
Предварительная обработка
Реализация DQN
Результаты
Вариации на тему DQN
Double DQN
Dueling DQN
N-шаговый DQN
Резюме
Вопросы
Для дальнейшего чтения
Глава 6. Стохастическая оптимизация и градиенты стратегии
Методы градиента стратегии
Градиент стратегии
Теорема о градиенте стратегии
Вычисление градиента
Стратегия
Алгоритм ГС с единой стратегией
Устройство алгоритма REINFORCE
Реализация REINFORCE
Посадка космического корабля с помощью алгоритма REINFORCE
REINFORCE с базой
Реализация REINFORCE с базой
Обучение алгоритма исполнитель–критик
Как критик помогает обучаться исполнителю
N-шаговая модель AC
Реализация AC
Посадка космического корабля с помощью алгоритма AC
Дополнительные улучшения AC и полезные советы
Резюме
Вопросы
Для дальнейшего чтения
Глава 7. Реализация TRPO и PPO
Roboschool
Управление непрерывной системой
Метод естественного градиента стратегии
Интуитивное описание NPG
Немного математики
Осложнения в методе естественного градиента
Оптимизация стратегии в доверительной области
Алгоритм TRPO
Реализация алгоритма TRPO
Применение TRPO
Проксимальная оптимизация стратегии
Краткое описание
Алгоритм PPO
Реализация PPO
Применение PPO
Резюме
Вопросы
Для дальнейшего чтения
Глава 8. Применения алгоритмов DDPG и TD3
Сочетание оптимизации градиента стратегии с Q-обучением
Детерминированный градиент стратегии
Алгоритм DDPG
Реализация DDPG
Применение DDPG к среде BipedalWalker-v2
Алгоритм TD3
Проблема смещения оценки в сторону завышения
Уменьшение дисперсии
Применение TD3 к среде BipedalWalker-v2
Резюме
Вопросы
Для дальнейшего чтения
Часть III. За пределами безмодельных алгоритмов
Глава 9. ОП на основе модели
Методы на основе модели
Общая картина обучения на основе модели
Достоинства и недостатки
Сочетание безмодельного и основанного на модели обучения
Полезная комбинация
Построение модели из изображений
Применение алгоритма ME-TRPO к задаче об обратном маятнике
Принцип работы ME-TRPO
Реализация ME-TRPO
Эксперименты в среде RoboSchool
Резюме
Вопросы
Для дальнейшего чтения
Глава 10. Подражательное обучение и алгоритм DAgger
Технические требования
Установка Flappy Bird
Подход на основе подражания
Пример: помощник водителя
Сравнение подражательного обучения и обучения с подкреплением
Роль эксперта в подражательном обучении
Структура IL
Игра Flappy Bird
Порядок взаимодействия с окружающей средой
Алгоритм агрегирования набора данных
Алгоритм DAgger
Реализация DAgger
Анализ результатов игры в Flappy Bird
Обратное обучение с подкреплением
Резюме
Вопросы
Для дальнейшего чтения
Глава 11. Оптимизация методом черного ящика
За рамками ОП
Краткий обзор ОП
Альтернатива
Основы эволюционных алгоритмов
Генетические алгоритмы
Эволюционные стратегии
Масштабируемые эволюционные стратегии
Основной принцип
Масштабируемая реализация
Применение масштабируемой ЭС к среде LunarLander
Резюме
Вопросы
Для дальнейшего чтения
Глава 12. Разработка алгоритма ESBAS
Исследование и использование
Задача о многоруком бандите
Подходы к исследованию
e-жадная стратегия
Алгоритм UCB
Сложность исследования
Алгоритм ESBAS
Что такое выбор алгоритма
ESBAS изнутри
Реализация
Тестирование в среде Acrobot
Резюме
Вопросы
Для дальнейшего чтения
Глава 13. Практические подходы к решению проблем ОП
Рекомендуемые практики глубокого ОП
Выбор подходящего алгоритма
От простого к сложному
Проблемы глубокого ОП
Устойчивость и воспроизводимость результатов
Эффективность
Обобщаемость
Передовые методы
ОП без учителя
Перенос обучения
ОП в реальном мире
Лицом к лицу с реальным миром
Преодоление разрыва между имитационной моделью и реальным миром
Создание собственной окружающей среды
Будущее ОП и его влияние на общество
Резюме
Вопросы
Для дальнейшего чтения
Ответы на вопросы
Предметный указатель