Алгоритмы обучения с подкреплением на Python

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов. В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и метаалгоритмом ESBAS. Издание предназначено для тех, кто интересуется исследованиями в области искусственного интеллекта, применяет в работе глубокое обучение или хочет освоить обучение с подкреплением с нуля. Обязательное условие – владение языком Python на рабочем уровне.

Author(s): Андреа Лонца
Edition: 1
Publisher: ДМК Пресс
Year: 2020

Language: Russian
Commentary: Vector PDF
Pages: 286
City: М.
Tags: Machine Learning; Algorithms; Deep Learning; Reinforcement Learning; Python; TensorFlow; Optimization; OpenAI Gym; Dynamic Programming; Q-Learning; Imitation Learning; Model-Based Reinforcement Learning; Model-Free Reinforcement Learning; TensorBoard

Титульный лист
Об авторе
Предисловие
Часть I. Алгоритмы и окружающие среды
Глава 1. Ландшафт обуче­ния с подкреплением
Введение в ОП
Сравнение ОП и обучения с учителем
История ОП
Глубокое обуче­ние
Элементы ОП
Стратегия
Функция ценности
Вознаграждение
Модель
Применения ОП
Игры
Робототехника и индустрия 4.0
Машинное обуче­ние
Экономика и финансы
Здравоохранение
Интеллектуальные транспортные системы
Оптимизация энергопотребления и умные сети электроснабжения
Резюме
Вопросы
Для дальнейшего чтения
Глава 2. Реализация цикла ОП и OpenAI Gym
Настройка окружающей среды
Установка OpenAI Gym
Установка Roboschool
OpenAI Gym и цикл ОП
Разработка цикла ОП
Привыкаем к пространствам
Разработка моделей МО с помощью TensorFlow
Тензоры
Создание графа
Простой пример линейной регрессии
Введение в TensorBoard
Типы окружающих сред ОП
Зачем нужны различные среды?
Окружающие среды с открытым исходным кодом
Резюме
Вопросы
Для дальнейшего чтения
Глава 3. Решение задач методом динамического программирования
МППР
Стратегия
Доход
Функции ценности
Уравнение Беллмана
Классификация алгоритмов ОП
Безмодельные алгоритмы
Алгоритмы ОП, основанные на модели
Разнообразие алгоритмов
Динамическое программирование
Оценивание и улучшение стратегии
Итерация по стратегиям
Итерация по ценности
Резюме
Вопросы
Для дальнейшего чтения
Часть II. Безмодельные алгоритмы ОП
Глава 4. Применения Q-обуче­ния и алгоритма SARSA
Обучение без модели
Порядок действий
Оценивание стратегии
Проблема исследования
TD-обуче­ние
TD-обновление
Улучшение стратегии
Сравнение методов Монте-Карло и TD-методов
SARSA
Алгоритм
Применение SARSA к игре Taxi-v2
Q-обуче­ние
Теория
Алгоритм
Применение Q-обуче­ния к игре Taxi-v2
Сравнение SARSA и Q-обуче­ния
Резюме
Вопросы
Глава 5. Глубокая Q-сеть
Глубокие нейронные сети и Q-обуче­ние
Аппроксимация функций
Q-обуче­ние с нейронными сетями
Неустойчивость глубокого Q-обуче­ния
DQN
Решение
Алгоритм DQN
Архитектура модели
Применение DQN к игре Pong
Игры Atari
Предварительная обработка
Реализация DQN
Результаты
Вариации на тему DQN
Double DQN
Dueling DQN
N-шаговый DQN
Резюме
Вопросы
Для дальнейшего чтения
Глава 6. Стохастическая оптимизация и градиенты стратегии
Методы градиента стратегии
Градиент стратегии
Теорема о градиенте стратегии
Вычисление градиента
Стратегия
Алгоритм ГС с единой стратегией
Устройство алгоритма REINFORCE
Реализация REINFORCE
Посадка космического корабля с помощью алгоритма REINFORCE
REINFORCE с базой
Реализация REINFORCE с базой
Обучение алгоритма исполнитель–критик
Как критик помогает обучаться исполнителю
N-шаговая модель AC
Реализация AC
Посадка космического корабля с помощью алгоритма AC
Дополнительные улучшения AC и полезные советы
Резюме
Вопросы
Для дальнейшего чтения
Глава 7. Реализация TRPO и PPO
Roboschool
Управление непрерывной системой
Метод естественного градиента стратегии
Интуитивное описание NPG
Немного математики
Осложнения в методе естественного градиента
Оптимизация стратегии в доверительной области
Алгоритм TRPO
Реализация алгоритма TRPO
Применение TRPO
Проксимальная оптимизация стратегии
Краткое описание
Алгоритм PPO
Реализация PPO
Применение PPO
Резюме
Вопросы
Для дальнейшего чтения
Глава 8. Применения алгоритмов DDPG и TD3
Сочетание оптимизации градиента стратегии с Q-обуче­нием
Детерминированный градиент стратегии
Алгоритм DDPG
Реализация DDPG
Применение DDPG к среде BipedalWalker-v2
Алгоритм TD3
Проблема смещения оценки в сторону завышения
Уменьшение дисперсии
Применение TD3 к среде BipedalWalker-v2
Резюме
Вопросы
Для дальнейшего чтения
Часть III. За пределами безмодельных алгоритмов
Глава 9. ОП на основе модели
Методы на основе модели
Общая картина обуче­ния на основе модели
Достоинства и недостатки
Сочетание безмодельного и основанного на модели обучения
Полезная комбинация
Построение модели из изображений
Применение алгоритма ME-TRPO к задаче об обратном маятнике
Принцип работы ME-TRPO
Реализация ME-TRPO
Эксперименты в среде RoboSchool
Резюме
Вопросы
Для дальнейшего чтения
Глава 10. Подражательное обуче­ние и алгоритм DAgger
Технические требования
Установка Flappy Bird
Подход на основе подражания
Пример: помощник водителя
Сравнение подражательного обуче­ния и обучения с подкреплением
Роль эксперта в подражательном обуче­нии
Структура IL
Игра Flappy Bird
Порядок взаимодействия с окружающей средой
Алгоритм агрегирования набора данных
Алгоритм DAgger
Реализация DAgger
Анализ результатов игры в Flappy Bird
Обратное обуче­ние с подкреплением
Резюме
Вопросы
Для дальнейшего чтения
Глава 11. Оптимизация методом черного ящика
За рамками ОП
Краткий обзор ОП
Альтернатива
Основы эволюционных алгоритмов
Генетические алгоритмы
Эволюционные стратегии
Масштабируемые эволюционные стратегии
Основной принцип
Масштабируемая реализация
Применение масштабируемой ЭС к среде LunarLander
Резюме
Вопросы
Для дальнейшего чтения
Глава 12. Разработка алгоритма ESBAS
Исследование и использование
Задача о многоруком бандите
Подходы к исследованию
e-жадная стратегия
Алгоритм UCB
Сложность исследования
Алгоритм ESBAS
Что такое выбор алгоритма
ESBAS изнутри
Реализация
Тестирование в среде Acrobot
Резюме
Вопросы
Для дальнейшего чтения
Глава 13. Практические подходы к решению проблем ОП
Рекомендуемые практики глубокого ОП
Выбор подходящего алгоритма
От простого к сложному
Проблемы глубокого ОП
Устойчивость и воспроизводимость результатов
Эффективность
Обобщаемость
Передовые методы
ОП без учителя
Перенос обуче­ния
ОП в реальном мире
Лицом к лицу с реальным миром
Преодоление разрыва между имитационной моделью и реальным миром
Создание собственной окружающей среды
Будущее ОП и его влияние на общество
Резюме
Вопросы
Для дальнейшего чтения
Ответы на вопросы
Предметный указатель