Библиотека PyTorch выходит на передовые позиции в качестве средства обучения с подкреплением (ОП) благодаря эффективности и простоте ее использования. Эта книга организована как справочник по работе с PyTorch, охватывающий широкий круг тем – от самых азов (настройка рабочей среды) до практических задач (рассмотрение ОП на конкретных примерах).
Вы научитесь использовать алгоритм «многоруких бандитов» и аппроксимацию функций; узнаете, как победить в играх Atari с помощью глубоких Q-сетей и как эффективно реализовать метод градиента стратегии; увидите, как применить метод ОП к игре в блэкджек, к окружающим средам в сеточном мире, к оптимизации рекламы в интернете и к игре Flappy Bird.
Издание предназначено для специалистов по искусственному интеллекту, которым требуется помощь в решении задач ОП. Для изучения материала необходимо знакомство с концепциями машинного обучения; опыт работы с библиотекой PyTorch необязателен, но желателен.
Author(s): Юси (Хэйден) Лю
Edition: 1
Publisher: ДМК Пресс
Year: 2020
Language: Russian
Commentary: Vector PDF
Pages: 282
City: М.
Tags: Machine Learning; Reinforcement Learning; Python; OpenAI Gym; Dynamic Programming; PyTorch; Temporal Difference Learning; Q-Learning; Markov Decision Process; Monte Carlo Simulations; Deep Q-Networks; Policy Gradient Methods; Cookbook
Титул
Об авторе
О рецензентах
Предисловие
Глава 1. Приступаем к обучению с подкреплением и PyTorch
Подготовка среды разработки
Как это делается
Как это работает
Это еще не все
Установка OpenAI Gym
Как это делается
Как это работает
Это еще не все
Окружающие среды Atari
Как это делается
Как это работает
Это еще не все
Окружающая среда CartPole
Как это делается
Как это работает
Это еще не все
Основы PyTorch
Как это делается
Это еще не все
Реализация и оценивание стратегии случайного поиска
Как это делается
Как это работает
Это еще не все
Алгоритм восхождения на вершину
Как это делается
Как это работает
Это еще не все
Алгоритм градиента стратегии
Как это делается
Как это работает
Это еще не все
Глава 2. Марковские процессы принятия решений и динамическое программирование
Технические требования
Создание марковской цепи
Как это делается
Как это работает
Это еще не все
Создание МППР
Как это делается
Как это работает
Это еще не все
Оценивание стратегии
Как это делается
Как это работает
Это еще не все
Имитация окружающей среды FrozenLake
Подготовка
Как это делается
Как это работает
Это еще не все
Решение МППР с помощью алгоритма итерации по ценности
Как это делается
Как это работает
Это еще не все
Решение МППР с помощью алгоритма итерации по стратегиям
Как это делается
Как это работает
Это еще не все
Игра с подбрасыванием монеты
Как это делается
Как это работает
Это еще не все
Глава 3. Применение методов Монте-Карло для численного оценивания
Вычисление π методом Монте-Карло
Как это делается
Как это работает
Это еще не все
Оценивание стратегии методом Монте-Карло
Как это делается
Как это работает
Это еще не все
Предсказание методом Монте-Карло в игре блэкджек
Как это делается
Как это работает
Это еще не все
Управление методом Монте-Карло с единой стратегией
Как это делается
Как это работает
Это еще не все
Разработка управления методом Монте-Карло с ε-жадной стратегией
Как это делается
Как это работает
Управление методом Монте-Карло с разделенной стратегией
Как это делается
Как это работает
Это еще не все
Разработка управления методом Монте-Карло с взвешенной выборкой по значимости
Как это делается
Как это работает
Это еще не все
Глава 4. TD-обучение и Q-обучение
Подготовка окружающей среды Cliff Walking
Подготовка
Как это делается
Как это работает
Реализация алгоритма Q-обучения
Как это делается
Как это работает
Это еще не все
Подготовка окружающей среды Windy Gridworld
Как это делается
Как это работает
Реализация алгоритма SARSA
Как это делается
Как это работает
Это еще не все
Решение задачи о такси методом Q-обучения
Подготовка
Как это делается
Как это работает
Решение задачи о такси методом SARSA
Как это делается
Как это работает
Это еще не все
Реализация алгоритма двойного Q-обучения
Как это делается
Как это работает
Глава 5. Решение задачи о многоруком бандите
Создание окружающей среды с многоруким бандитом
Как это делается
Как это работает
Решение задачи о многоруком бандите с помощью ε-жадной стратегии
Как это делается
Как это работает
Это еще не все
Решение задачи о многоруком бандите с помощью softmax-исследования
Как это делается
Как это работает
Решение задачи о многоруком бандите с помощью алгоритма верхней доверительной границы
Как это делается
Как это работает
Это еще не все
Решение задачи о рекламе в интернете с помощью алгоритма многорукого бандита
Как это делается
Как это работает
Решение задачи о многоруком бандите с помощью выборки Томпсона
Как это делается
Как это работает
Решение задачи о рекламе в интернете с помощью контекстуальных бандитов
Как это делается
Как это работает
Глава 6. Масштабирование с помощью аппроксимации функций
Подготовка окружающей среды Mountain Car
Подготовка
Как это делается
Как это работает
Оценивание Q-функций посредством аппроксимации методом градиентного спуска
Как это делается
Как это работает
Реализация Q-обучения с линейной аппроксимацией функций
Как это делается
Как это работает
Реализация SARSA с линейной аппроксимацией функций
Как это делается
Как это работает
Пакетная обработка с применением буфера воспроизведения опыта
Как это делается
Как это работает
Реализация Q-обучения с аппроксимацией функций нейронной сетью
Как это делается
Как это работает
Решение задачи о балансировании стержня с помощью аппроксимации функций
Как это делается
Как это работает
Глава 7. Глубокие Q-сети в действии
Реализация глубоких Q-сетей
Как это делается
Как это работает
Улучшение DQN с помощью воспроизведения опыта
Как это делается
Как это работает
Реализация алгоритма Double DQN
Как это делается
Как это работает
Настройка гиперпараметров алгоритма Double DQN для среды CartPole
Как это делается
Как это работает
Реализация алгоритма Dueling DQN
Как это делается
Как это работает
Применение DQN к играм Atari
Как это делается
Как это работает
Использование сверточных нейронных сетей в играх Atari
Как это делается
Как это работает
Глава 8. Реализация методов градиента стратегии и оптимизация стратегии
Реализация алгоритма REINFORCE
Как это делается
Как это работает
Реализация алгоритма REINFORCE с базой
Как это делается
Как это работает
Реализация алгоритма исполнитель–критик
Как это делается
Как это работает
Решение задачи о блуждании на краю обрыва с помощью алгоритма исполнитель–критик
Как это делается
Как это работает
Подготовка непрерывной окружающей среды Mountain Car
Как это делается
Как это работает
Решение непрерывной задачи о блуждании на краю обрыва методом A2C
Как это делается
Как это работает
Это еще не все
Решение задачи о балансировании стержня методом перекрестной энтропии
Как это делается
Как это работает
Глава 9. Кульминационный проект – применение DQN к игре Flappy Bird
Подготовка игровой среды
Подготовка
Как это делается
Как это работает
Построение глубокой Q-сети для игры Flappy Bird
Как это делается
Как это работает
Обучение и настройка сети
Как это делается
Как это работает
Развертывание модели и игра
Как это делается
Как это работает
Предметный указатель