Обучение с подкреплением для реальных задач

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок – без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга – первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе.

Author(s): Фил Уиндер
Edition: 1
Publisher: БХВ-Петербург
Year: 2023

Language: Russian
Pages: 400
City: СПб.
Tags: Deep Learning; Reinforcement Learning; Dynamic Programming; Temporal Difference Learning; Entropy; Q-Learning; Markov Decision Process; Monte Carlo Simulations; n-Step Algorithms; Deep Q-Networks; Policy Gradient Methods; Hierarchical Reinforcement Learning; Multi-Agent Reinforcement Learning

Оглавление
Отзывы
Об авторе
Предисловие
Цель
Кому следует прочитать эту книгу?
Руководящие принципы и стиль
Предварительная подготовка
Объем и план
Дополнительные материалы
Условные обозначения, используемые в этой книге
Аббревиатуры
Математические обозначения
Глава 1. Для чего нужно обучение с подкреплением?
Почему сейчас?
Машинное обучение
Обучение с подкреплением
Когда следует использовать обучение с подкреплением?
Варианты применения обучения с подкреплением
Таксономия подходов обучения с подкреплением
Без модели или на основе модели
Как агенты используют и обновляют свою стратегию
Дискретные или непрерывные действия
Методы оптимизации
Оценка и улучшение политики
Фундаментальные концепции обучения с подкреплением
Первый RL-алгоритм
Оценка ценности
Ошибка предсказания
Правило обновления веса
RL — это то же самое, что ML?
Награда и отклик
Отложенные награды
Ретроспектива
Обучение с подкреплением как дисциплина
Резюме
Дополнительные материалы для чтения
Использованные источники
Глава 2. Марковские процессы принятия решений, динамическое программирование и методы Монте-Карло
Алгоритм многорукого бандита
Разработка наград
Оценка стратегии: функция ценности
Совершенствование политики: выбор лучшего действия
Моделирование среды
Запуск эксперимента
Улучшение e-жадного алгоритма
Марковские процессы принятия решений
Контроль запасов
Таблица переходов
Граф переходов
Матрица переходов
Симуляция управления запасами
Политики и функции ценности
Дисконтированные вознаграждения
Прогнозирование вознаграждений с помощью функции ценности состояния
Моделирование с использованием функции ценности состояния
Прогнозирование вознаграждений с помощью функции ценности действия
Оптимальные политики
Генерирование политики Монте-Карло
Итерация по ценности с динамическим программированием
Реализация итерации по ценности
Результаты итерации по ценнности
Резюме
Дополнительные материалы для чтения
Использованные источники
Глава 3. Обучение с учетом временных различий, Q-обучение и я-шаговые алгоритмы
Обучение с учетом временных различий: формулировка подхода
Q-обучение
SARSA
Q-обучение против SARSA
Пример использования: автоматическое масштабирование контейнеров приложений для снижения затрат
Отраслевой пример: торги рекламы в режиме реального времени
Определение марковского процесса принятия решения
Результаты торгов в режиме реального времени
Дальнейшие улучшения
Расширения для Q-обучения
Двойное Q-обучение
Отложенное Q-обучение
Сравнение стандартного, двойного и отложенного Q-обучения
Обучение с подкреплением на основе противодействия
n-Шаговые алгоритмы
n-Шаговые алгоритмы в распределенных средах
Трассировки соответствия
Расширения для трассировки соответствия
Алгоритм обучения Q(k) Уоткинса
Нечеткие стирания в алгоритме обучения Q(X) Уоткинса
Быстрое Q-обучение
Накопление или замена трассировок соответствия
Резюме
Дополнительные материалы для чтения
Использованные источники
Глава 4. Глубокие Q-сети
Архитектуры глубокого обучения
Основные положения
Архитектуры нейронных сетей
Фреймворки глубокого обучения
Глубокое обучение с подкреплением
Глубокое Q-обучение
Воспроизведение опыта
Клоны Q-сети
Архитектура нейронной сети
Внедрение глубокой Q-сети
Пример: глубокая Q-сеть в среде CartPole
Зачем обучаться онлайн?
Что лучше? Глубока Q-сеть против Q-обучения
Практический пример: сокращение энергопотребления в зданиях
Радужная DQN
Распределительное RL
Воспроизведение приоритетного опыта
Зашумленные сети
Дуэльные сети
Пример: радужная глубокая Q-сеть в Atari Games
Результаты
Обсуждение
Другие улучшения глубокой Q-сети
Улучшение исследования
Повышение вознаграждения
Обучение на основе автономных данных
Резюме
Дополнительные материалы для чтения
Использованные источники
Глава 5. Методы градиента политики
Преимущества прямого изучения политики
Как рассчитать градиент политики
Теорема о градиенте политики
Функции политики
Линейные политики
Логистическая политика
Политика softmax
Произвольные политики
Основные реализации
Метод Монте-Карло (алгоритм REINFORCE)
Пример: алгоритм REINFORCE в среде CartPole
Алгоритм REINFORCE с базовыми показателями
Пример: алгоритм REINFORCE с базовыми показателями в среде CartPole
Уменьшение градиентной дисперсии
n-Шаговый и улучшенный алгоритмы "актор — критик"
Пример: «-шаговый алгоритм "актор — критик" в среде CartPole
Темпы затухания ценностного обучения по сравнению с темпами ослабления политики
Трассировки соответствия алгоритма "актор — критик"
Пример: трассировка соответствия требованиям алгоритма "актор — критик" в среде CartPole
Сравнение основных алгоритмов градиента политики
Отраслевой пример: автоматическая продажа товаров клиентам
Рабочее окружение: корзина заказов, написанная при помощи библиотеки Gym
Ожидания
Результаты из среды "Корзина покупок"
Резюме
Дополнительные материалы для чтения
Использованные источники
Глава 6. Другие методы
Алгоритмы, действующие вне политик
Выборка по значимости
Поведенческие и целевые политики
Q-обучение, действующее вне политики
Градиентное обучение с учетом временных различий
Жадный GQ-алгоритм
Алгоритм "актор — критик" вне политики
Детерминированные градиенты политики
Обычные детерминированные градиенты политики
Глубокие детерминированные градиенты политики
Вывод DDPG
Внедрение DSP
Дважды отложенный DPG
Отложенные обновления политики
Ограниченное двойное Q-обучение
Сглаживание целевой политики
Реализация TD3
Практический пример: рекомендации на основе отзывов
Улучшения DPG
Методы доверительной области
Дивергенция Кульбака — Лейблера
Эксперименты по дивергенции Кульбака — Лейблера
Естественные градиенты политики и оптимизация политики доверительной области
Проксимальная оптимизация политики
Усеченная цель РРО
Ценностная функция РРО и цели разведки
Пример: использование сервоприводов для Real-Life Reacher
Описание эксперимента
Реализация алгоритма RL
Повышение сложности алгоритма
Настройка гиперпараметров в моделировании
Результирующие политики
Другие алгоритмы градиента политики
Алгоритм Retrace (X)
Алгоритм ACER
Алгоритм ACKTR
Эмпатические методы
Расширения для алгоритмов градиента политики
Квантильная регрессия в алгоритмах градиента политики
Резюме
Какой алгоритм следует использовать?
Замечание об асинхронных методах
Дополнительные материалы для чтения
Использованные источники
Глава 7. Изучение всех возможных политик с помощью энтропийных методов
Что такое энтропия?
Максимальная энтропия обучения с подкреплением
Мягкий "актор — критик"
Детали реализации SAC и дискретные пространства действий
Автоматическая регулировка температуры
Практический пример: автоматическое управление трафиком для сокращения очередей
Расширения методов максимальной энтропии
Другие меры энтропии (и ансамбли)
Оптимистичное исследование с использованием верхней границы двойного Q-обучения
Играем с воспроизведением опыта
Мягкий градиент политики
Мягкое Q-обучение (и производные)
Обучение согласованности пути
Сравнение производительности: SAC против РРО
Как энтропия способствует исследованиям?
Как температурный параметр влияет на исследование?
Отраслевой пример: обучение вождению автомобиля с дистанционным управлением
Описание задачи
Минимизация времени обучения
Выразительные действия
Поиск гиперпараметров
Финальная политика
Дальнейшие улучшения
Резюме
Эквивалентность градиентов политики и мягкого Q-обучения
Что это означает для будущего?
Что это значит сейчас?
Использованные источники
Глава 8. Улучшение процесса обучения агента
Переосмысление марковских процессов принятия решений
Частично наблюдаемый марковский процесс принятия решений
Предсказание доверительного состояния
Практический пример: POMDP в автономных транспортных средствах
Контекстные MDP
MDP с изменяющимися действиями
Регуляризованные MDP
Иерархическое обучение с подкреплением
Наивный HRL
Высокоуровневые и низкоуровневые иерархии с внутренними наградами
Навыки обучения и неконтролируемое RL
Использование навыков в HRL
Выводы HRL
Мультиагентное обучение с подкреплением
Фреймворки MARL
Централизованное или децентрализованное
Алгоритмы с одним агентом
Практический пример: использование децентрализованного обучения с одним агентом в беспилотном летательном аппарате
Централизованное обучение, децентрализованное выполнение
Децентрализованное обучение
Другие комбинации
Проблемы MARL
Выводы о MARL
Экспертное руководство
Клонирование поведения
Имитационное RL
Обратное RL
Обучение по учебной программе
Другие парадигмы
Метаобучение
Трансферное обучение
Резюме
Дополнительные материалы для чтения
Использованные источники
Глава 9. Практическое обучение с подкреплением
Жизненный цикл проекта RL
Определение жизненного цикла
Жизненный цикл науки о данных
Жизненный цикл обучения с подкреплением
Определение проблемы: что такое проект RL?
Проблемы с RL являются последовательными
Проблемы RL имеют стратегический характер
Низкоуровневые индикаторы RL
Сущность
Среда
Состояние
Действие
Количественная оценка успеха или неудачи
Типы обучения
Онлайн-обучение
Автономное или пакетное обучение
Параллельное обучение
Обучение без сброса
Проектирование и доработка RL
Процесс
Инженерия среды
Реализация
Моделирование
Взаимодействие с реальной жизнью
Инжиниринг состояния или обучение представлениям
Перспективные модели обучения
Ограничения
Преобразование (уменьшение размерности, автоэнкодеры и модели мира)
Разработка политики
Дискретные состояния
Непрерывные состояния
Преобразование в дискретные состояния
Пространства смешанных состояний
Сопоставление политик с пространствами действий
Бинарные действия
Непрерывные действия
Гибридные пространства действий
Когда выполнять действия
Обширные пространства действий
Исследование
Является ли внутренняя мотивация исследованием?
Количество посещений (выборка)
Прирост информации (сюрприз)
Прогноз состояния (любопытство или саморефлексия)
Любопытные задачки
Случайные вложения (сети случайной дистилляции)
Расстояние до новизны (эпизодическое любопытство)
Выводы по разведке
Разработка вознаграждений
Рекомендации по разработке вознаграждений
Формирование вознаграждения
Общие награды
Выводы о вознаграждении
Резюме
Дополнительные материалы для чтения
Использованные источники
Глава 10. Этапы в обучении с подкреплением
Реализация
Фреймворки
Фреймворки RL
Другие фреймворки
Масштабирование RL
Распределенное обучение (Gorila)
Обучение на одной машине (АЗС, РААС)
Распределенное воспроизведение (Аре-Х)
Синхронное распределение (DD-PPO)
Повышение эффективности использования (IMPALA, SEED)
Масштабирование сделанных выводов
Оценка
Показатели эффективности политики
Статистические сравнения политик
Показатели производительности алгоритма
Измерения производительности для конкретных задач
Объяснимость
Выводы оценки
Развертывание
Цели
Цели на разных этапах развития
Лучшие практики
Иерархия потребностей
Архитектура
Вспомогательные инструменты
Разработка против покупки
Мониторинг
Регистрация и отслеживание
Непрерывная интеграция и непрерывная доставка
Отслеживание экспериментов
Настройка гиперпараметров
Развертывание нескольких агентов
Развертывание политик
Безопасность, защита и этика
Безопасное RL
Защитное RL
Этическое RL
Резюме
Дополнительные материалы для чтения
Использованные источники
Глава 11. Выводы и будущее
Советы и рекомендации
Формулирование задачи
Ваши данные
Тренировка
Оценка
Развертывание
Отладка
Алгоритм не может решить проблемы среды!
Мониторинг для отладки
Будущее обучения с подкреплением
Рыночные возможности RL
Будущее RL и направления исследований
Исследования в промышленности
Исследования в науке
Этические стандарты
Заключительные замечания
Дальнейшие шаги
Теперь ваша очередь
Дополнительные материалы для чтения
Использованные источники
Приложение 1. Градиент логистической политики для двух действий
Приложение 2. Градиент политики softmax
Предметный указатель