Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах. Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
https://github.com/mimoralea/gdrl
https://www.manning.com/books/grokking-deep-reinforcement-learning
Author(s): Мигель Моралес
Series: Серия «Библиотека программиста»
Publisher: Питер
Year: 2023
Language: Russian
Pages: 464
City: СПб.
Краткое содержание
Оглавление
Предисловие
Вступление
Благодарности
О книге
Для кого эта книга
Структура издания
О коде
От издательства
Об авторе
Глава 1. Введение в глубокое обучение с подкреплением
Что такое глубокое обучение с подкреплением
Глубокое обучение с подкреплением - это подход к искусственному интеллекту на основе машинного обучения
Области искусственного интеллекта
Основные направления машинного обучения
Глубокое обучение - это мощный инструментарий
Глубокое обучение с подкреплением предназначено для создания компьютерных программ
Синергия между схожими направлениями
Агенты глубокого обучения с подкреплением могут выполнять задачи, требующие наличия интеллекта
Граница между агентом и средой
Состояния и наблюдения
Цикл обучения с подкреплением
Агенты глубокого обучения с подкреплением улучшают свое поведение методом проб и ошибок
Кортежи опыта
Агенты глубокого обучения с подкреплением учатся на последовательной обратной связи
Сложность временной задачи присваивания коэффициентов доверия
Агенты глубокого обучения с подкреплением учатся на оценочной обратной связи
Сложность поиска компромисса между исследованием и эксплуатацией
Агенты глубокого обучения с подкреплением учатся на выборочной обратной связи
Сложность обучения на основе выборочной обратной связи
Агенты глубокого обучения с подкреплением используют мощную аппроксимацию нелинейных функций
Простая нейросеть с прямой связью
Прошлое, настоящее и будущее глубокого обучения с подкреплением
Новейшая история искусственного интеллекта и глубокого обучения с подкреплением
Зимы искусственного интеллекта
Модель финансирования ИИ на протяжении многих лет
Текущее положение дел в сфере искусственного интеллекта
Прогресс глубокого обучения с подкреплением
Структура TD-Gammon
Структура сети Atari DQN
Игра го: огромный коэффициент ветвления
Перспективы
Производственные революции
Сингулярность может возникнуть через несколько десятилетий
Целесообразность глубокого обучения с подкреплением
Преимущества и недостатки
Агенты глубокого обучения с подкреплением познают окружающий мир. Можете ли вы позволить себе ошибки?
Сильные стороны глубокого обучения с подкреплением
Слабые стороны глубокого обучения с подкреплением
Агентам глубокого обучения с подкреплением нужно много образцов взаимодействия!
Определение четких обоюдных ожиданий
Чего ожидать от этой книги
Сравнение разных алгоритмических подходов к глубокому обучению с подкреплением
Как извлечь из книги максимум пользы
Среда разработки для глубокого обучения с подкреплением
Подведем итоги
Глава 2. Математические основы обучения с подкреплением
Элементы обучения с подкреплением
Цикл обучения с подкреплением и взаимодействия
Примеры задач, агентов и сред
Агент: тот, кто принимает решения
Три этапа, через которые проходит любой агент обучения с подкреплением
Среда: все остальное
Среда «бандитская прогулка» (БП)
Диаграмма «бандитской прогулки»
Скользкая бандитская прогулка (СБП)
Диаграмма «скользкой бандитской прогулки»
Процесс, через который проходит среда в результате действий агента
Цикл взаимодействия «агент - среда»
MDP: двигатель среды
Среда «замерзшее озеро» (ЗО)
Состояния среды
Пространство состояний: множество множеств
Состояния в ЗО содержат одну переменную, обозначающую идентификатор ячейки, в которой находится агент на любом заданном временном шаге
Состояния в среде «замерзшее озеро»
Действия: механизм влияния на среду
У среды «замерзшее озеро» есть четыре простых действия-движения
Функция перехода: последствия действий агента
Функция перехода в среде «замерзшее озеро»
Сигнал вознаграждения: кнут и пряник
Сигнал награды для состояний с ненулевыми переходами вознаграждения
Горизонт: оптимальное решение со временем меняется
Дисконтирование: неопределенное будущее менее значимо
Зависимость ценности награды от коэффициента дисконтирования и времени
Дополнения к MDP
Собираем все воедино
Подведем итоги
Глава 3. Баланс краткосрочных и долгосрочных целей
Цель агента, принимающего решения
Среда «скользкая прогулка пять»
Дисконтированная выгода в среде «скользкая прогулка пять»
Надежный план в среде СПП
Надежный план в среде ЗО
Потенциальный изъян в нашем плане
В стохастических средах одних лишь планов недостаточно
Оптимальная политика в среде СПП
Политики: предписания действий для каждого состояния
Случайно сгенерированная политика
Как сравнивать стратегии?
Функция оценки состояния: чего ожидать?
Насколько выигрышным будет нахождение в состоянии 14 при использовании политики «сразу к цели»?
Функция ценности действий: чего ожидать при выборе определенного действия?
Функция преимущества действий: насколько лучше будет выбрать это действие?
Функции ценности состояний, действий и преимущества действий
Оптимальность
Планирование оптимальных последовательностей действий
Оценка политик
Начальные вычисления при оценке политики
Вспомним случайно сгенерированную политику
Оценка случайно сгенерированной политики для среды ЗО
Функция ценности состояний для случайно сгенерированной политики
Результаты развития политики
Оптимизация политик: использование оценок
Как Q-функция может помочь с оптимизацией политик?
Функция ценности состояний для политики «осторожно»
Можно ли улучшить политику «осторожно+»
Состязательная политика для среды ЗО
Итерация политик: улучшение на основе улучшенного поведения
Оптимизация состязательной политики 1/2
Оптимизация состязательной политики 2/2
У среды ЗО есть больше одной оптимальной политики
Итерация ценностей: улучшение поведения на ранних этапах
Оценка политики «всегда влево» в среде СПП
Жадная политика жадности «всегда влево» в среде СПП
Подведем итоги
Глава 4. Баланс между сбором и использованием информации
Проблема интерпретации оценочной обратной связи
Вы познакомитесь с более эффективными способами поиска баланса между исследованием и эксплуатацией
Задача «многорукого бандита»
Потеря: цена исследования
Подходы к поиску решений в средах MAB
Среда «скользкая бандитская походка»
Диаграмма «скользкой бандитской походки»
Жадная стратегия: всегда эксплуатировать
Чистая эксплуатация в СБП
Случайная стратегия: всегда исследуем
Чистое исследование в СБП
Эпсилон-жадная стратегия: почти всегда жадная, но иногда случайная
Эпсилон-жадная стратегия в СБП
Затухающая эпсилон-жадная стратегия: сначала максимизируются исследования, затем эксплуатация
Оптимистичная инициализация: начинаем с веры в то, что все замечательно
Оптимистичная инициализация в СБП
Среды вида «двурукий бандит Бернулли»
Стратегическое исследование
Softmax: случайный выбор действий пропорционально их ценности
UCB: не просто оптимизм, а реалистичный оптимизм
Выборка Томпсона: баланс риска и вознаграждения
Сравнение двух функций ценности действий, представленных в виде распределений Гаусса
Подведем итоги
Глава 5. Оценка поведения агента
Учимся прогнозировать ценность политик
MDP среды «случайная прогулка»
Первый визит в Монте-Карло: повышение ценности после каждого эпизода
Метод Монте-Карло
Каждый визит в Монте-Карло: другой подход к посещению состояний
Временное разностное обучение: улучшение прогнозов после каждого шага
Метод TD
Прогноз на основе нескольких шагов
N-шаговое TD-обучение: улучшение прогнозов после нескольких шагов
TD(λ) прямого обзора: улучшение прогнозов для всех посещенных состояний
Обобщенный бэггинг
TD(λ): улучшение прогнозов для всех посещенных состояний после каждого шага
Следы приемлемости для среды с четырьмя состояниями во время восьмишагового эпизода
Грид-среда Рассела и Норвига
Оптимальная политика в среде СРН
Подведем итоги
Глава 6. Улучшение поведения агентов
Анатомия агентов обучения с подкреплением
Агенты собирают образцы опыта
Агенты что-то оценивают
Агенты улучшают политики
Обобщенная итерация политик
Оптимизация политик поведения
MDP среды «скользкая прогулка семь»
Управление Монте-Карло: оптимизация политик после каждого эпизода
Нам нужно прогнозировать функции ценности состояний
Нам нужно исследовать
SARSA: улучшение политик после каждого шага
Сравнение методов планирования и управления
Разделение поведения и обучения
Q-обучение: действуем оптимально, даже если не хотим
Двойное Q-обучение: максимальная ожидаемая ценность для прогнозирования максимума
Подведем итоги
Глава 7. Более действенные и эффективные способы достижения целей
Улучшение политик с помощью достоверных целей
MDP среды «скользкая прогулка семь»
SARSA(λ): улучшение политик после каждого шага на основе многошаговых прогнозов
Накопительные признаки в среде СПС
Заменяющие признаки в среде СПС
Q(λ) Уоткинса: снова отделяем поведение от обучения
Агенты, которые взаимодействуют, обучаются и планируют
Dyna-Q: формирование моделей выборки
Структура модельно-ориентированного обучения с подкреплением
Выборка траектории: планирование ближайшего будущего
Среда «замерзшее озеро»
Среда «замерзшее озеро 8 × 8»
Подведем итоги
Глава 8. Введение в ценностно-ориентированное глубокое обучение с подкреплением
Виды алгоритмических подходов из этой книги
Тип обратной связи, который используют агенты глубокого обучения с подкреплением
Агенты глубокого обучения с подкреплением работают с последовательной обратной связью
Последовательная обратная связь
Если не последовательная, то какая?
Задача категоризации
Двурукий бандит
Оценочная обратная связь
Если не оценочная, то какая?
Контролируемая категоризация
«Бандиты» работают с оценочной обратной связью
Агенты глубокого обучения с подкреплением работают с выборочной обратной связью
Выборочная обратная связь
Если не выборочная, то какая?
Последовательная, оценочная и исчерпывающая обратная связь
Введение в аппроксимацию функций для обучения с подкреплением
У задач обучения с подкреплением могут быть многомерные пространства состояний и действий
Многомерные пространства состояний
У задач обучения с подкреплением могут быть непрерывные пространства состояний и действий
Непрерывные пространства состояний
Это среда «перевернутый маятник»
Преимущества аппроксимации функций
Функция ценности состояний
Функция ценности действий
Функция ценности состояний с аппроксимацией и без
NFQ: первая попытка реализовать ценностно-ориентированное глубокое обучение с подкреплением
Первый этап принятия решений: выбор функции ценности для аппроксимации
Второй этап принятия решений: выбор архитектуры нейросетей
Архитектура «состояние — действие на входе, значения на выходе»
Архитектура «состояние на входе, значения на выходе»
Третий этап принятия решений: выбор функции для оптимизации
Четвертый этап принятия решений: выбор целей для оценки политики
Цели MC, TD, n-шаговые и λ
Какова ценность этого состояния?
Пятый этап принятия решений: выбор стратегии исследования
Шестой этап принятия решений: выбор функции потерь
Циклическая зависимость функции ценности действий
Седьмой этап принятия решений: выбор метода оптимизации
Пакетный градиентный спуск
Мини-пакетный градиентный спуск
Стохастический градиентный спуск
Зигзагообразный мини-пакетный градиентный спуск
Сравнение мини-пакетного градиентного спуска и инерции
NFQ
Что может пойти не так
Нестационарная цель
Данные коррелируют с временем
Подведем итоги
Глава 9. Более стабильные ценностно-ориентированные методы
DQN: делаем RL похожим на контролируемое обучение
Проблемы ценностно ориентированного глубокого обучения с подкреплением
Нестационарность целей
Использование целевых сетей
Оптимизация Q-функции без целевой сети
Аппроксимация Q-функции с целевой сетью
Аппроксимация Q-функции с целевой сетью
Воспроизведение опыта
DQN с буфером воспроизведения
Использование разных стратегий исследования
Двойной DDQN: борьба с завышением прогнозов функций ценности действий
Проблема завышения прогнозов, вторая попытка
Разделение выбора и оценки действий
Решение
Более практичное решение
Выбор действия, его оценка
Менее прихотливая функция потерь
Что еще можно улучшить
Архитектура «состояние на входе, значения на выходе»
Подведем итоги
Глава 10. Ценностно-ориентированные методы с эффективным использованием выборок
Дуэльная DDQN: архитектура нейросети, рассчитанная на обучение с подкреплением
Обучение с подкреплением отличается от контролируемого
Особенности методов ценностно ориентированного глубокого обучения с подкреплением
Эффективное использование выборок
Выгода от использования преимуществ
Связь между функциями ценности
Архитектура, рассчитанная на обучение с подкреплением
Архитектура дуэльной сети
Реализация дуэльной сети
Реконструкция функции ценности действий
Непрерывное обновление целевой сети
Полное обновление целевой сети
Преимущества дуэльной сети
Пространство состояний, посещенных полностью обученными агентами в среде «перевернутый маятник»
PER: приоритетное воспроизведение полезного опыта
Более разумный способ воспроизведения опыта
Какой опыт можно считать важным
Жадная приоритизация на основе погрешности TD
Стохастическая выборка приоритетного опыта
Пропорциональная приоритизация
Приоритизация на основе ранжирования
Отклонение при назначении приоритетов
Подведем итоги
Глава 11. Методы градиента политик и «актер-критик»
Методы: стратегические, ценностно ориентированные и «актер-критик»
REINFORCE: обучение политик на основе результатов
Введение в методы градиента политик
Преимущества методов градиента политик
Проблему могло бы решить формирование стохастических политик
Формирование политик может быть упрощенной и универсальной задачей
Прямое обучение политик
Сокращение дисперсии градиента политик
Используем только награды, полученные в результате действий
VPG: формирование функции ценности
Дальнейшее сокращение дисперсии градиента политик
Формирование функции ценности
Две нейронные сети: одна для политики, другая для функции ценности
Поощрение исследования
A3C: параллельное обновление политики
Использование рабочих узлов
Асинхронное обновление модели
Использование n-шаговых прогнозов
Неблокирующие обновления модели
GAE: надежное прогнозирование преимущества
Обобщенное прогнозирование преимущества
A2C: синхронное обновление политик
Модель разделения весов
Разделение весов между выходными политиками и значениями
Упорядочение процесса обновления политики
Синхронное обновление модели
Подведем итоги
Глава 12. Продвинутые методы «актер-критик»
DDPG: аппроксимация детерминированной политики
Приемы в DDPG из DQN
Формирование детерминированной политики
Исследование с помощью детерминированных политик
TD3: лучшие оптимизации для DDPG
Двойное обучение в DDPG
Сглаживание целей для обновления политики
Откладывание обновлений
SAC: максимизация ожидаемой выгоды и энтропии
Добавление энтропии в уравнение Беллмана
Формирование функции ценности действий
Формирование политики
Автоматическая настройка коэффициента энтропии
PPO: ограничение этапа оптимизации
Использование той же архитектуры «актер-критик», что и в A2C
Группировка выборок
Ограничение обновлений политики
Ограничение обновлений функции ценности
Подведем итоги
Глава 13. Путь к сильному искусственному интеллекту
Важные темы, которые были рассмотрены, и те, которые остались без внимания
Сравнение разных алгоритмических подходов к глубокому обучению с подкреплением
Функция перехода среды «замерзшее озеро»
Методы планирования
Оценка политики «всегда влево» в среде SWF
«Бандитские» методы
В главе 4 вы узнали о более эффективных способах поиска баланса между исследованием и эксплуатацией
Десятирукие гауссовские бандиты
Табличное обучение с подкреплением
DRL — часть более широкой области обучения с подкреплением
Ценностно ориентированное глубокое обучение с подкреплением
Глубокое обучение с подкреплением, основанное на стратегических подходах и методах «актер-критик»
Продвинутые методы «актер-критик»
Алгоритмы DRL, рассмотренные в книге
Примечательные алгоритмы модельно-ориентированного обучения с подкреплением
Методы оптимизации без производных
Методы без производных - это крайность
Углубленные аспекты AGI
Еще раз, что такое AGI?
Производственные революции
Продвинутые стратегии исследования
Обратное обучение с подкреплением
Перенос обучения
Перенос знаний из симуляции в реальность широко востребован
Многозадачное обучение
Многозадачное обучение состоит из обучения нескольким связанным задачам и тестирования новой
Обучение по плану
Метаобучение
Иерархическое обучение с подкреплением
Многоагентное обучение с подкреплением
Объяснимый ИИ, безопасность, справедливость и этические стандарты
Что дальше?
Как использовать DRL для выполнения нестандартных задач
Дальнейшие шаги
Заявите о себе прямо сейчас!
Подведем итоги