Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах.
Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Author(s): Мигель Моралес
Series: Библиотека программиста
Edition: 1
Publisher: Питер
Year: 2023
Language: Russian
Commentary: Publisher's PDF
Pages: 464
City: СПб.
Tags: Deep Learning; Reinforcement Learning; Agent-based AI; Actor-Critic Method; General Artifical Intelligence; Policy Gradient Methods
Предисловие
Вступление
Благодарности
О книге
Для кого эта книга
Структура издания
О коде
От издательства
Об авторе
Глава 1. Введение в глубокое обучение с подкреплением
Что такое глубокое обучение с подкреплением
Прошлое, настоящее и будущее глубокого обучения с подкреплением
Целесообразность глубокого обучения с подкреплением
Определение четких обоюдных ожиданий
Подведем итоги
Глава 2. Математические основы
обучения с подкреплением
Элементы обучения с подкреплением
MDP: двигатель среды
Подведем итоги
Глава 3. Баланс краткосрочных
и долгосрочных целей
Цель агента, принимающего решения
Планирование оптимальных последовательностей действий
Подведем итоги
Глава 4. Баланс между сбором
и использованием информации
Проблема интерпретации оценочной обратной связи
Стратегическое исследование
Подведем итоги
Глава 5. Оценка поведения агента
Учимся прогнозировать ценность политик
Прогноз на основе нескольких шагов
Подведем итоги
Глава 6. Улучшение
поведения агентов
Анатомия агентов обучения с подкреплением
Оптимизация политик поведения
Разделение поведения и обучения
Подведем итоги
Глава 7. Более действенные и эффективные способы достижения целей
Улучшение политик с помощью достоверных целей
Агенты, которые взаимодействуют, обучаются и планируют
Подведем итоги
Глава 8. Введение в ценностно-ориентированное глубокое обучение с подкреплением
Тип обратной связи, который используют агенты глубокого обучения с подкреплением
Введение в аппроксимацию функций для обучения с подкреплением
NFQ: первая попытка реализовать ценностно-ориентированное глубокое обучение с подкреплением
Подведем итоги
Глава 9. Более стабильные
ценностно-ориентированные методы
DQN: делаем RL похожим на контролируемое обучение
Двойной DDQN: борьба с завышением прогнозов функций ценности действий
Подведем итоги
Глава 10. Ценностно-ориентированные методы с эффективным использованием выборок
Дуэльная DDQN: архитектура нейросети, рассчитанная на обучение с подкреплением
PER: приоритетное воспроизведение полезного опыта
Подведем итоги
Глава 11. Методы градиента политик
и «актер-критик»
REINFORCE: обучение политик на основе результатов
VPG: формирование функции ценности
A3C: параллельное обновление политики
GAE: надежное прогнозирование преимущества
A2C: синхронное обновление политик
Подведем итоги
Глава 12. Продвинутые методы
«актер-критик»
DDPG: аппроксимация детерминированной политики
TD3: лучшие оптимизации для DDPG
SAC: максимизация ожидаемой выгоды и энтропии
PPO: ограничение этапа оптимизации
Подведем итоги
Глава 13. Путь к сильному
искусственному интеллекту
Важные темы, которые были рассмотрены, и те, которые остались без внимания
Углубленные аспекты AGI
Что дальше?
Подведем итоги