Идея обучения с подкреплением возникла десятки лет назад, но этой дисциплине предстояло пройти долгий путь, прежде чем она стала одним из самых активных направлений исследований в области машинного обучения и нейронных сетей. Сегодня это предмет интереса ученых, занимающихся психологией, теорией управления, искусственным интеллектом и многими другими отраслями знаний.
Подход, принятый авторами книги, ставит акцент на практическое использование обучения с подкреплением. В первой части читатель знакомится с базовыми его аспектами. Во второй части представлены приближенные методы решения в условиях ограниченных вычислительных ресурсов. В третьей части книги обсуждается важность обучения с подкреплением для психологии и нейронаук.
Издание предназначено для студентов технических вузов, разработчиков, специализирующихся на машинном обучении и искусственном интеллекте, а также представителей нетехнических профессий, которые могут использовать описанные методики в своей работе.
Author(s): Ричард С. Саттон, Эндрю Дж. Барто
Edition: 2
Publisher: ДМК Пресс
Year: 2020
Language: Russian
Commentary: Vector PDF
Pages: 552
City: М.
Tags: Neuroscience; Machine Learning; Reinforcement Learning; Psychology; Gradient Descent; Dynamic Programming; Temporal Difference Learning; Markov Models; Bootstrapping; Monte Carlo Simulations
Титул
Предисловие ко второму изданию
Предисловие к первому изданию
Обозначения
От издательства
Глава 1. Введение
1.1. Обучение с подкреплением
1.2. Примеры
1.3. Элементы обучения с подкреплением
1.4. Ограничения и круг вопросов
1.5. Развернутый пример: игра в крестики-нолики
1.6. Резюме
1.7. История ранних этапов обучения с подкреплением
Библиографические замечания
Часть I. Табличные методы решения
Глава 2. Многорукие бандиты
2.1. Задача о k-руком бандите
2.2. Методы ценности действий
2.3. 10-рукий испытательный стенд
2.4. Инкрементная реализация
2.5. Нестационарная задача
2.6. Оптимистические начальные значения
2.7.Выбор действия, дающего верхнюю доверительную границу
2.8. Градиентные алгоритмы бандита
2.9. Ассоциативный поиск (контекстуальные бандиты)
2.10. Резюме
Библиографические и исторические замечания
Глава 3. Конечные марковские процессы принятия решений
3.1. Интерфейс между агентом и окружающей средой
3.2. Цели и вознаграждения
3.3. Доход и эпизоды
3.4. Унифицированная нотация для эпизодических и непрерывных задач
3.5. Стратегии и функции ценности
3.6. Оптимальные стратегии и оптимальные функции ценности
3.7. Оптимальность и аппроксимация
3.8. Резюме
Библиографические и исторические замечания
Глава 4. Динамическое программирование
4.1. Оценивание стратегии (предсказание)
4.2. Улучшение стратегии
4.3. Итерация по стратегиям
4.4. Итерация по ценности
4.5. Асинхронное динамическое программирование
4.6. Обобщенная итерация по стратегиям
4.7. Эффективность динамического программирования
4.8. Резюме
Библиографические и исторические замечания
Глава 5. Методы Монте-Карло
5.1. Предсказание методами Монте-Карло
5.2. Оценивание ценности действий методом Монте-Карло
5.3. Управление методом Монте-Карло
5.4. Управление методом Монте-Карло без исследовательских стартов
5.5. Предсказание с разделенной стратегией посредством выборки по значимости
5.6. Инкрементная реализация
5.7. Управление методом Монте-Карло с разделенной стратегией
5.8. *Выборка по значимости с учетом обесценивания
5.9. *Приведенная выборка по значимости
5.10. Резюме
Библиографические и исторические замечания
Глава 6. Обучение на основе временных различий
6.1. Предсказание TD-методами
6.2. Преимущества TD-методов предсказания
6.3. Оптимальность TD(0)
6.4. Sarsa: TD-управление с единой стратегией
6.5. Q-обучение: TD-управление с разделенной стратегией
6.6. Expected Sarsa
6.7. Смещение максимизации и двойное обучение
6.8. Игры, послесостояния и другие специальные случаи
6.9. Резюме
Библиографические и исторические замечания
Глава 7. n-шаговый бутстрэппинг
7.1. n-шаговое TD-предсказание
7.2. n-шаговый алгоритм Sarsa
7.3. n-шаговое обучение с разделенной стратегией
7.4. *Приведенные методы с переменным управлением
7.5. Обучение с разделенной стратегией без выборки по значимости: n-шаговый алгоритм обновления по дереву
7.6. *Унифицированный алгоритм: n-шаговый Q(σ)
7.7. Резюме
Библиографические и исторические замечания
Глава 8. Планирование и обучение табличными методами
8.1. Модели и планирование
8.2. Dyna: объединение планирования, исполнения и обучения
8.3. Когда модель неверна
8.4. Приоритетный проход
8.5. Сравнение выборочного и полного обновлений
8.6. Траекторная выборка
8.7. Динамическое программирование в реальном времени
8.8. Планирование в момент принятия решений
8.9. Эвристический поиск
8.10. Разыгрывающие алгоритмы
8.11. Поиск по дереву методом Монте-Карло
8.12. Резюме главы
8.13. Резюме части I: оси
Библиографические и исторические замечания
Часть II. Приближенные методы решения
Глава 9. Предсказание с единой стратегией и аппроксимацией
9.1. Аппроксимация функции ценности
9.2. Целевая функция предсказания (VE—)
9.3. Стохастические градиентные и полуградиентные методы
9.4. Линейные методы
9.5. Конструирование признаков для линейных методов
9.5.1. Полиномы
9.5.2. Базис Фурье
9.5.3. Грубое кодирование
9.5.4. Плиточное кодирование
9.5.5. Радиально-базисные функции
9.6. Выбор размера шага вручную
9.7. Нелинейная аппроксимация функций: искусственные нейронные сети
9.8. Алгоритм TD наименьших квадратов
9.9. Аппроксимация функций с запоминанием
9.10. Аппроксимация с помощью ядерных функций
9.11. Более глубокий взгляд на обучение с единой стратегией: заинтересованность и значимость
9.12. Резюме
Библиографические и исторические замечания
Глава 10. Управление с единой стратегией и аппроксимацией
10.1. Эпизодическое полуградиентное управление
10.2. Полуградиентный n-шаговый Sarsa
10.3. Среднее вознаграждение: новая постановка непрерывных задач
10.4. Возражения против постановки с обесцениванием
10.5. Дифференциальный полуградиентный n-шаговый Sarsa
10.6. Резюме
Библиографические и исторические замечания
Глава 11. *Методы с разделенной стратегией и аппроксимацией
11.1. Полуградиентные методы
11.2. Примеры расходимости в случае с разделенной стратегией
11.3. Смертельная триада
11.4. Геометрия линейной аппроксимации функций ценности
11.5. Градиентный спуск по беллмановской ошибке
11.6. Беллмановская ошибка необучаема
11.7. Градиентные TD-методы
11.8. Эмфатические TD-методы
11.9. Уменьшение дисперсии
11.10. Резюме
Библиографические и исторические замечания
Глава 12. Следы приемлемости
12.1. λ-доход
12.2. TD(λ)
12.3. n-шаговые усеченные λ-доходные методы
12.4. Пересчет обновлений: онлайновый λ-доходный алгоритм
12.5. Истинно онлайновый TD(λ)
12.6. *Голландские следы в обучении методами Монте-Карло
12.7. Sarsa(λ)
12.8. Переменные λ и γ
12.9. Следы с разделенной стратегией и переменным управлением
12.10. От Q(λ) Уоткинса к Tree-Backup(λ)
12.11. Устойчивые методы с разделенной стратегией со следами приемлемости
12.12. Вопросы реализации
12.13. Выводы
Библиографические и исторические замечания
Глава 13. Методы градиента стратегии
13.1. Аппроксимация стратегии и ее преимущества
13.2. Теорема о градиенте стратегии
13.3. REINFORCE: метод Монте-Карло на основе градиента стратегии
13.4. REINFORCE с базой
13.5. Методы исполнитель–критик
13.6. Метод градиента стратегии для непрерывных задач
13.7. Параметризация стратегии для непрерывных действий
13.8. Резюме
Библиографические и исторические замечания
Часть III. Заглянем поглубже
Глава 14.Психология
14.1. Предсказание и управление
14.2. Классическое обусловливание
14.2.1. Блокирующее обусловливание и обусловливание высшего порядка
14.2.2. Модель Рескорлы–Вагнера
14.2.3. TD-модель
14.2.4. Имитирование TD-модели
14.3. Инструментальное обусловливание
14.4. Отложенное подкрепление
14.5. Когнитивные карты
14.6. Привычное и целеустремленное поведение
14.7. Резюме
Библиографические и исторические замечания
Глава 15. Нейронауки
15.1. Основы нейронаук
15.2. Сигналы вознаграждения, сигналы подкрепления, ценности и ошибки предсказания
15.3. Гипотеза об ошибке предсказания вознаграждения
15.4. Дофамин
15.5. Экспериментальное подтверждение гипотезы об ошибке предсказания вознаграждения
15.6. Параллель между TD-ошибкой и дофамином
15.7. Нейронный исполнитель–критик
15.8. Правила обучения критика и исполнителя
15.9. Гедонистические нейроны
15.10. Коллективное обучение с подкреплением
15.11. Основанные на модели методы в мозге
15.12. Наркотическая зависимость
15.13. Резюме
Библиографические и исторические замечания
Глава 16. Примеры и приложения
16.1. TD-Gammon
16.2. Программы игры в шашки Сэмюэла
16.3. Стратегия выбора ставки в программе Watson
16.4. Оптимизация управления памятью
16.5. Игра в видеоигры на уровне человека
16.6. Мастерство игры в го
16.6.1. AlphaGo
16.6.2. AlphaGo Zero
16.7. Персонализированные веб-службы
16.8. Парение в восходящих потоках воздуха
Глава 17. Передовые рубежи
17.1. Общие функции ценности и вспомогательные задачи
17.2. Абстрагирование времени посредством опций
17.3. Наблюдения и состояние
17.4. Проектирование сигналов вознаграждения
17.5. Остающиеся вопросы
7.6. Экспериментальное подтверждение гипотезы об ошибке предсказания вознаграждения
Библиографические и исторические замечания
Предметный указатель