Математика в машинном обучении

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Фундаментальные математические дисциплины, необходимые для понимания машинного обучения, — это линейная алгебра, аналитическая геометрия, векторный анализ, оптимизация, теория вероятностей и статистика. Традиционно все эти темы размазаны по различным курсам, поэтому студентам, изучающим data science или computer science, а также профессионалам в МО, сложно выстроить знания в единую концепцию. Эта книга самодостаточна: читатель знакомится с базовыми математическими концепциями, а затем переходит к четырем основным методам МО: линейной регрессии, методу главных компонент, гауссову моделированию и методу опорных векторов. Тем, кто только начинает изучать математику, такой подход поможет развить интуицию и получить практический опыт в применении математических знаний, а для читателей с базовым математическим образованием книга послужит отправной точкой для более продвинутого знакомства с машинным обучением.

Author(s): Марк Питер Дайзенрот, А. Альдо Фейзал, Чен Сунь Он
Series: Для профессионалов
Publisher: Питер
Year: 2024

Language: Russian
Pages: 512
City: СПб.
Tags: ml

Краткое содержание
Оглавление
От издательства
О научном редакторе русского издания
Математика в машинном обучении
Условные обозначения
Список аббревиатур и сокращений
Предисловие
Зачем нужна еще одна книга по машинному обучению?
Какова целевая аудитория книги?
Благодарности
Часть I. Математические основы
Глава 1. Введение и мотивация
1.1. Поиск интуитивно понятных формулировок
1.2. Два способа читать эту книгу
1.3. Упражнения и обратная связь
Глава 2. Линейная алгебра
2.1. Системы линейных уравнений
2.2. Матрицы
2.2.1. Сложение и перемножение матриц
2.2.2. Обращение и транспонирование
2.2.3. Умножение на скаляр
2.2.4. Компактное представление системы уравнений
2.3. Решение систем линейных уравнений
2.3.1. Частное и общее решение
2.3.2. Элементарные преобразования
2.3.3. Прием с –1
2.3.4. Алгоритмы для решения системы линейных уравнений
2.4. Векторные пространства
2.4.1. Группы
2.4.2. Векторные пространства
2.4.3. Векторные подпространства
2.5. Линейная независимость
2.6. Базис и ранг
2.6.1. Генерация множества и базиса
2.6.2. Ранг
2.7. Линейные отображения
2.7.1. Матричное представление линейных отображений
2.7.2. Изменение базиса
2.7.3. Образ и ядро
2.8. Аффинные пространства
2.8.1. Аффинные подпространства
2.8.2. Аффинные отображения
2.9. Дополнительное чтение
Упражнения
Глава 3. Аналитическая геометрия
3.1. Нормы
3.2. Внутренние произведения
3.2.1. Скалярное произведение
3.2.2. Общие внутренние произведения
3.2.3. Симметричные положительно определенные матрицы
3.3. Длины и расстояния
3.4. Углы и ортогональность
3.5. Ортонормированный базис
3.6. Ортогональное дополнение
3.7. Внутреннее произведение функций
3.8. Ортогональные проекции
3.8.1. Проекция на одномерные подпространства (прямые)
3.8.2. Проекция на общие подпространства
3.8.3. Ортогонализация Грама — Шмидта
3.8.4. Проекция на аффинные подпространства
3.9. Повороты
3.9.1. Повороты в R2
3.9.2. Повороты в R3
3.9.3. Поворот в n измерениях
3.9.4. Свойства поворотов
3.10. Дополнительное чтение
Упражнения
Глава 4. Матричные разложения
4.1. Детерминант и след
4.2. Собственные значения и собственные векторы
4.2.1. Графическая интуиция в двух измерениях
4.3. Разложение Холецкого
4.4. Собственное разложение и диагонализация
4.4.1. Геометрическая интуиция для собственного разложения
4.5. Разложение по сингулярным значениям
4.5.1. Геометрические интуиции для SVD
4.5.2. Построение SVD
4.5.3. Разложение на собственные значения и разложение на сингулярные значения
4.6. Матричное приближение
4.7. Матричная филогения
4.8. Дополнительное чтение
Упражнения
Глава 5. Векторный анализ
5.1. Дифференцирование функций одной переменной
5.1.1. Ряд Тейлора
5.1.2. Правила дифференцирования
5.2. Частные производные и градиенты
5.2.1. Основные правила взятия частных производных
5.2.2. Цепное правило
5.3. Градиенты векторнозначных функций
5.4. Градиенты матриц
5.5. Полезные тождества для вычисления градиентов
5.6. Обратное распространение ошибкИ и автоматическое дифференцирование
5.6.1. Градиенты в глубоких нейронных сетях
5.6.2. Автоматическое дифференцирование
5.7. Производные высших порядков
5.8. Линеаризация и ряды Тейлора для нескольких переменных
5.9. Для дальнейшего чтения
Упражнения
Глава 6. Вероятность и распределения
6.1. Построение вероятностного пространства
6.1.1. Философские вопросы
6.1.2. Вероятность и случайные величины
6.1.3. Статистика
6.2. Дискретные и непрерывные распределения
6.2.1. Дискретные вероятности
6.2.2. Непрерывные вероятности
6.2.3. Различия дискретных и непрерывных распределений
6.3. Правило суммы, правило произведения и теорема Байеса
6.4. Обобщающие статистики и независимость
6.4.1. Среднее и дисперсия
6.4.2. Эмпирические среднее и дисперсия
6.4.3. Три формулы дисперсии
6.4.4. Суммы и преобразования случайных величин
6.4.5. Статистическая независимость
6.4.6. Скалярные произведения случайных величин
6.5. Гауссово распределение
6.5.1. Частные и условные распределения — тоже гауссианы
6.5.2. Произведение гауссовых плотностей
6.5.3. Суммы и линейные преобразования
6.5.4. Семплирование из многомерного гауссова распределения
6.6. Сопряженность и экспоненциальное семейство распределений
6.6.1. Сопряженность
6.6.2. Достаточные статистики
6.6.3. Экспоненциальное семейство распределений
6.7. Замена переменных / Обратное преобразование
6.7.1. Метод функций распределения
6.7.2. Замена переменных
6.8. Для дальнейшего чтения
Упражнения
Глава 7. Непрерывная оптимизация
7.1. Оптимизация с использованием градиентного спуска
7.1.1. Размер шага
7.1.2. Градиентный спуск с импульсом
7.1.3. Стохастический градиентный спуск
7.2. Ограниченная оптимизация и множители Лагранжа
7.3. Выпуклая оптимизация
7.3.1. Линейное программирование
7.3.2. Квадратичное программирование
7.3.3. Преобразование Лежандра — Фенхеля и выпуклое сопряжение
7.4. Для дальнейшего чтения
Упражнения
Часть II. Главные задачи машинного обучения
Глава 8. О сочетании модели и данных
8.1. Данные, модели и обучение
8.1.1. Данные как векторы
8.1.2. Модели как функции
8.1.3. Модели как вероятностные распределения
8.1.4. Обучение — это нахождение параметров
8.2. Минимизация эмпирического риска
8.2.1. Гипотеза класса функций
8.2.2. Функция потерь для обучения
8.2.3. Регуляризация для борьбы с переобучением
8.2.4. Кросс-валидация для оценки производительности обобщения
8.2.5. Дальнейшее чтение
8.3. Оценка параметров
8.3.1. Метод максимального правдоподобия
8.3.2. Оценка апостериорного максимума
8.3.3. Обучение модели
8.3.4. Дополнительное чтение
8.4. Вероятностные модели и инференс
8.4.1. Вероятностные модели
8.4.2. Байесовский инференс
8.4.3. Модели латентных переменных
8.4.4. Дальнейшее чтение
8.5. Направленные графические модели
8.5.1. Семантика графов
8.5.2. Условная независимость и d-разбиение
8.5.3. Дальнейшее чтение
8.6. Выбор модели
8.6.1. Вложенная кросс-валидация
8.6.2. Выбор байесовской модели
8.6.3. Коэффициент Байеса для сравнения моделей
8.6.4. Дальнейшее чтение
Глава 9. Линейная регрессия
9.1. Постановка задачи
9.2. Оценка параметров
9.2.1. Оценка максимального правдоподобия
9.2.2. Переобучение при линейной регрессии
9.2.3. Оценка апостериорного максимума
9.2.4. MAP-оценивание как регуляризация
9.3. Байесовская линейная регрессия
9.3.1. Модель
9.3.2. Априорные предсказания
9.3.3. Апостериорное распределение
9.3.4. Апостериорные предсказания
9.3.5. Вычисление маргинального правдоподобия
9.4. Максимальное правдоподобие как ортогональная проекция
9.5. Для дальнейшего чтения
Глава 10. Снижение размерности с помощью анализа главных компонент
10.1. Постановка проблемы
10.2. Перспектива максимальной дисперсии
10.2.1. Направление с максимальной дисперсией
10.2.2. M-мерное подпространство с максимальной дисперсией
10.3. Проекционная перспектива
10.3.1. Настройка и цели
10.3.2. Поиск оптимальных координат
10.3.3. Нахождение базиса главного подпространства
10.4. Вычисление собственного вектора и приближения низкого ранга
10.4.1. PCA с использованием матричных приближений низкого ранга
10.4.2. Практические аспекты
10.5. PCA в больших размерах
10.6. Ключевые шаги PCA на практике
10.7. Латентная переменная
10.7.1. Генеративный процесс и вероятностная модель
10.7.2. Правдоподобие и совместное распределение
10.7.3. Апостериорное распределение
10.8. Дополнительное чтение
Глава 11. Оценка плотности с помощью моделей гауссовой смеси
11.1. Модель гауссовой смеси
11.2. Изучение параметров с помощью максимального правдоподобия
11.2.1. Ответственность
11.2.2. Обновление средних
11.2.3. Обновление ковариаций
11.2.4. Обновление весов смеси
11.3. EM-Алгоритм
11.4. Скрытая перспектива
11.4.1. Генеративный процесс и вероятностная модель
11.4.2. Правдоподобие
11.4.3. Апостериорное распределение
11.4.4. Расширение до полного набора данных
11.4.5. Расширение до полного набора данных
11.5. Дополнительное чтение
Глава 12. Классификация методом опорных векторов
12.1. Разделяющие гиперплоскости
12.2. Прямая задача метода опорных векторов
12.2.1. Понятие отступа
12.2.2. Нахождение отступа: традиционный способ
12.2.3. Почему можно взять отступ, равный 1
12.2.4. SVM с мягким отступом: геометрический подход
12.2.5. SVM с мягким зазором: подход с использованием функции потерь
12.3. Двойственная задача SVM
12.3.1. Двойственность и множители Лагранжа
12.3.2. Двойственность и выпуклая оболочка
12.4. Ядра
12.5. Численное решение
12.6. Для дальнейшего чтения
Библиография