Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. В ней в удобной и легкодоступной форме представлены ключевые понятия из статистики, которые относятся к науке о данных, а также объяснено, какие понятия важны и полезны с точки зрения науки о данных, какие менее важны и почему. Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя. Во второе издание включены примеры на языке Python, что расширяет практическое применение книги.
Author(s): Питер Брюс, Эндрю Брюс, Питер Гедек
Edition: 2
Publisher: БХВ-Петербург
Year: 2021
Language: Russian
Pages: 352
City: СПб.
Tags: Machine Learning; Data Analysis; Unsupervised Learning; Regression; Python; Classification; R; Statistics; Logistic Regression; Hypothesis Testing; Statistical Inference; Trees; Bagging; Naïve Bayes
Оглавление
Об авторах
Предисловие
Условные обозначения, принятые в книге
Использование примеров кода
Благодарности
Комментарии переводчика
Глава 1. Разведывательный анализ данных
Элементы структурированных данных
Дополнительные материалы для чтения
Прямоугольные данные
Кадры данных и индексы
Непрямоугольные структуры данных
Дополнительные материалы для чтения
Оценки центрального положения
Среднее
Медиана и робастные оценки
Выбросы
Пример: средние оценки численности населения и уровня убийств
Дополнительные материалы для чтения
Оценки вариабельности
Стандартное отклонение и связанные с ним оценки
Оценки на основе процентилей
Пример: оценки вариабельности населения штатов
Дополнительные материалы для чтения
Разведывание распределения данных
Процентили и коробчатые диаграммы
Частотные таблицы и гистограммы
Графики и оценки плотности
Дополнительные материалы для чтения
Разведывание двоичных и категориальных данных
Мода
Ожидаемое значение
Вероятность
Дополнительные материалы для чтения
Корреляция
Диаграммы рассеяния
Дополнительные материалы для чтения
Разведывание двух или более переменных
Сетка из шестиугольных корзин и контуры (сопоставление числовых данных с числовыми данными на графике)
Две категориальные переменные
Категориальные и числовые данные
Визуализация многочисленных переменных
Дополнительные материалы для чтения
Резюме
Глава 2. Распределение данных и распределение выборок
Случайный отбор и смещенная выборка
Смещение
Случайный отбор
Размер против качества: когда размер имеет значение?
Выборочное среднее против популяционного среднего
Дополнительные материалы для чтения
Систематическая ошибка отбора
Регрессия к среднему
Дополнительные материалы для чтения
Выборочное распределение статистической величины
Центральная предельная теорема
Стандартная ошибка
Дополнительные материалы для чтения
Бутстрап
Повторный отбор против бутстрапирования
Дополнительные материалы для чтения
Доверительные интервалы
Дополнительные материалы для чтения
Нормальное распределение
Стандартное нормальное распределение и квантиль-квантильные графики
Длиннохвостые распределения
Дополнительные материалы для чтения
t-Распределение Стьюдента
Дополнительные материалы для чтения
Биномиальное распределение
Дополнительные материалы для чтения
Распределение хи-квадрат
Дополнительные материалы для чтения
F-распредел ение
Дополнительные материалы для чтения
Распределение Пуассона и другие связанные с ним распределения
Пуассоновские распределения
Экспоненциальное распределение
Оценивание интенсивности отказов
Распределение Вейбулла
Дополнительные материалы для чтения
Резюме
Глава 3. Статистические эксперименты и проверка значимости
A/B-тестирование
Зачем нужна контрольная группа?
Почему только A/В? Почему не С, £>...?
Дополнительные материалы для чтения
Проверки гипотез
Нулевая гипотеза
Альтернативная гипотеза
Односторонняя проверка гипотезы против двухсторонней
Дополнительные материалы для чтения
Повторный отбор
Перестановочный тест
Пример: прилипчивость веб-страниц
Исчерпывающий и бутстраповский перестановочные тесты
Перестановочные тесты: сухой остаток для науки о данных
Дополнительные материалы для чтения
Статистическая значимость и р-значения
р-Значение
Альфа
Разногласия по поводу р-значения
Практическая значимость
Ошибки 1 -го и 2-го рода
Наука о данных и р-значения
Дополнительные материалы для чтения
Проверки на основе /-статистики
Дополнительные материалы для чтения
Множественное тестирование
Дополнительные материалы для чтения
Степени свободы
Дополнительные материалы для чтения
Дисперсионный анализ
F-статистика
Двухсторонний дисперсионный анализ
Дополнительные материалы для чтения
Проверка на основе статистики хи-квадрат
Проверка хи-квадрат: подход на основе повторного отбора
Проверка хи-квадрат: статистическая теория
Точный тест Фишера
Релевантность для науки о данных
Дополнительные материалы для чтения
Алгоритм многорукого бандита
Дополнительные материалы для чтения
Мощность и размер выборки
Размер выборки
Дополнительные материалы для чтения
Резюме
Глава 4. Регрессия и предсказание
Простая линейная регрессия
Уравнение регрессии
Подогнанные значения и остатки
Наименьшие квадраты
Предсказание против объяснения (профилирование)
Дополнительные материалы для чтения
Множественная линейная регрессия
Пример: данные жилого фонда округа Кинг
Оценивание результативности модели
Перекрестный конроль
Отбор модели и пошаговая регрессия
Взвешенная регрессия
Дополнительные материалы для чтения
Предсказание с использованием регрессии
Опасности экстраполяции
Доверительный и предсказательный интервалы
Факторные переменные в регрессии
Представление фиктивных переменных
Факторные переменные с многочисленными уровнями
Упорядоченные факторные переменные
Интерпретирование уравнения регрессии
Коррелированные предсказатели
Мультиколлинеарность
Искажающие переменные
Взаимодействия и главные эффекты
Диагностика регрессии
Выбросы
Влиятельные значения
Гетероскедастичность, ненормальность и коррелированные ошибки
Графики частных остатков и нелинейность
Многочленная и сплайновая регрессия
Многочлены
Сплайны
Обобщенные аддитивные модели
Дополнительные материалы для чтения
Резюме
Глава 5. Классификация
Наивный Байес
Почему точная байесова классификация непрактична?
Наивное решение
Числовые предсказательные переменные
Дополнительные материалы для чтения
Дискриминантный анализ
Матрица ковариаций
Линейный дискриминант Фишера
Простой пример
Дополнительные материалы для чтения
Логистическая регрессия
Функция логистического отклика и логит
Логистическая регрессия и ОЛМ
Обобщенные линейные модели
Предсказанные значения из логистической регрессии
Интерпретирование коэффициентов и отношений перевесов
Линейная и логистическая регрессия: сходства и различия
Подгонка модели
Оценивание результативности модели
Анализ остатков
Дополнительные материалы для чтения
Оценивание классификационных моделей
Матрица путаницы
Проблема редкого класса
Прецизионность, полнота и специфичность
ROC-кривая
Площадь под ROC-кривой
Лифт
Дополнительные материалы для чтения
Стратегии для несбалансированных данных
Понижающий отбор
Повышающий отбор и повышающая/понижающая перевесовка
Генерация данных
Стоимостная классификация
Разведывание предсказаний
Дополнительные материалы для чтения
Резюме
Глава 6. Статистическое машинное обучение
k ближайших соседей
Небольшой пример: предсказание невыплаты ссуды
Метрики расстояния
Кодировщик с одним активным состоянием
Стандартизация (нормализация, z-оценки)
Выбор числам
k ближайших соседей как механизм порождения признаков
Древесные модели
Простой пример
Алгоритм рекурсивного подразделения
Измерение однородности или загрязненности
Остановка выращивания дерева
Контроль за сложностью дерева в R
Контроль за сложностью дерева в Python
Предсказывание непрерывного значения
Каким образом используются деревья
Дополнительные материалы для чтения
Бэггинг и случайный лес
Бэггинг
Случайный лес
Важность переменных
Гиперпараметры
Бустинг
Алгоритм бустирования
XGBoost
Регуляризация: предотвращение переподгонки
Гиперпараметры и перекрестный контроль
Резюме
Глава 7. Неконтролируемое самообучение
Анализ главных компонент
Простой пример
Вычисление главных компонент
Интерпретирование главных компонент
Анализ соответствия
Дополнительные материалы для чтения
Кластеризация на основе К средних
Простой пример
Алгоритм К средних
Интерпретирование кластеров
Выбор числа кластеров
Иерархическая кластеризация
Простой пример
Дендограмма
Агломератов ный алгоритм
Меры несхожести
Модельно-ориентированная кластеризация
Многомерное нормальное распределение
Смеси нормальных распределений
Выбор числа кластеров
Дополнительные материалы для чтения
Шкалирование и категориальные переменные
Шкалирование переменных
Доминантные переменные
Категориальные данные и расстояние Говера
Проблемы кластеризации смешанных данных
Резюме
Библиография
Предметный указатель