Практическая статистика для специалистов Data Science: 50 важнейших понятий

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. В ней в удобной и легкодоступной форме представлены ключевые понятия из статистики, которые относятся к науке о данных, а также объяснено, какие понятия важны и полезны с точки зрения науки о данных, какие менее важны и почему. Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя.

Author(s): Питер Брюс, Эндрю Брюс
Publisher: БХВ-Петербург
Year: 2018

Language: Russian
Pages: 303 с.
City: Санкт-Петербург

Оглавление
Об авторах
Предисловие
Чего ожидать
Условные обозначения, принятые в книге
Использование примеров кода
Благодарности
Комментарий переводчика
Глава 1. Разведочный анализ данных
Элементы структурированных данных
Дополнительные материалы для чтения
Прямоугольные данные
Кадры данных и индексы
Непрямоугольные структуры данных
Дополнительные материалы для чтения
Оценки центрального положения
Среднее
Медиана и робастные оценки
Выбросы
Пример: оценки центрального положения численности населения и уровня убийств
Дополнительные материалы для чтения
Оценки вариабельности
Стандартное отклонение и связанные с ним оценки
Оценки на основе процентилей
Пример: оценки вариабельности населения штатов
Дополнительные материалы для чтения
Обследование распределения данных
Процентили и коробчатые диаграммы
Частотная таблица и гистограммы
Оценки плотности
Дополнительные материалы для чтения
Обследование двоичных и категориальных данных
Мода
Математическое ожидание
Дополнительные материалы для чтения
Корреляция
Диаграммы рассеяния
Дополнительные материалы для чтения
Исследование двух или более переменных
Шестиугольная сетка и контуры (отображение числовых данных против числовых)
Две категориальных переменных
Категориальные и числовые данные
Визуализация многочисленных переменных
Дополнительные материалы для чтения
Резюме
Глава 2. Распределения данных и выборок
Случайный отбор и смещенная выборка
Смещение
Произвольный выбор
Размер против качества: когда размер имеет значение?
Выборочное среднее против популяционного среднего
Дополнительные материалы для чтения
Систематическая ошибка отбора
Регрессия к среднему
Дополнительные материалы для чтения
Выборочное распределение статистики
Центральная предельная теорема
Стандартная ошибка
Дополнительные материалы для чтения
Бутстрап
Повторный отбор против бутстрапирования
Дополнительные материалы для чтения
Доверительные интервалы
Дополнительные материалы для чтения
Нормальное распределение
Стандартное нормальное распределение и квантиль-квантильные графики
Длиннохвостые распределения
Дополнительные материалы для чтения
t-Распределение Стьюдента
Дополнительные материалы для чтения
Биномиальное распределение
Дополнительные материалы для чтения
Распределение Пуассона и другие с ним связанные распределения
Распределения Пуассона
Экспоненциальное распределение
Оценка интенсивности отказов
Распределение Вейбулла
Дополнительные материалы для чтения
Резюме
Глава 3. Статистические эксперименты и проверка значимости
A/B-тестирование
Зачем нужна контрольная группа?
Почему только A/B? Почему не C, D?
Дополнительные материалы для чтения
Проверка статистических гипотез
Нулевая гипотеза
Альтернативная гипотеза
Односторонняя и двухсторонняя проверки гипотез
Дополнительные материалы для чтения
Повторный отбор
Перестановочный тест
Пример: прилипчивость веб-страниц
Исчерпывающий и бутстраповский перестановочные тесты
Перестановочные тесты: сухой остаток для науки о данных
Дополнительные материалы для чтения
Статистическая значимость и p-значения
p-Значение
Альфа
Чему равно p-значение?
Ошибки 1-го и 2-го рода
Наука о данных и p-значения
Дополнительные материалы для чтения
Проверка на основе t-статистики
Дополнительные материалы для чтения
Множественное тестирование
Дополнительные материалы для чтения
Степени свободы
Дополнительные материалы для чтения
ANOVA
F-статистика
Двухсторонняя процедура ANOVA
Дополнительные материалы для чтения
Проверка на основе статистики хи-квадрат
Проверка x2: подход на основе повторного отбора
Проверка x2: статистическая теория
Точная проверка Фишера
Актуальность проверок для науки о данных
Дополнительные материалы для чтения
Алгоритм многорукого бандита
Дополнительные материалы для чтения
Мощность и размер выборки
Размер выборки
Дополнительные материалы для чтения
Резюме
Глава 4. Регрессия и предсказание
Простая линейная регрессия
Уравнение регрессии
Подогнанные значения и остатки
Наименьшие квадраты
Предсказание против объяснения (профилирование)
Дополнительные материалы для чтения
Множественная линейная регрессия
Пример: данные о жилом фонде округа Кинг
Диагностика модели
Перекрестная проверка
Отбор модели и шаговая регрессия
Взвешенная регрессия
Предсказание на основе регрессии
Опасности экстраполяции
Доверительный и предсказательный интервалы
Факторные переменные в регрессии
Представление фиктивные переменных
Многоуровневые факторные переменные
Порядковые факторные переменные
Интерпретация уравнения регрессии
Коррелированные предикторы
Мультиколлинеарность
Искажающие переменные
Взаимодействия и главные эффекты
Проверка допущений: диагностика регрессии
Выбросы
Влиятельные значения
Гетероскедастичность, ненормальность и коррелированные ошибки
Графики частных остатков и нелинейность
Нелинейная регрессия
Параболическая регрессия
Сплайновая регрессия
Обобщенные аддитивные модели
Дополнительные материалы для чтения
Резюме
Глава 5. Классификация
Наивный байесовский алгоритм
Почему точная байесовская классификация непрактична?
Наивное решение
Числовые предикторные переменные
Дополнительные материалы для чтения
Дискриминантный анализ
Ковариационная матрица
Линейный дискриминант Фишера
Простой пример
Дополнительные материалы для чтения
Логистическая регрессия
Функция логистического отклика и логит-преобразование
Логистическая регрессия и обобщенная линейная модель
Обобщенные линейные модели
Предсказанные значения в логистической регрессии
Интерпретация коэффициентов и отношений шансов
Линейная и логистическая регрессии: сходства и различия
Подгонка модели
Диагностика модели
Дополнительные материалы для чтения
Оценивание моделей классификации
Матрица несоответствий
Проблема редкого класса
Прецизионность, полнота и специфичность
ROC-кривая
Метрический показатель AUC
Лифт
Дополнительные материалы для чтения
Стратегии в отношении несбалансированных данных
Понижающий отбор
Повышающий отбор и повышающая/понижающая перевесовка
Генерация данных
Стоимостно-ориентированная классификация
Обследование предсказаний
Дополнительные материалы для чтения
Резюме
Глава 6. Статистическое машинное обучение
K ближайших соседей
Небольшой пример: предсказание невозврата ссуды
Метрические показатели расстояния
Кодировщик с одним активным состоянием
Стандартизация (нормализация, z-оценки)
Выбор K
Метод KNN как конструктор признаков
Древовидные модели
Простой пример
Алгоритм рекурсивного сегментирования
Измерение однородности или разнородности
Остановка роста дерева
Предсказывание непрерывной величины
Каким образом деревья используются
Дополнительные материалы для чтения
Бэггинг и случайный лес
Бэггинг
Случайный лес
Важность переменных
Гиперпараметры
Бустинг
Алгоритм бустинга
XGBoost
Регуляризация: предотвращение переподгонки
Гиперпараметры и перекрестная проверка
Резюме
Глава 7. Обучение без учителя
Анализ главных компонент
Простой пример
Вычисление главных компонент
Интерпретация главных компонент
Дополнительные материалы для чтения
Кластеризация на основе K средних
Простой пример
Алгоритм K средних
Интерпретация кластеров
Выбор количества кластеров
Иерархическая кластеризация
Простой пример
Дендограмма
Агломеративный алгоритм
Меры различия
Модельно-ориентированная кластеризация
Многомерное нормальное распределение
Смеси нормальных распределений
Выбор количества кластеров
Дополнительные материалы для чтения
Шкалирование и категориальные переменные
Шкалирование переменных
Доминантные переменные
Категориальные данные и расстояние Говера
Проблемы кластеризации смешанных данных
Резюме
Библиография
Предметный указатель