Практическая статистика для специалистов Data Science

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Cтатистические методы являются ключевой частью науки о данных. Однако очень немногие аналитики данных обучены статистике должным образом, поскольку нет книг по статистике, написанных специально для аналитиков данных. С другой стороны, многие ресурсы, посвященные науке о данных, содержат статистические методы, но не раскрывают перспективы применения этих методов достаточно глубоко. Предлагаемая книга, написанная доступным языком, устраняет этот пробел. Если вы немного знакомы с языком программирования R и математической статистикой, то легко освоите материал и существенно повысите свой профессиональный уровень Во второе издание включены примеры на языке Python, что расширяет практическое применение книги. Прочитав эту книгу, вы узнаете: - Почему разведывательный анализ данных является ключевым предварительным шагом в науке о данных - Как случайная выборка может уменьшить смещение и привести к более высококачественному набору данных, даже в условиях больших данных - Как принципы планирования эксперимента помогают получить наиболее полные ответы на вопросы - Как использовать регрессию для оценки результатов и выявления аномалий Вы освоите: - Ключевые методы классификации для предсказания, к какой категории относится запись - Статистические методы машинного обучения, которые “обучаются” на данных - Методы обучения без учителя для извлечения информации из немаркированных данных https://github.com/gedeck/practical-statistics-for-data-scientists

Author(s): Питер Брюс, Эндрю Брюс, Питер Гедек
Edition: 2
Publisher: БХВ-Петербург
Year: 2021

Language: Russian
Pages: 352
City: СПб.

Оглавление
Об авторах
Предисловие
Условные обозначения, принятые в книге
Использование примеров кода
Благодарности
Комментарии переводчика
Глава 1. Разведывательный анализ данных
Элементы структурированных данных
Дополнительные материалы для чтения
Прямоугольные данные
Кадры данных и индексы
Непрямоугольные структуры данных
Дополнительные материалы для чтения
Оценки центрального положения
Среднее
Медиана и робастные оценки
Выбросы
Пример: средние оценки численности населения и уровня убийств
Дополнительные материалы для чтения
Оценки вариабельности
Стандартное отклонение и связанные с ним оценки
Оценки на основе процентилей
Пример: оценки вариабельности населения штатов
Дополнительные материалы для чтения
Разведывание распределения данных
Процентили и коробчатые диаграммы
Частотные таблицы и гистограммы
Графики и оценки плотности
Дополнительные материалы для чтения
Разведывание двоичных и категориальных данных
Мода
Ожидаемое значение
Вероятность
Дополнительные материалы для чтения
Корреляция
Диаграммы рассеяния
Дополнительные материалы для чтения
Разведывание двух или более переменных
Сетка из шестиугольных корзин и контуры (сопоставление числовых данных с числовыми данными на графике)
Две категориальные переменные
Категориальные и числовые данные
Визуализация многочисленных переменных
Дополнительные материалы для чтения
Резюме
Глава 2. Распределение данных и распределение выборок
Случайный отбор и смещенная выборка
Смещение
Случайный отбор
Размер против качества: когда размер имеет значение?
Выборочное среднее против популяционного среднего
Дополнительные материалы для чтения
Систематическая ошибка отбора
Регрессия к среднему
Дополнительные материалы для чтения
Выборочное распределение статистической величины
Центральная предельная теорема
Стандартная ошибка
Дополнительные материалы для чтения
Бутстрап
Повторный отбор против бутстрапирования
Дополнительные материалы для чтения
Доверительные интервалы
Дополнительные материалы для чтения
Нормальное распределение
Стандартное нормальное распределение и квантиль-квантильные графики
Длиннохвостые распределения
Дополнительные материалы для чтения
t-Распределение Стьюдента
Дополнительные материалы для чтения
Биномиальное распределение
Дополнительные материалы для чтения
Распределение хи-квадрат
Дополнительные материалы для чтения
F-распредел ение
Дополнительные материалы для чтения
Распределение Пуассона и другие связанные с ним распределения
Пуассоновские распределения
Экспоненциальное распределение
Оценивание интенсивности отказов
Распределение Вейбулла
Дополнительные материалы для чтения
Резюме
Глава 3. Статистические эксперименты и проверка значимости
A/B-тестирование
Зачем нужна контрольная группа?
Почему только A/В? Почему не С, £>...?
Дополнительные материалы для чтения
Проверки гипотез
Нулевая гипотеза
Альтернативная гипотеза
Односторонняя проверка гипотезы против двухсторонней
Дополнительные материалы для чтения
Повторный отбор
Перестановочный тест
Пример: прилипчивость веб-страниц
Исчерпывающий и бутстраповский перестановочные тесты
Перестановочные тесты: сухой остаток для науки о данных
Дополнительные материалы для чтения
Статистическая значимость и р-значения
р-Значение
Альфа
Разногласия по поводу р-значения
Практическая значимость
Ошибки 1 -го и 2-го рода
Наука о данных и р-значения
Дополнительные материалы для чтения
Проверки на основе /-статистики
Дополнительные материалы для чтения
Множественное тестирование
Дополнительные материалы для чтения
Степени свободы
Дополнительные материалы для чтения
Дисперсионный анализ
F-статистика
Двухсторонний дисперсионный анализ
Дополнительные материалы для чтения
Проверка на основе статистики хи-квадрат
Проверка хи-квадрат: подход на основе повторного отбора
Проверка хи-квадрат: статистическая теория
Точный тест Фишера
Релевантность для науки о данных
Дополнительные материалы для чтения
Алгоритм многорукого бандита
Дополнительные материалы для чтения
Мощность и размер выборки
Размер выборки
Дополнительные материалы для чтения
Резюме
Глава 4. Регрессия и предсказание
Простая линейная регрессия
Уравнение регрессии
Подогнанные значения и остатки
Наименьшие квадраты
Предсказание против объяснения (профилирование)
Дополнительные материалы для чтения
Множественная линейная регрессия
Пример: данные жилого фонда округа Кинг
Оценивание результативности модели
Перекрестный конроль
Отбор модели и пошаговая регрессия
Взвешенная регрессия
Дополнительные материалы для чтения
Предсказание с использованием регрессии
Опасности экстраполяции
Доверительный и предсказательный интервалы
Факторные переменные в регрессии
Представление фиктивных переменных
Факторные переменные с многочисленными уровнями
Упорядоченные факторные переменные
Интерпретирование уравнения регрессии
Коррелированные предсказатели
Мультиколлинеарность
Искажающие переменные
Взаимодействия и главные эффекты
Диагностика регрессии
Выбросы
Влиятельные значения
Гетероскедастичность, ненормальность и коррелированные ошибки
Графики частных остатков и нелинейность
Многочленная и сплайновая регрессия
Многочлены
Сплайны
Обобщенные аддитивные модели
Дополнительные материалы для чтения
Резюме
Глава 5. Классификация
Наивный Байес
Почему точная байесова классификация непрактична?
Наивное решение
Числовые предсказательные переменные
Дополнительные материалы для чтения
Дискриминантный анализ
Матрица ковариаций
Линейный дискриминант Фишера
Простой пример
Дополнительные материалы для чтения
Логистическая регрессия
Функция логистического отклика и логит
Логистическая регрессия и ОЛМ
Обобщенные линейные модели
Предсказанные значения из логистической регрессии
Интерпретирование коэффициентов и отношений перевесов
Линейная и логистическая регрессия: сходства и различия
Подгонка модели
Оценивание результативности модели
Анализ остатков
Дополнительные материалы для чтения
Оценивание классификационных моделей
Матрица путаницы
Проблема редкого класса
Прецизионность, полнота и специфичность
ROC-кривая
Площадь под ROC-кривой
Лифт
Дополнительные материалы для чтения
Стратегии для несбалансированных данных
Понижающий отбор
Повышающий отбор и повышающая/понижающая перевесовка
Адаптация функции потери
Генерация данных
Стоимостная классификация
Разведывание предсказаний
Дополнительные материалы для чтения
Резюме
Глава 6. Статистическое машинное обучение
k ближайших соседей
Небольшой пример: предсказание невыплаты ссуды
Метрики расстояния
Кодировщик с одним активным состоянием
Стандартизация (нормализация, z-оценки)
Выбор числам
k ближайших соседей как механизм порождения признаков
Древесные модели
Простой пример
Алгоритм рекурсивного подразделения
Измерение однородности или загрязненности
Остановка выращивания дерева
Контроль за сложностью дерева в R
Контроль за сложностью дерева в Python
Предсказывание непрерывного значения
Каким образом используются деревья
Дополнительные материалы для чтения
Бэггинг и случайный лес
Бэггинг
Случайный лес
Важность переменных
Гиперпараметры
Бустинг
Алгоритм бустирования
XGBoost
Регуляризация: предотвращение переподгонки
Гребневая регрессия и лассо-регрессия
Гиперпараметры и перекрестный контроль
Гиперпараметры XGBoost
Ключевые идеи для бустинга
Резюме
Глава 7. Неконтролируемое самообучение
Анализ главных компонент
Простой пример
Вычисление главных компонент
Интерпретирование главных компонент
Анализ соответствия
Дополнительные материалы для чтения
Кластеризация на основе К средних
Простой пример
Алгоритм К средних
Интерпретирование кластеров
Выбор числа кластеров
Иерархическая кластеризация
Простой пример
Дендограмма
Агломератов ный алгоритм
Меры несхожести
Модельно-ориентированная кластеризация
Многомерное нормальное распределение
Смеси нормальных распределений
Выбор числа кластеров
Дополнительные материалы для чтения
Шкалирование и категориальные переменные
Шкалирование переменных
Доминантные переменные
Категориальные данные и расстояние Говера
Проблемы кластеризации смешанных данных
Резюме
Библиография
Предметный указатель