Введение в статистическое обучение с примерами на языке R

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Author(s): Джеймс Г., Уиттон А., Хасти Т., Тибширани Р.
Publisher: ДМК
Year: 2016

Language: Russian
Pages: 452

Оглавление ......Page 6
От переводчика ......Page 11
Предисловие ......Page 12
1 Введение ......Page 14
2.1 Что такое статистическое обучение? ......Page 28
2.1.1 Зачем оценивать /? ......Page 30
2.1.2 Как мы оцениваем /? ......Page 34
2.1.3 Компромисс между точностью предсказаний и интерпретируемостью модели ......Page 37
2.1.4 Обучение с учителем и без учителя ......Page 39
2.1.5 Различия между проблемами регрессии и классификации ......Page 41
2.2.1 Измерение качества модели ......Page 42
2.2.2 Компромисс между смещением и дисперсией ......Page 47
2.2.3 Задачи классификации ......Page 50
2.3.1 Основные команды ......Page 57
2.3.2 Графики ......Page 60
2.3.3 Индексирование данных ......Page 61
2.3.4 Загрузка данных ......Page 62
2.3.5 Дополнительные графические и количественные сводки ......Page 64
2.4 Упражнения ......Page 66
3 Линейная регрессия ......Page 72
3.1 Простая линейная регрессия ......Page 73
3.1.1 Оценивание коэффициентов ......Page 74
3.1.2 Точность оценок коэффициентов ......Page 76
3.1.3 Оценивание точности модели ......Page 81
3.2 Множественная линейная регрессия ......Page 84
3.2.1 Оценивание регрессионных коэффициентов ......Page 85
3.2.2 Некоторые важные вопросы ......Page 88
3.3.1 Качественные предикторы ......Page 96
3.3.2 Потенциальные проблемы ......Page 106
3.4 Маркетинговый план ......Page 117
3.5 Сравнение линейной регрессии с методом К ближайших соседей ......Page 119
3.6.1 Библиотеки ......Page 124
3.6.2 Простая линейная регрессия ......Page 125
3.6.3 Множественная линейная регрессия ......Page 128
3.6.4 Эффекты взаимодействия ......Page 130
3.6.5 Нелинейные преобразования предикторов ......Page 131
3.6.6 Качественные предикторы ......Page 133
3.6.7 Написание функций ......Page 135
3.7 Упражнения ......Page 136
4.1 Общее представление о классификации ......Page 144
4.2 Почему не линейная регрессия? ......Page 145
4.3 Логистическая регрессия ......Page 147
4.3.1 Логистическая модель ......Page 148
4.3.2 Оценивание регрессионных коэффициентов ......Page 150
4.3.3 Предсказания ......Page 151
4.3.4 Множественная логистическая модель ......Page 152
4.4 Дискриминантный анализ ......Page 155
4.4.2 Линейный дискриминантый анализ для р = 1 ......Page 156
4.4.3 Линейный дискриминантный анализ для р > 1 ......Page 159
4.4.4 Квадратичный дискриминантный анализ ......Page 167
4.5 Сравнение методов классификации ......Page 169
4.6.1 Данные по цене акций ......Page 173
4.6.2 Логистическая регрессия ......Page 174
4.6.3 Линейный дискриминантный анализ ......Page 179
4.6.4 Квадратичный дискриминантный анализ ......Page 181
4.6.5 Метод К ближайших соседей ......Page 182
4.6.6 Применение к данным по жилым прицепам ......Page 183
4.7 Упражнения ......Page 187
5 Методы создания повторных выборок ......Page 193
5.1.1 Метод проверочной выборки ......Page 194
5.1.2 Перекрестная проверка по отдельным наблюдениям ......Page 197
5.1.3 fc-кратная перекрестная проверка ......Page 199
5.1.4 Компромисс между смещением и дисперсией в контексте fc-кратной перекрестной проверки ......Page 202
5.1.5 Перекрестная проверка при решении задач классификации ......Page 203
5.2 Бутстреп ......Page 206
5.3.1 Метод проверочной выборки ......Page 210
5.3.2 Перекрестная проверка по отдельным наблюдениям ......Page 211
5.3.4 Бутстреп ......Page 213
5.4 Упражнения ......Page 216
6 Отбор и регуляризация линейных моделей ......Page 222
6.1.1 Отбор оптимального подмножества ......Page 224
6.1.2 Пошаговый отбор ......Page 226
6.1.3 Выбор оптимальной модели ......Page 229
6.2.1 Гребневая регрессия ......Page 235
6.2.2 Лассо ......Page 239
6.2.3 Выбор гиперпараметра ......Page 249
6.3 Методы снижения размерности ......Page 250
6.3.1 Регрессия на главные компоненты ......Page 252
6.3.2 Метод частных наименьших квадратов ......Page 258
6.4.1 Данные большой размерности ......Page 260
6.4.2 Что не так с большими размерностями? ......Page 261
6.4.3 Регрессия для данных большой размерности ......Page 263
6.4.4 Интерпретация результатов в задачах большой размерности ......Page 265
6.5.1 Отбор оптимального подмножества ......Page 266
6.5.2 Отбор путем пошагового включения и исключения переменных ......Page 269
6.5.3 Нахождение оптимальной модели при помощи методов проверочной выборки и перекрестной проверки ......Page 270
6.6 Лабораторная работа 2: гребневая регрессия и лассо ......Page 273
6.6.1 Гребневая регрессия ......Page 274
6.6.2 Лассо ......Page 277
6.7.1 Регрессия на главные компоненты ......Page 279
6.7.2 Регрессия по методу частных наименьших квадратов ......Page 281
6.8 Упражнения ......Page 282
7 Выходя за пределы линейности ......Page 289
7.1 Полиномиальная регрессия ......Page 290
7.2 Ступенчатые функции ......Page 292
7.3 Базисные функции ......Page 294
7.4.1 Кусочно-полиномиальная регрессия ......Page 295
7.4.2 Ограничения и сплайны ......Page 296
7.4.3 Представление сплайнов с помощью базисных функций ......Page 297
7.4.4 Выбор числа и расположения узлов ......Page 299
7.4.5 Сравнение с полиномиальной регрессией ......Page 300
7.5.1 Общее представление о сглаживающих сплайнах ......Page 301
7.5.2 Нахождение параметра сглаживания Л ......Page 303
7.6 Локальная регрессия ......Page 305
7.7.1 GAM для регрессионных задач ......Page 308
7.7.2 GAM для задач классификации ......Page 312
7.8 Лабораторная работа: нелинейные модели ......Page 313
7.8.1 Полиномиальная регрессия и ступенчатые функции ......Page 314
7.8.2 Сплайны ......Page 319
7.8.3 GAM ......Page 320
7.9 Упражнения ......Page 323
8.1 Деревья решений: основные понятия ......Page 329
8.1.1 Регрессионные деревья ......Page 330
8.1.2 Деревья классификации ......Page 338
8.1.3 Сравнение деревьев с линейными моделями ......Page 340
8.1.4 Преимущества и недостатки деревьев решений ......Page 342
8.2.1 Бэггинг ......Page 343
8.2.2 Случайные леса ......Page 348
8.2.3 Бустинг ......Page 350
8.3.1 Построение деревьев классификации ......Page 352
8.3.2 Построение регрессионных деревьев ......Page 356
8.3.3 Бэггинг и случайные леса ......Page 357
8.3.4 Бустинг ......Page 359
8.4 Упражнения ......Page 360
9.1 Классификатор с максимальным зазором ......Page 365
9.1.2 Классификация с использованием гиперплоскости ......Page 366
9.1.3 Классификатор с максимальным зазором ......Page 369
9.1.5 Случай, когда разделяющая гиперплоскость не существует ......Page 371
9.2.1 Общие представления о классификаторах на опорных векторах ......Page 372
9.2.2 Более подробное описание классификатора на опорных векторах ......Page 375
9.3.1 Классификация с использованием нелинейных решающих границ ......Page 378
9.3.2 Машина опорных векторов ......Page 379
9.3.3 Применение к данным по нарушению сердечной функции ......Page 383
9.4 Машины опорных векторов для случаев с несколькими классами ......Page 384
9.5 Связь с логистической регрессией ......Page 385
9.6.1 Классификатор на опорных векторах ......Page 388
9.6.2 Машина опорных векторов ......Page 392
9.6.3 ROC-кривые ......Page 394
9.6.5 Применение к данным по экспрессии генов ......Page 396
9.7 Упражнения ......Page 398
10.1 Трудность обучения без учителя ......Page 403
10.2 Анализ главных компонент ......Page 404
10.2.1 Что представляют собой главные компоненты? ......Page 405
10.2.2 Альтернативная интерпретация главных компонент ......Page 409
10.2.3 Дополнительный материал по РСА ......Page 410
10.3 Методы кластеризации ......Page 415
10.3.1 Кластеризация по методу К средних ......Page 416
10.3.2 Иерархическая кластеризация ......Page 419
10.3.3 Практические аспекты применения кластеризации ......Page 430
10.4 Лабораторная работа 1: анализ главных компонент ......Page 433
10.5.1 Кластеризация по методу К средних ......Page 435
10.5.2 Иерархическая кластеризация ......Page 437
10.6 Лабораторная работа 3: анализ данных NCI60 ......Page 439
10.6.1 Применение РСА к данным NCI60 ......Page 440
10.6.2 Кластеризация наблюдений из набора данных NCI60 ......Page 442
10.7 Упражнения ......Page 445