Наука о данных: учебный курс

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Для того чтобы понять мир, необходимо собрать и проанализировать данные о нем. Объединение последних технологических тенденций предоставляет новые возможности для применения анализа данных к более сложным задачам, чем когда-либо прежде. Емкость компьютерных хранилищ увеличивается экспоненциально; хранение данных сейчас стало настолько дешевым, что компьютерным системам почти невозможно ничего забыть. Сенсорные устройства все шире и шире контролируют все, за чем только можно наблюдать: потоки видео, действия в социальных сетях и местоположение всего, что перемещается. Сетевая вычислительная среда позволяет использовать огромные количества машин для манипулирования этими данными. Каждый раз, когда вы осуществляете поиск в Google, задействуются сотни компьютеров, тщательно исследующие все ваши предыдущие действия, только для того, чтобы решить, какая реклама является наилучшей для демонстрации именно вам. Результатом всего этого стало рождение науки о данных — новой области, посвященной максимизации значения обширных коллекций информации. Как дисциплина, наука о данных находится где-то на пересечении статистики, информатики и машинного обучения, но стоит она отдельно, как самостоятельный персонаж. Эта книга служит введением в науку о данных, сосредоточиваясь на навыках и принципах, необходимых для построения систем, предназначенных для анализа и интерпретации данных.

Author(s): Скиена Стивен
Publisher: Диалектика
Year: 2020

Language: Russian
Pages: 546
City: СПб.

Введение
Для кого написана эта книга
Для преподавателей
Посвящение
Благодарности
Предупреждения
Ждем ваших отзывов!
Глава 1. Что такое наука о данных?
1.1. Информатика, наука о данных и реальная наука
1.2. Формирование интересных вопросов для данных
1.2.1. Бейсбольная энциклопедия
1.2.2. Интернет-база кинофильмов (IMDb)
1.2.3. N-граммы Google
1.2.4. Записи нью-йоркских такси
1.3. Свойства данных
1.3.1. Структурированные или неструктурированные данные
1.3.2. Количественные данные или качественные
1.3.3. Большие данные или небольшие
1.4. Классификация и регрессия
1.5. Видеоматериал: ꐀe Quant Shop
1.5.1. Конкурсы Kaggle
1.6. О случаях из жизни
1.7. Случай из жизни: ответ на правильный вопрос
1.8. Дополнительная информация
1.9. Упражнения
Глава 2. Математические основы
2.1. Вероятность
2.1.1. Вероятность против статистики
2.1.2. Составные события и независимость
2.1.3. Условная вероятность
2.2. Описательная статистика
2.2.1. Поиск центра
2.2.2. Поиск дисперсии
2.2.3. Интерпретация дисперсии
2.2.4. Характеристика распределений
2.3. Корреляционный анализ
2.3.1. Коэффициенты корреляции Пирсона и Спирмена
2.3.2. Сила и значение корреляции
2.3.3. Корреляция не означает причину!
2.3.4. Обнаружение автокорреляцией периодичности
2.4. Логарифмы
2.4.1. Логарифмы и умножение вероятностей
2.4.2. Логарифмы и соотношения
2.4.3. Логарифмы и нормализация асимметричных распределений
2.5. Случай из жизни: поиск дизайнерских генов
2.6. Дополнительная информация
2.7. Упражнения
Глава 3. Манипулирование данными
3.1. Языки для науки о данных
3.1.1. Важность окружения интерактивной оболочки
3.1.2. Стандартные форматы данных
3.2. Сбор данных
3.2.1. Охота на данные
3.2.2. Скрепинг данных
3.2.3. Регистрация
3.3. Очистка данных
3.3.1. Ошибки против артефактов
3.3.2. Совместимость данных
3.3.3. Как справиться с отсутствующими значениями
3.3.4. Обнаружение выброса
3.4. Случай из жизни: игры на фондовом рынке
3.5. Краудсорсинг
3.5.1. Демонстрация пенсов
3.5.2. Когда толпа проявляет мудрость?
3.5.3. Механизмы объединения
3.5.4. Службы краудсорсинга
3.5.5. Игрофикация
3.6. Дополнительная информация
3.7. Упражнения
Глава 4. Оценки и ранги
4.1. Индекс массы тела (BMI)
4.2. Разработка систем оценки
4.2.1. Золотые стандарты и прокси
4.2.2. Оценки или ранги
4.2.3. Выявление хороших функций оценки
4.3. Z-оценки и нормализация
4.4. Передовые методы ранжирования
4.4.1. Рейтинг Эло
4.4.2. Слияние рейтингов
4.4.3. Рейтинг на основе диграфа
4.4.4. Алгоритм PageRank
4.5. Случай из жизни: месть Клайда
4.6. Теорема Эрроу о невозможности
4.7. Случай из жизни: кто больше?
4.8. Дополнительная информация
4.9. Упражнения
Глава 5. Статистический анализ
5.1. Статистические распределения
5.1.1. Биномиальное распределение
5.1.2. Нормальное распределение
5.1.3. Значения нормального распределения
5.1.4. Распределение Пуассона
5.1.5. Распределение по степенному закону
5.2. Выборка из распределений
5.2.1. Случайная выборка вне одного измерения
5.3. Статистическая значимость
5.3.1. Значение значимости
5.3.2. T-критерий: сравнение средних значений совокупностей
5.3.3. Критерий Колмогорова–Смирнова
5.3.4. Поправка Бонферрони
5.3.5. Частота ложных открытий
5.4. Случай из жизни: поиск фонтана молодости
5.5. Критерии перестановки и p-значения
5.5.1. Создание случайных перестановок
5.5.2. Страйк хитов Ди Маджо
5.6. Байесовский вывод
5.7. Дополнительная информация
5.8. Упражнения
Глава 6. Визуализация данных
6.1. Исследовательский анализ данных
6.1.1. Противостояние новому набору данных
6.1.3. Инструменты визуализации
6.2. Выработка эстетики визуализации
6.2.1. Максимизация соотношения данных и чернил
6.2.2. Минимизация фактора лжи
6.2.3. Минимизация неинформативных элементов
6.2.4. Правильные масштабы и ясные маркеры
6.2.5. Эффективное использование цвета
6.2.6. Сила повторения
6.3. Типы диаграмм
6.3.1. Табличные данные
6.3.2. Точечные и линейные графики
6.3.3. Диаграммы рассеяния
6.3.4. Гистограммы и круговые диаграммы
6.3.5. Гистограммы
6.3.6. Карты данных
6.4. Примеры правильной визуализации
6.4.1. Расписание поездов Маре
6.4.2. Карта распространения холеры Сноу
6.4.3. Карта погоды в Нью-Йорке
6.5. Чтение графиков
6.5.1. Сокрытие распределения
6.5.2. Переинтерпретация дисперсии
6.6. Интерактивная визуализация
6.7. Случай из жизни: текстовая карта мира
6.8. Дополнительная информация
6.9. Упражнения
Глава 7. Математические модели
7.1. Философия моделирования
7.1.1. Бритва Оккама
7.1.2. Дилемма смещения-дисперсии
7.1.3. Что бы сделал Нейт Силвер?
7.2. Классификация моделей
7.2.1. Линейные модели против нелинейных
7.2.2. Черные ящики против описательных моделей
7.2.3. Модели первого принципа против моделей управляемых данными
7.2.4. Стохастические модели против детерминированных
7.2.5. Плоские модели против иерархических
7.3. Базовые модели
7.3.1. Базовые модели для классификации
7.3.2. Базовые модели для прогнозирования значения
7.4. Оценка моделей
7.4.1. Оценка классификаторов
7.4.2. Кривые рабочей характеристики приемника (ROC)
7.4.3. Оценка мультиклассовых систем
7.4.4. Оценка моделей прогнозирования значений
7.5. Оценка среды
7.5.1. Гигиена данных для оценки
7.5.2. Усиление малых оценочных наборов
7.6. Случай из жизни: 100% корректности
7.7. Имитационные модели
7.8. Случай из жизни: вычисление ставок
7.9. Дополнительная информация
7.10. Упражнения
Глава 8. Линейная алгебра
8.1. Сила линейной алгебры
8.1.1. Интерпретация линейных алгебраических формул
8.1.2. Геометрия и векторы
8.2. Визуализация матричных операций
8.2.1. Сложение матриц
8.2.2. Умножение матриц
8.2.3. Применение матричного умножения
8.2.4. Единичные матрицы и инверсия
8.2.5. Инверсия матриц и линейные системы
8.2.6. Ранг матриц
8.3. Разложение матриц
8.3.1. Разложение матрицы признаков
8.3.2. Разложение LU матрицы и детерминанты
8.4. Собственные значения и собственные векторы
8.4.1. Свойства собственных значений
8.4.2. Вычисление собственных значений
8.5. Разложение по собственным значениям
8.5.1. Разложение по сингулярному значению
8.5.2. Анализ основных компонентов
8.6. Случай из жизни: человеческий фактор
8.7. Дополнительная информация
8.8. Упражнения
Глава 9. Линейная и логистическая регрессии
9.1. Линейная регрессия
9.1.1. Линейная регрессия и двойственность
9.1.2. Ошибка в линейной регрессии
9.1.3. Нахождение оптимального соответствия
9.2. Лучшие регрессионные модели
9.2.1. Удаление выбросов
9.2.2. Поиск соответствия нелинейных функций
9.2.3. Функция и целевое масштабирование
9.2.4. Работа с сильно коррелирующими признаками
9.3. Случай из жизни: водитель такси
9.4. Регрессия как подбор параметров
9.4.1. Выпуклые пространства параметров
9.4.2. Поиск с градиентным спуском
9.4.3. Какова правильная скорость обучения?
9.4.4. Стохастический градиентный спуск
9.5. Упрощение моделей с помощью регуляризации
9.5.1. Гребневая регрессия
9.5.2. Регрессия LASSO
9.5.3. Компромисс между точностью соответствия и сложностью
9.6. Классификация и логистическая регрессия
9.6.1. Регрессия для классификации
9.6.2. Границы принятия решений
9.6.3. Логистическая регрессия
9.7. Проблемы логистической классификации
9.7.1. Сбалансированные учебные классы
9.7.2. Мультиклассовая классификация
9.7.3. Иерархическая классификация
9.7.4. Функции разбиения и полиномиальная регрессия
9.8. Дополнительная информация
9.9. Упражнения
Глава 10. Методы измерения расстояний и сетей
10.1. Измерение расстояний
10.1.1. Метрики расстояния
10.1.2. Метрика расстояния Lk
10.1.3. Работа в более высоких размерностях
10.1.4. Размерный эгалитаризм
10.1.5. Точки или векторы
10.1.6. Расстояния между вероятностными распределениями
10.2. Классификация ближайших соседей
10.2.1. В поисках хороших аналогий
10.2.2. k ближайших соседей
10.2.3. Поиск ближайших соседей
10.2.4. Локальное хеширование
10.3. Графы, сети и расстояния
10.3.1. Взвешенные графы и индуцированные сети
10.3.2. Классификация графов
10.3.3. Теория графов
10.4. PageRank
10.5. Кластеризация
10.5.1. Кластеризация методом k-средних
10.5.2. Агломерационная кластеризация
10.5.3. Сравнение кластеров
10.5.4. Подобие графов и кластеризация на основе сегментации
10.6. Случай из жизни: кластерная бомбардировка
10.7. Дополнительная информация
10.8. Упражнения
Глава 11. Машинное обучение
11.1. Наивный байесовский классификатор
11.1.1. Формулировка
11.1.2. Как справиться с нулевым счетом (дисконтирование)
11.2. Классификаторы дерева решений
11.2.1. Построение деревьев решений
11.2.2. Реализация исключающего ИЛИ
11.2.3. Ансамбли деревьев решений
11.3. Бустинг и ансамблевое обучение
11.3.1. Голосование с классификаторами
11.3.2. Алгоритмы бустинга
11.4. Метод опорных векторов
11.4.1. Линейные SVM
11.4.2. Нелинейные SVM
11.4.3. Ядра
11.5. Степени контроля
11.5.1. Обучение с учителем
11.5.2. Обучение без учителя
11.5.3. Обучение с частичным привлечением учителя
11.5.4. Проектирование признаков
11.6. Глубокое обучение
11.6.1. Сети и глубина
11.6.2. Обратное распространение
11.6.3. Векторное представление слов и графов
11.7. Случай из жизни: игра имен
11.8. Дополнительная информация
11.9. Упражнения
Глава 12. Большие данные: достижение крупного масштаба
12.1. Что такое большие данные?
12.1.1. Большие данные — плохие данные
12.1.2. Три V
12.2. Случай из жизни: вопросы инфраструктуры
12.3. Алгоритмы для больших данных
12.3.1. Анализ большого О
12.3.2. Хеширование
12.3.3. Использование иерархии хранилищ
12.3.4. Потоковые и однопроходные алгоритмы
12.4. Фильтрация и выборка
12.4.1. Детерминированные алгоритмы выборки
12.4.2. Случайная и потоковая выборка
12.5. Параллелизм
12.5.1. Один, два, много
12.5.2. Параллелизм данных
12.5.3. Сеточный поиск
12.5.4. Службы облачных вычислений
12.6. MapReduce
12.6.1. Программирование MapReduce
12.6.2. MapReduce под капотом
12.7. Социальные и этические последствия
12.8. Дополнительная информация
12.9. Упражнения
Глава 13. Заключение
13.1. Получить работу!
13.2. Пойти в аспирантуру!
13.3. Профессиональные консалтинговые услуги
Глава 14. Список литературы
Предметный указатель