Современный мир невозможно представить без данных, и от их визуального представления во многом зависит эффективность работы с ними. Средств анализа и визуализации данных великое множество, и в этой книге мы подробно поговорим об одном из них – Yandex DataLens.
Читая эту книгу, вы совершите увлекательный путь от самых азов до вершин мастерства в обращении с этим мощнейшим облачным инструментом. Мы вместе построим несколько красочных дашбордов, а помимо этого вы узнаете все о подключениях, датасетах, чартах, функциях, включая оконные, и LOD-выражениях.
Издание будет полезно тем, кто хочет освоить искусство визуализации данных с нуля, а также тем, кто уже имеет опыт работы с Yandex DataLens и желает расширить свои знания и навыки.
Author(s): Александр Юрьевич Гинько
Publisher: ДМК Пресс
Year: 2023
Language: Russian
Pages: 356
City: М.
Tags: bi
Оглавление
Предисловие от издательства
Об авторе
Предисловие
Введение
Цель написания книги
Для кого предназначена эта книга
Структура книги
Сопроводительные материалы и исходные файлы
Глава 1. Основы Yandex DataLens
История DataLens: от корпоративной системы к массовому селф-сервису
Причины перехода на Yandex DataLens
Облачное хранение данных
Как устроено облако
Модели предоставления облачных услуг
С места в карьер: строим первый дашборд
Загрузка компонентов из Marketplace
Добавление продукта из Marketplace
Удаление продукта, добавленного из Marketplace
Интерфейс и терминология Yandex DataLens
Мой первый дашборд
Подключение к источнику
Описание модели данных
Создание чартов
Создание дашборда
Добавление вкладок
Добавление селекторов
Настройка связей
Добавление текстовых полей
Публикация дашборда
Заключение
Глава 2. Подключение к данным
Организация хранения данных
Собственные сервера
Облако
Управляемые БД против виртуальной машины
Первоначальная установка и настройка
Поддержка
Отказоустойчивость и масштабируемость
Доступность БД
Создание кластера базы данных MySQL
Подключение к базам данных
Подключение к базе данных на примере MySQL
Подключение к управляемой БД
Подключение к БД вручную
Особенности подключения к другим БД
ClickHouse
PostgreSQL
MS SQL Server и Oracle Database
Подключение к CSV-файлам, Google Sheets и Excel
Подключение к CSV-файлам
Подключение к Google Sheets
Загрузка данных из Excel
Подключение к Яндекс Метрика и AppMetrica
Яндекс Метрика
AppMetrica
Права доступа к подключениям
Заключение
Глава 3. Подготовка данных: датасеты
Введение в датасеты
Создание датасета
Объединение данных из нескольких таблиц
Поля данных
Создание поля данных
Удаление поля данных
Изменение поля данных
Дублирование поля данных
Обновление полей в датасете
Запись формул в вычисляемых полях
Типы данных
Типы данных в Yandex DataLens
Таблица соответствий типов данных
Типы агрегации данных
Параметры уровня датасета
Фильтрация датасета
Создание фильтра
Изменение и удаление фильтра
Управление доступом к датасету и строкам
Права доступа ко всему датасету
Права доступа к данным на уровне строк
Права доступа к данным в датасете
Права доступа к данным в источнике
Датасеты на основе SQL-запросов
Заключение
Глава 4. Элементы визуализации: чарты
Чарты на основе датасета
Создание чарта на основе датасета
Разновидности чартов
Линейная диаграмма
Создание линейной диаграммы
Линейная диаграмма с двумя осями
Накопительная диаграмма с областями
Нормированная диаграмма с областями
Столбчатая диаграмма
Нормированная столбчатая диаграмма
Линейчатая диаграмма
Нормированная линейчатая диаграмма
Точечная диаграмма
Круговая диаграмма
Кольцевая диаграмма
Индикатор
Условный индикатор
Древовидная диаграмма
Таблица
Сводная таблица
Карта
QL-чарты
Создание QL-чарта
Добавление параметров в QL-чарт
Настройки чартов
Общие настройки
Настройки измерений и показателей
Настройки измерений
Настройки показателей
Настройки секций
Оси
Цвета
Настройки секций на карте
Слои на карте
Размер точек
Параметры уровня чарта
Иерархии в чартах
Диагностика чартов
Публикация чартов
Встраивание чартов
Управление доступом к чарту
Заключение
Глава 5. Панели визуализации: дашборды
Составляющие дашборда
Наш первый осмысленный дашборд
Создание дашборда
Добавление чартов на дашборд
Создание вкладок
Добавление селекторов на дашборд
Связи и алиасы
Добавление чартов из других датасетов
Текстовые виджеты и язык разметки Markdown
Язык разметки Markdown
Добавление виджета с заголовком
Настройки дашборда
Публикация дашборда
Управление доступом к дашборду
Примеры дашбордов
Заключение
Глава 6. Стандартные функции и примеры их использования
Агрегатные функции
Прямая агрегация
SUM, AVG
Пример использования функций SUM и AVG
COUNT, COUNTD
Пример использования функций COUNT и COUNTD
Условная агрегация
SUM_IF, AVG_IF
Пример использования функций SUM_IF и AVG_IF
COUNT_IF, COUNTD_IF
Пример использования функции COUNTD_IF
Статистическая агрегация
MAX, MIN
MEDIAN
QUANTILE
STDEV, STDEVP
VAR, VARP
ANY
ARG_MAX, ARG_MIN
Приблизительная агрегация
COUNTD_APPROX, QUANTILE_APPROX
Строковая агрегация
ALL_CONCAT
TOP_CONCAT
Логические функции
CASE
IF
IFNULL
ISNULL
ZN
Операторы
Математические операторы
Логические операторы
Операторы соединения
AND
OR
NOT
Операторы сравнения
IN, BETWEEN
LIKE
IS FALSE, IS TRUE
Математические функции
Функции округления
Функции сравнения
Арифметические функции
Тригонометрические функции
Строковые функции
Функции поиска в строке
CONTAINS
STARTSWITH, ENDSWITH
FIND
LEN
LEFT, RIGHT, SUBSTR
SPLIT
Функции строковых преобразований
CONCAT
ASCII, CHAR
LOWER, UPPER
LTRIM, RTRIM, TRIM
REPLACE
SPACE
UTF8
Функции для работы с регулярными выражениями
REGEXP_EXTRACT и REGEXP_EXTRACT_NTH
REGEXP_MATCH
REGEXP_REPLACE
Функции преобразования типов
INT, STR, FLOAT, BOOL
DATE, DATE_PARSE
DATETIME, DATETIME_PARSE
DB_CAST
GEOPOINT, GEOPOLYGON
Функции даты и времени
Функции работы с датами
TODAY, NOW
DATEADD
DATETRUNC, DATEPART
Функции возвращения части даты
Функции для работы с временными рядами
BEFORE FILTER BY и IGNORE DIMENSIONS
Функции для работы с массивами
Функции разметки
Географические функции
Заключение
Глава 7. Оконные функции и LOD-выражения
Оконные функции
Агрегатные оконные функции
Обычные и условные агрегатные оконные функции
Параметры группировки
Обычные агрегатные оконные функции
AVG
SUM
COUNT
MAX, MIN
Условные агрегатные оконные функции
AVG_IF
SUM_IF
COUNT_IF
Агрегатные M-функции
MAVG
MSUM
MCOUNT
MMAX, MMIN
Агрегатные R-функции
RSUM
RAVG
RCOUNT
RMAX, RMIN
Оконные функции смещения
FIRST
LAST
LAG
Ранжирующие оконные функции
RANK
RANK_DENSE
RANK_UNIQUE
RANK_PERCENTILE
Ранжирующие оконные функции на диаграммах
Вложенные оконные функции
BEFORE FILTER BY
Собираем дашборд-шпаргалку по оконным функциям
LOD-выражения
Фиксированный уровень детализации
Добавление уровней детализации
Исключение уровней детализации
Собираем дашборд-шпаргалку по LOD-выражениям
Заключение
Глава 8. Инструменты ETL и обработка данных с помощью Python и машинного обучения
Инструменты и технологии ETL
Пример 1. Из базы в базу с очисткой и агрегацией
Импортирование необходимых пакетов
Подключение к базам данных источника и назначения
Извлечение данных из источника при помощи запроса SQL
Преобразование данных
Загрузка обработанных данных в базу данных назначения
Установка флага о переносе данных в базе источника
Пример 2. Поиск ближайших магазинов на карте Москвы
Импортирование необходимых пакетов
Подключение к базе данных
Запрос координат с клавиатуры
Извлечение данных из источника при помощи запроса SQL и сохранение в датафрейм
Добавление в датафрейм строки с нашим магазином
Добавление в датафрейм столбца с расстояниями между точками
Сохранение данных в файле CSV
Обработка данных с применением машинного обучения
Пример 1. Прогнозирование на основе линейной регрессии
Подготовка данных
Импортирование необходимых пакетов
Загрузка данных из файла CSV
Достраивание датафрейма
Подготовка данных для обучения модели
Создание и обучение модели
Вычисление линии тренда за прошедший период
Подготовка данных для прогнозирования
Прогнозирование
Вставка прогнозных данных в датафрейм
Установка значения поля isPredict
Сохранение данных в файле CSV
Визуализация в Yandex DataLens
Пример 2. Кластеризация магазинов методом k-средних
Подготовка данных
Импортирование необходимых пакетов
Подключение к базе данных MySQL
Загрузка данных о магазинах в датафрейм
Создание массива координат точек для дальнейшей их кластеризации
Определение оптимального количества кластеров
Построение модели с количеством кластеров от 2 до 8
Сохранение данных в файле CSV
Визуализация в Yandex DataLens
Заключение
Предметный указатель