Конвейеры обработки данных управляют потоком данных с момента их первоначального сбора до консолидации, очистки, анализа, визуализации и многого другого. Apache Airflow предоставляет единую платформу, которую можно использовать для проектирования, реализации, мониторинга и обслуживания конвейеров. Простота пользовательского интерфейса, возможности plug-and-play и гибкие сценарии Python оптимизируют решение любых задач, касающихся управления данными.
Эта книга научит вас создавать и сопровождать эффективные конвейеры обработки данных. Вы изучите наиболее распространен-ные модели их использования, особенности ориентированных ациклических графов (ОАГ), которые обеспечивают работу Airflow, а также способы их настройки в соответствии с потребностями вашего конвейера.
Издание предназначено для специалистов по DevOps, обработке и хранению данных, машинному обучению, а также системных администраторов с навыками программирования на Python.
Author(s): Бас Харенслак, Джулиан де Руйтер
Publisher: ДМК Пресс
Year: 2021
Language: Russian
Pages: 502
1. Знакомство с Apache Airflow
2. Анатомия ОАГ
3. Планирование в Airflow
4. Создание шаблонов задач с использованием контекста Airflow
5. Определение зависимостей между задачами
6. Запуск рабочих процессов
7. Обмен данными с внешними системами
8. Создание пользовательских компонентов
9. Тестирование
10. Запуск задач в контейнерах
11. Лучшие практики
12. Эксплуатация Airflow в промышленном окружении
13. Безопасность в Airflow
14. Проект: поиск самого быстрого способа передвижения по Нью-Йорку
15. Airflow и облако
16. Airflow и AWS
17. Airflow и Azure
18. Airflow в GCP
Приложение A. Запуск примеров кода
Приложение В. Структуры пакетов Airflow 1 и 2
Приложение С. Сопоставление метрик в Prometheus