Эффективный Spark. Масштабирование и оптимизация

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Если у вас уже есть положительный опыт использования Spark для решения небольших задач, но вы по-прежнему ломаете голову — где та самая непревзойденная производительность Spark, позволяющая перемалывать колоссальные объемы данных, — то эта книга для вас. Она расскажет, как эффективно использовать Spark для укрощения больших данных и вырасти из новичка в специалиста. Идеально подходит для программистов, инженеров по работе с данными, системных администраторов, обслуживающих крупномасштабные приложения.

Author(s): Холден Карау, Рейчел Уоррен
Series: Бестселлеры O’Reilly
Edition: 1
Publisher: Питер
Year: 2018

Language: Russian
Commentary: True PDF
Pages: 352
City: СПб.
Tags: Apache Spark; Spark ML; Scala; Spark DataFrames; High Performance; PySpark; Spark GraphX; Spark SQL; Spark MLlib; Testing

Предисловие 14
Глава 1. Введение в эффективный Spark 19
Глава 2. Как работает Spark 25
Глава 3. Наборы DataFrame/Dataset и Spark SQL 46
Глава 4. Соединения (SQL и Core) 95
Глава 5. Эффективные преобразования 107
Глава 6. Работа с данными типа «ключ — значение» 149
Глава 7. Выходим за рамки Scala 201
Глава 8. Тестирование и валидация 228
Глава 9. Spark MLlib и ML 246
Глава 10. Компоненты и пакеты фреймворка Spark 280
Приложение. Тонкая настройка, отладка и другие аспекты, обычно игнорируемые разработчиками 301