Cet ouvrage s'adresse à tous ceux qui réfléchissent à la meilleure utilisation possible des données au sein de l'entreprise, qu'ils soient data scientists, DSI, chefs de projets ou spécialistes métier. Le Big Data s'est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l'exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ? Ce livre est un guide pour comprendre les enjeux d'un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d'un data lab. Il combine la présentation :de notions théoriques (traitement statistique des données, calcul distribué...) ; d'outils (écosystème Hadoop, Storm...) ; d'exemples de machine learning ; d'une organisation typique d'un projet de data science.
Author(s): Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli
Publisher: Dunod
Year: 2015
Language: French
Pages: 237
City: Paris, France
Préface
Table des matières
Avant-propos
I. Les fondements du Big Data
1. Les origines du Big Data
2. Le Big Data dans les organisations
3. Le mouvement NoSQL
4. L'algorithme MapReduce et le framework Hadoop
II. Le métier de data scientist
5. Le quotidien du data scientist
6. Exploration et préparation de données
7. Le machine learning
8. La visualisation des données
III. Les outils du Big Data
9. L'écosystème Hadoop
10. Analyse de logs avec Pig et Hive
11. Les architectures ?
12. Apache Storm
Index