Machine learning : les fondamentaux

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Author(s): Matt Harrison
Publisher: O'Reilly

Language: french

Couverture
Page de titre
Préface
Contenu du livre
À qui s'adresse ce livre
Conventions typographiques
Fichiers source des exemples
À propos de l'auteur
Terminologie française
Colophon
1. Introduction
Les librairies utilisées
Installation avec pip
Installation avec conda
2. Le processus de mécapprentissage
3. Classification avec les données Titanic
Suggestion de structure du projet
Collecte des données
Création de caractéristiques
Sélection d'un échantillon de données
Reformulation (refactor)
Familles d'algorithmes
Évaluation du modèle
4. Données manquantes
Étude des manquants
Abandon des données manquantes
Imputation de données
Ajout de colonnes indicatrices
5. Nettoyage des données
Renommage des colonnes
Remplacement des manquants
6. Exploration
Volumétrie des données
Statistiques globales
Histogrammes
Nuages de points
Nuages à ligne de régression (joint plot)
Grille de paires
Boîtes à moustaches et boîtes violon
Comparaison de deux valeurs ordinales
Corrélations
RadViz
Coordonnées parallèles
7. Prétraitement des données
Standardisation
Confinement (scale to range)
Variables factices (dummy)
Encodage de labels
Encodage fréquentiel
Des catégories à partir des chaînes
Autres encodages catégoriels
Caractéristiques temporelles
Ajout d'une caractéristique col_na
Création manuelle de caractéristiques
8. Sélection de caractéristiques
Colonnes colinéaires
Régression lasso
Élimination récursive de caractéristiques
Informations mutuelles
Analyse par composantes principales PCA
Importance des caractéristiques
9. Classes non équilibrées
Changement de métrique
Algorithmes arborescents et ensembles
Pénalisation du modèle
Suréchantillonnage des minoritaires
Génération de données minoritaires
Sous-échantillonnage des majoritaires
Sur échantillonnage puis sous-échantillonnage
10. Classification
Régression logistique
Bayésien naïf
Machine à vecteurs de support (SVM)
K-plus proches voisins (KNN)
Arbre de décision
Forêt aléatoire
XGBoost
Gradient Boosted avec LightGBM
TPOT
11. Sélection de modèle
Courbe de validation
Courbe d'apprentissage
12. Métriques et évaluation des classifications
Matrices de confusion
Métriques
Exactitude (accuracy)
Rappel (recall)
Précision
f1
Rapports de classification
Courbe ROC
Courbe précision-rappel
Diagramme de gains cumulés
Courbe de surperformance (lift)
Équilibre des classes (balance)
Erreur de prédiction de classe
Seuil de discrimination
13. Explication des modèles
Coefficient de régression
Importance des caractéristiques
LIME
Interprétation d'un arbre
Diagrammes de dépendance partielle
Modèles substituts
Shapley
14. Régressions
Modèle de référence (baseline)
Régression linéaire
SVM
K-plus proches voisins (KNN)
Arbre de décision
Forêt aléatoire
Régression XGBoost
Régression LightGBM
15. Métriques et évaluation des régressions
Métriques
Diagrammes des résidus
Hétéroscédasticité
Résidus normaux
Diagramme d'erreur de prédiction
16. Explication des modèles de régression
Shapley
17. Réduction de la dimensionnalité
PCA
UMAP
t-SNE
PHATE
18. Regroupement (clustering)
K-moyennes
Regroupement agglomérant (hiérarchique)
Analyse des grappes
19. Pipelines
Pipeline de classification
Pipeline de régression
Pipeline PCA
Index