课程概况
Ce cours intensif à la demande, d’une durée d’une semaine, présente aux participants les fonctionnalités de big data et de machine learning de Google Cloud Platform (GCP). Il présente rapidement Google Cloud Platform et explique plus en détail les fonctionnalités de traitement des données.
À l’issue de ce cours, les participants sauront :
• identifier l’objectif et la valeur des principaux produits de big data et de machine learning de Google Cloud Platform ;
• utiliser CloudSQL et Cloud Dataproc pour transférer les charges de travail MySQL et Hadoop/Pig/Spark/Hive vers Google Cloud Platform ;
• utiliser BigQuery et Cloud Datalab pour réaliser des analyses de données interactives ;
• choisir entre Cloud SQL, BigTable et Datastore ;
• entraîner et exploiter un réseau de neurones avec TensorFlow ;
• choisir entre différentes solutions de traitement des données de Google Cloud Platform.
Pour s’inscrire à ce cours, les participants doivent pouvoir témoigner d’une expérience d’environ un (1) an dans au moins l’une des disciplines suivantes :
• Un langage de requête courant tel que SQL
• L’extraction, la transformation, le chargement de données
• La modélisation de données
• Le machine learning et/ou les statistiques
• La programmation Python
Remarque concernant les comptes Google :
• Pour le moment, les services Google ne sont pas disponibles en Chine.
课程大纲
Ingénierie des données, big data et machine learning sur GCP
Bienvenue dans ce cours consacré aux principes de base du big data et du machine learning dans GCP. Vous allez avoir un aperçu de la structure du cours et découvrir les quatre difficultés du big data à surmonter.
Recommander des produits avec Cloud SQL et Spark
Dans ce module, vous disposerez d'un modèle de recommandation Apache SparkML exécuté sur site. Vous allez enrichir vos connaissances sur les modèles de recommandation et apprendre à les exécuter dans le cloud avec Cloud Dataproc et Cloud SQL.
Prédire les achats des visiteurs avec BigQuery ML
Dans ce module, vous allez découvrir les principes fondamentaux de BigQuery et de l'analyse big data à grande échelle. Vous apprendrez ensuite à concevoir votre propre modèle de machine learning personnalisé afin de prédire les achats des clients en utilisant uniquement SQL associé à BigQuery ML.
Créer des pipelines de flux de données avec Cloud Pub/Sub et Cloud Dataflow
Dans ce module, vous allez imaginer et créer un pipeline de flux de données en autoscaling afin d'ingérer, de traiter et de visualiser des données sur un tableau de bord. Avant de mettre au point votre pipeline, vous apprendrez les principes fondamentaux de l'architecture de messagerie et les pièges à éviter lors de la conception et de la mise en œuvre de pipelines de données modernes.
Classifier des images avec des modèles prédéfinis à l'aide de l'API Vision et de Cloud AutoML
Vous n'avez pas envie de créer un modèle de ML personnalisé en partant de zéro ? Découvrez comment exploiter et développer des modèles de ML prédéfinis tels que l'API Vision et Cloud AutoML pour classifier des images.
Résumé
Dans ce dernier module, nous allons passer en revue les difficultés, solutions et sujets essentiels abordés dans ce cours fondamental. Nous allons aussi examiner des ressources supplémentaires et vous présenter la démarche à suivre pour obtenir la certification Google Cloud Data Engineer.