Building Batch Data Pipelines on GCP en Français

  • 0.0
Approx. 13 hours to complete

Description

En règle générale, les pipelines de données fonctionnent sur le modèle "Extraction et chargement" (EL), "Extraction, chargement et transformation" (ELT), ou "Extraction, transformation et chargement" (ETL). Dans ce cours, vous apprendrez où et quand appliquer ces différents modèles à des lots de données. Vous découvrirez également plusieurs technologies Google Cloud Platform permettant de transformer des données, y compris BigQuery, Spark exécuté sur Cloud Dataproc, les graphiques de pipelines dans Cloud Data Fusion et le traitement de données sans serveur avec Cloud Dataflow. Vous aurez en outre l'occasion de créer les composants d'un pipeline de données sur Google Cloud Platform dans le cadre d'un atelier pratique QwikLabs.

Outline

  • Introduction
  • Présentation du cours
  • Premiers pas avec Google Cloud Platform et Qwiklabs
  • Introduction aux pipelines de données par lots
  • EL, ELT et ETL
  • Considérations liées à la qualité
  • Comment réaliser des opérations dans BigQuery
  • Limitations
  • Processus ETL pour résoudre les problèmes liés à la qualité des données
  • EL, ELT et ETL
  • Exécuter Spark sur Cloud Dataproc
  • L'écosystème Hadoop
  • Exécuter Hadoop sur Cloud Dataproc
  • GCS au lieu de HDFS
  • Optimiser Dataproc
  • Optimiser le stockage Dataproc
  • Optimiser les modèles et l'autoscaling avec Dataproc
  • Optimiser la surveillance Dataproc
  • Présentation de l'atelier : Exécution de tâches Apache Spark sur Cloud Dataproc
  • Résumé
  • Exécuter Spark sur Cloud Dataproc
  • Gérer des pipelines de données avec Cloud Data Fusion et Cloud Composer
  • Introduction
  • Composants de Data Fusion
  • Créer un pipeline
  • Explorer des données avec Wrangler
  • Atelier : Créer et exécuter un graphique de pipeline dans Cloud Data Fusion
  • Organiser les tâches dans les services GCP avec Cloud Composer
  • Environnement Apache Airflow
  • DAG et opérateurs
  • Planification du workflow
  • Surveillance et journalisation
  • Atelier : Présentation de Cloud Composer
  • Cloud Data Fusion et Cloud Composer
  • Traiter des données sans serveur avec Cloud Dataflow
  • Cloud Dataflow
  • Pourquoi les clients apprécient Dataflow ?
  • Créer des pipelines Cloud Dataflow dans le code
  • Considérations à prendre en compte dans l'élaboration de pipelines
  • Transformer les données avec PTransforms
  • Atelier : Créer un pipeline Dataflow simple
  • Agréger avec GroupByKey et Combine
  • Atelier : MapReduce dans Cloud Dataflow
  • Entrées secondaires et fenêtres de données
  • Atelier : Utiliser les entrées secondaires de pipeline
  • Créer et réutiliser des modèles de pipeline
  • Pipelines Cloud Dataflow SQL
  • Traiter des données avec Cloud Dataflow
  • Résumé
  • Résumé du cours

Summary of User Reviews

This course on creating batch data pipelines on Google Cloud Platform has received positive reviews for its clear explanations and practical examples. Many users appreciated the hands-on experience of working with GCP tools and technologies.

Key Aspect Users Liked About This Course

Hands-on experience with GCP tools and technologies

Pros from User Reviews

  • Clear explanations of concepts and techniques
  • Practical examples and exercises for hands-on learning
  • Expert instructors with real-world experience
  • Useful tips and best practices for optimizing data pipelines
  • Great preparation for Google Cloud certification exams

Cons from User Reviews

  • Some users found the course material too basic or introductory
  • A few technical issues with labs or exercises
  • Limited coverage of certain GCP tools or services
  • Occasional pacing issues or unclear instructions
  • No direct interaction with instructors or other students
French
Available now
Approx. 13 hours to complete
Google Cloud Training
Google Cloud
Coursera
Share
Saved Course list
Cancel
Get Course Update
Computer Courses