Building Batch Data Pipelines on GCP en Español

  • 0.0
Approx. 13 hours to complete

Course Summary

Learn how to build batch data pipelines using Google Cloud Platform's data processing technologies in this course. You'll gain hands-on experience with tools like Dataflow, BigQuery, and Dataproc to design and deploy efficient data pipelines.

Key Learning Points

  • Design and build batch data pipelines using GCP technologies
  • Learn how to use Dataflow, BigQuery, and Dataproc for data processing
  • Gain practical experience through hands-on labs and real-world projects

Job Positions & Salaries of people who have taken this course might have

    • USA: $91,000 - $142,000
    • India: ₹5,00,000 - ₹22,00,000
    • Spain: €30,000 - €50,000
    • USA: $91,000 - $142,000
    • India: ₹5,00,000 - ₹22,00,000
    • Spain: €30,000 - €50,000

    • USA: $110,000 - $160,000
    • India: ₹6,50,000 - ₹25,00,000
    • Spain: €35,000 - €55,000
    • USA: $91,000 - $142,000
    • India: ₹5,00,000 - ₹22,00,000
    • Spain: €30,000 - €50,000

    • USA: $110,000 - $160,000
    • India: ₹6,50,000 - ₹25,00,000
    • Spain: €35,000 - €55,000

    • USA: $85,000 - $130,000
    • India: ₹4,50,000 - ₹20,00,000
    • Spain: €25,000 - €45,000

Related Topics for further study


Learning Outcomes

  • Design and build efficient batch data pipelines
  • Deploy and manage data processing technologies on GCP
  • Gain practical experience through real-world projects

Prerequisites or good to have knowledge before taking this course

  • Basic understanding of data processing concepts
  • Familiarity with GCP or similar cloud platforms

Course Difficulty Level

Intermediate

Course Format

  • Self-paced
  • Online
  • Hands-on Labs

Similar Courses

  • Data Engineering with Google Cloud
  • Google Cloud Platform Big Data and Machine Learning Fundamentals
  • Dataflow Programming

Related Education Paths


Related Books

Description

Por lo general, la canalización de datos se clasifica en uno de los siguientes paradigmas: Extraer-cargar, Extraer-cargar-transformar o Extraer-transformar-cargar. En este curso, se describe cuál es el paradigma que se debe usar y en qué momento usarlo para los datos por lotes. Además, en este curso, se presentan diferentes tecnologías de Google Cloud Platform para la transformación de datos, entre las que se incluyen BigQuery, la ejecución de Spark en Cloud Dataproc, los gráficos de canalización en Cloud Data Fusion y el procesamiento de datos sin servidores mediante Cloud Dataflow. Los participantes obtendrán experiencia práctica sobre cómo compilar los componentes de la canalización de datos en Google Cloud Platform mediante QwikLabs.

Outline

  • Introducción
  • Introducción al curso
  • Cómo comenzar a usar Google Cloud Platform y Qwiklabs
  • Introducción a las canalizaciones de datos por lotes
  • EL, ELT y ETL
  • Consideraciones sobre la calidad
  • Cómo realizar operaciones en BigQuery
  • Limitaciones
  • ETL para resolver problemas de calidad de los datos
  • EL, ELT, ETL
  • Cómo ejecutar Spark en Cloud Dataproc
  • El ecosistema de Hadoop
  • Cómo ejecutar Hadoop en Cloud Dataproc
  • GCS en lugar de HDFS
  • Cómo optimizar Dataproc
  • Cómo optimizar el almacenamiento de Dataproc
  • Cómo optimizar las plantillas y el ajuste de escala automático de Dataproc
  • Cómo optimizar la supervisión de Dataproc
  • Introducción al lab: Cómo ejecutar trabajos de Apache Spark en Cloud Dataproc
  • Resumen
  • Cómo ejecutar Spark en Cloud Dataproc
  • Administre canalizaciones de datos con Cloud Data Fusion y Cloud Composer
  • Introducción
  • Componentes de Data Fusion
  • Cómo compilar una canalización
  • Cómo explorar datos con Wrangler
  • Lab: Cómo compilar y ejecutar un gráfico de canalización en Cloud Data Fusion
  • Cómo organizar el trabajo entre los servicios de GCP con Cloud Composer
  • Entorno de Apache Airflow
  • DAG y operadores
  • Programación del flujo de trabajo
  • Supervisión y registro
  • Lab: Introducción a Cloud Composer
  • Cloud Data Fusion y Cloud Composer
  • Procesamiento de datos sin servidores con Cloud Dataflow
  • Cloud Dataflow
  • Por qué los clientes valoran Dataflow
  • Cómo compilar canalizaciones de Cloud Dataflow en el código
  • Consideraciones claves para el diseño de canalizaciones
  • Cómo transformar datos con PTransforms
  • Lab: Cómo compilar una canalización simple de Dataflow
  • Cómo agregar elementos con GroupByKey y Combine
  • Lab: MapReduce en Cloud Dataflow
  • Datos de entrada adicionales y ventanas de datos
  • Lab: Práctica con datos de entrada adicionales de la canalización
  • Cómo crear y reutilizar plantillas de canalización
  • Canalizaciones de Cloud Dataflow SQL
  • Procesamiento de datos con Cloud Dataflow
  • Resumen
  • Resumen del curso

Summary of User Reviews

Learn how to build efficient and scalable batch data pipelines on GCP with this course.

Key Aspect Users Liked About This Course

The course provides hands-on experience with real-world projects.

Pros from User Reviews

  • Great introduction to GCP data pipelines
  • Excellent hands-on experience with real-world projects
  • Instructor is knowledgeable and engaging

Cons from User Reviews

  • The course may be too basic for advanced users
  • Some sections feel rushed
  • Not enough emphasis on troubleshooting and debugging
Spanish
Available now
Approx. 13 hours to complete
Google Cloud Training
Google Cloud
Coursera
Share
Saved Course list
Cancel
Get Course Update
Computer Courses