GOOGLE CLOUD DATA ENGENEERING

Formador RH Bizz
Categorias Cloud, New, PRO
Estudantes 0 (Registered)

A formação Google Cloud Data Engineering prepara engenheiros de dados e profissionais técnicos para desenhar, implementar e operar pipelines de dados escaláveis no ecossistema do Google Cloud. Ao longo de 4 dias, os participantes aprendem a arquitetar sistemas de processamento de dados em lote e em tempo real, explorar BigQuery para análise de grandes volumes de dados, criar pipelines ELT e ETL com Dataflow, processar dados não estruturados com Spark no Dataproc e implementar streaming com Pub/Sub, BigTable e Dataflow. A formação aborda ainda automação, orquestração com Cloud Composer, gestão de metadados, data lakes e data warehouses, capacitando os participantes para construir soluções analíticas modernas, performantes e orientadas a negócios no Google Cloud.

Objetivos

Projetar e criar sistemas de processamento de dados no Google Cloud.
Processamento de dados em lote e em fluxo contínuo implementando pipelines de dados com escalonamento automático no Dataflow.
Extraia insights de negócios de conjuntos de dados muito grandes usando o BigQuery.
Aproveitando dados não estruturados usando Spark e APIs de aprendizado de máquina no Dataproc
Implemente análises instantâneas a partir de dados de streaming.

Duração

4 dias

Programa

Tarefas e componentes de engenharia de dados

• Explique o papel de um engenheiro de dados.
• Compreenda as diferenças entre uma fonte de dados e um receptor de dados.
• Explique os diferentes tipos de formatos de dados.
• Explique as opções de solução de armazenamento no Google Cloud.
• Saiba mais sobre as opções de gestão de metadados no Google Cloud.
• Compreenda como partilhar conjuntos de dados facilmente com o Analytics Hub.
• Compreenda como carregar dados no BigQuery utilizando o console do Google Cloud e/ou a CLI do gcloud.

Replicação e migração de dados

• Explique a arquitetura básica de replicação e migração de dados no Google Cloud.
• Compreenda as opções e casos de uso da ferramenta de linha de comando gcloud.
• Explique a funcionalidade e os casos de uso do serviço de transferência de armazenamento.
• Explique a funcionalidade e os casos de uso do dispositivo de transferência.
• Compreenda os recursos e a implementação do Datastream.

Modelo de pipeline de extração e carregamento de dados

• Explique o diagrama da arquitetura básica para extração e carregamento.
• Compreenda as opções da ferramenta de linha de comando bq.
• Explique a funcionalidade e os casos de uso do serviço de transferência de dados do BigQuery.
• Explique a funcionalidade e os casos de uso do BigLake como modelo de busca zero / busca.

O modelo de pipeline de dados para extração, carregamento e transformação

• Explique o esquema arquitetónico básico para extração, carregamento e transformação.
• Compreenda um pipeline ELT comum no Google Cloud.
• Saiba mais sobre os recursos de script SQL e agendamento do BigQuery.
• Explique a funcionalidade e os casos de uso do Dataform.

O modelo de pipeline de dados para extração, transformação e carregamento (ETL)

• Explique o diagrama de arquitetura básica para extração, transformação e carregamento (ETL).
• Saiba mais sobre as ferramentas de interface gráfica do Google Cloud utilizadas para pipelines de dados ETL.
• Explique o processamento de dados em lote com o Dataproc.
• Aprenda como usar o Dataproc sem servidor para Spark para ETL.
• Explique as opções para processamento de dados de fluxo contínuo.
• Explique o papel que o BigTable desempenha nos pipelines de dados.

Técnicas de automação

• Explique os modelos de automação e as opções disponíveis para pipelines.
• Saiba mais sobre o Agendador do Google e fluxos de trabalho.
• Saiba mais sobre o Cloud Composer.
• Saiba mais sobre os recursos do Cloud Run.
• Explique a funcionalidade e os casos de uso da automação no Eventarc.

Introdução à Engenharia de Dados

• Discutir os desafios da engenharia de dados e como a criação de pipelines de dados na nuvem ajuda a resolvê-los.
• Analise e compreenda a finalidade de um data lake em comparação com um data warehouse, e quando usar cada um deles.

Construindo um data lake

• Discutir por que o Cloud Storage é uma excelente opção para criar um data lake no Google Cloud.
• Explique como usar o Cloud SQL para um data lake relacional.

Construindo um data warehouse

• Discutir os requisitos de um armazém moderno.
• Explicar por que o BigQuery é a solução de armazenamento de dados escalável ideal no Google Cloud.
• Discutir os conceitos básicos do BigQuery e examinar as opções de carregamento de dados no BigQuery.

Introdução à criação de pipelines de dados em lote

• Analisar diferentes métodos para carregar dados nos seus data lakes e data warehouses:

• EL
• ELT
• ETL

Executar Spark no Dataproc

• Examinar o ecossistema Hadoop
• Discutir como migrar (lift and shift) as suas cargas de trabalho Hadoop existentes para a nuvem usando o Dataproc.
• Explicar quando usar o armazenamento em nuvem em vez do armazenamento HDFS.
• Explicar como otimizar as tarefas do Dataproc.

Processamento de dados sem servidor com o Dataflow

• Identificar os recursos mais apreciados pelos clientes no Dataflow.
• Discutir os conceitos básicos do fluxo de dados.
• Analisar a utilização dos modelos Dataflow e SQL.
• Criar um pipeline Dataflow simples e executá-lo localmente e na nuvem.
• Identificar as operações de Map e Reduce, executar o pipeline e utilizar os parâmetros da linha de comando.
• Ler dados do BigQuery para o Dataflow e usar a saída de um pipeline como entrada secundária para outro pipeline.

Gerenciando pipelines de dados com o Cloud Data Fusion e Cloud Composer

• Discutir como gerir os seus pipelines de dados com o Cloud Data Fusion e o Cloud Composer.
• Resumir como o Cloud Data Fusion permite que analistas de dados e desenvolvedores de ETL manipulem dados e criem pipelines visualmente.
• Descrever como o Cloud Composer pode ajudar a orquestrar o trabalho em vários serviços do Google Cloud.

Introdução ao processamento de dados em fluxo contínuo

• Explicar o processamento de dados em fluxo contínuo.
• Identificar os produtos e ferramentas do Google Cloud que podem ajudar a solucionar os desafios de streaming de dados.
• Mensagens sem servidor com Pub/Sub
• Descrever o serviço Pub/Sub.
• Explicar como funciona o sistema Pub/Sub.
• Simular dados de sensores em tempo real utilizando Pub/Sub.

Recursos de streaming do Dataflow

• Descrever o serviço Dataflow.
• Criar um pipeline de processamento de fluxo para dados de tráfego em tempo real.
• Demonstrar como gerir dados defasados utilizando marcas d’água, gatilhos e acumulação.

Recursos de streaming de alta largura de banda do BigQuery e BigTable

• Descrever como realizar análises ad hoc em dados de streaming utilizando o BigQuery e dashboards.
• Analisar o BigTable como uma solução de baixa latência.
• Descrever como arquitetar para o BigTable e como ingerir dados no BigTable.
• Destacar as considerações de desempenho para os serviços em questão.

Recursos avançados e desempenho do BigQuery

• Analisando algumas das funcionalidades avançadas de análise do BigQuery.

Formador

Facilitador que combina know-how com experiência empresarial e competências pedagógicas, para dar resposta a necessidades operacionais e potenciar a aprendizagem.

Objetivos da formação

Projetar e criar sistemas de processamento de dados no Google Cloud.
Processamento de dados em lote e em fluxo contínuo implementando pipelines de dados com escalonamento automático no Dataflow.
Extraia insights de negócios de conjuntos de dados muito grandes usando o BigQuery.
Aproveitando dados não estruturados usando Spark e APIs de aprendizado de máquina no Dataproc
Implemente análises instantâneas a partir de dados de streaming.

Duração da formação