GOOGLE CLOUD DATA ENGENEERING
A formação Google Cloud Data Engineering prepara engenheiros de dados e profissionais técnicos para desenhar, implementar e operar pipelines de dados escaláveis no ecossistema do Google Cloud. Ao longo de 4 dias, os participantes aprendem a arquitetar sistemas de processamento de dados em lote e em tempo real, explorar BigQuery para análise de grandes volumes de dados, criar pipelines ELT e ETL com Dataflow, processar dados não estruturados com Spark no Dataproc e implementar streaming com Pub/Sub, BigTable e Dataflow. A formação aborda ainda automação, orquestração com Cloud Composer, gestão de metadados, data lakes e data warehouses, capacitando os participantes para construir soluções analíticas modernas, performantes e orientadas a negócios no Google Cloud.
- Projetar e criar sistemas de processamento de dados no Google Cloud.
- Processamento de dados em lote e em fluxo contínuo implementando pipelines de dados com escalonamento automático no Dataflow.
- Extraia insights de negócios de conjuntos de dados muito grandes usando o BigQuery.
- Aproveitando dados não estruturados usando Spark e APIs de aprendizado de máquina no Dataproc
- Implemente análises instantâneas a partir de dados de streaming.
Tarefas e componentes de engenharia de dados
• Explique o papel de um engenheiro de dados.
• Compreenda as diferenças entre uma fonte de dados e um receptor de dados.
• Explique os diferentes tipos de formatos de dados.
• Explique as opções de solução de armazenamento no Google Cloud.
• Saiba mais sobre as opções de gestão de metadados no Google Cloud.
• Compreenda como partilhar conjuntos de dados facilmente com o Analytics Hub.
• Compreenda como carregar dados no BigQuery utilizando o console do Google Cloud e/ou a CLI do gcloud.
Replicação e migração de dados
• Explique a arquitetura básica de replicação e migração de dados no Google Cloud.
• Compreenda as opções e casos de uso da ferramenta de linha de comando gcloud.
• Explique a funcionalidade e os casos de uso do serviço de transferência de armazenamento.
• Explique a funcionalidade e os casos de uso do dispositivo de transferência.
• Compreenda os recursos e a implementação do Datastream.
Modelo de pipeline de extração e carregamento de dados
• Explique o diagrama da arquitetura básica para extração e carregamento.
• Compreenda as opções da ferramenta de linha de comando bq.
• Explique a funcionalidade e os casos de uso do serviço de transferência de dados do BigQuery.
• Explique a funcionalidade e os casos de uso do BigLake como modelo de busca zero / busca.
O modelo de pipeline de dados para extração, carregamento e transformação
• Explique o esquema arquitetónico básico para extração, carregamento e transformação.
• Compreenda um pipeline ELT comum no Google Cloud.
• Saiba mais sobre os recursos de script SQL e agendamento do BigQuery.
• Explique a funcionalidade e os casos de uso do Dataform.
O modelo de pipeline de dados para extração, transformação e carregamento (ETL)
• Explique o diagrama de arquitetura básica para extração, transformação e carregamento (ETL).
• Saiba mais sobre as ferramentas de interface gráfica do Google Cloud utilizadas para pipelines de dados ETL.
• Explique o processamento de dados em lote com o Dataproc.
• Aprenda como usar o Dataproc sem servidor para Spark para ETL.
• Explique as opções para processamento de dados de fluxo contínuo.
• Explique o papel que o BigTable desempenha nos pipelines de dados.
Técnicas de automação
• Explique os modelos de automação e as opções disponíveis para pipelines.
• Saiba mais sobre o Agendador do Google e fluxos de trabalho.
• Saiba mais sobre o Cloud Composer.
• Saiba mais sobre os recursos do Cloud Run.
• Explique a funcionalidade e os casos de uso da automação no Eventarc.
Introdução à Engenharia de Dados
• Discutir os desafios da engenharia de dados e como a criação de pipelines de dados na nuvem ajuda a resolvê-los.
• Analise e compreenda a finalidade de um data lake em comparação com um data warehouse, e quando usar cada um deles.
Construindo um data lake
• Discutir por que o Cloud Storage é uma excelente opção para criar um data lake no Google Cloud.
• Explique como usar o Cloud SQL para um data lake relacional.
Construindo um data warehouse
• Discutir os requisitos de um armazém moderno.
• Explicar por que o BigQuery é a solução de armazenamento de dados escalável ideal no Google Cloud.
• Discutir os conceitos básicos do BigQuery e examinar as opções de carregamento de dados no BigQuery.
Introdução à criação de pipelines de dados em lote
• Analisar diferentes métodos para carregar dados nos seus data lakes e data warehouses:
• EL
• ELT
• ETL
Executar Spark no Dataproc
• Examinar o ecossistema Hadoop
• Discutir como migrar (lift and shift) as suas cargas de trabalho Hadoop existentes para a nuvem usando o Dataproc.
• Explicar quando usar o armazenamento em nuvem em vez do armazenamento HDFS.
• Explicar como otimizar as tarefas do Dataproc.
Processamento de dados sem servidor com o Dataflow
• Identificar os recursos mais apreciados pelos clientes no Dataflow.
• Discutir os conceitos básicos do fluxo de dados.
• Analisar a utilização dos modelos Dataflow e SQL.
• Criar um pipeline Dataflow simples e executá-lo localmente e na nuvem.
• Identificar as operações de Map e Reduce, executar o pipeline e utilizar os parâmetros da linha de comando.
• Ler dados do BigQuery para o Dataflow e usar a saída de um pipeline como entrada secundária para outro pipeline.
Gerenciando pipelines de dados com o Cloud Data Fusion e Cloud Composer
• Discutir como gerir os seus pipelines de dados com o Cloud Data Fusion e o Cloud Composer.
• Resumir como o Cloud Data Fusion permite que analistas de dados e desenvolvedores de ETL manipulem dados e criem pipelines visualmente.
• Descrever como o Cloud Composer pode ajudar a orquestrar o trabalho em vários serviços do Google Cloud.
Introdução ao processamento de dados em fluxo contínuo
• Explicar o processamento de dados em fluxo contínuo.
• Identificar os produtos e ferramentas do Google Cloud que podem ajudar a solucionar os desafios de streaming de dados.
• Mensagens sem servidor com Pub/Sub
• Descrever o serviço Pub/Sub.
• Explicar como funciona o sistema Pub/Sub.
• Simular dados de sensores em tempo real utilizando Pub/Sub.
Recursos de streaming do Dataflow
• Descrever o serviço Dataflow.
• Criar um pipeline de processamento de fluxo para dados de tráfego em tempo real.
• Demonstrar como gerir dados defasados utilizando marcas d’água, gatilhos e acumulação.
Recursos de streaming de alta largura de banda do BigQuery e BigTable
• Descrever como realizar análises ad hoc em dados de streaming utilizando o BigQuery e dashboards.
• Analisar o BigTable como uma solução de baixa latência.
• Descrever como arquitetar para o BigTable e como ingerir dados no BigTable.
• Destacar as considerações de desempenho para os serviços em questão.
Recursos avançados e desempenho do BigQuery
• Analisando algumas das funcionalidades avançadas de análise do BigQuery.
Facilitador que combina know-how com experiência empresarial e competências pedagógicas, para dar resposta a necessidades operacionais e potenciar a aprendizagem.
Objetivos da formação
- Projetar e criar sistemas de processamento de dados no Google Cloud.
- Processamento de dados em lote e em fluxo contínuo implementando pipelines de dados com escalonamento automático no Dataflow.
- Extraia insights de negócios de conjuntos de dados muito grandes usando o BigQuery.
- Aproveitando dados não estruturados usando Spark e APIs de aprendizado de máquina no Dataproc
- Implemente análises instantâneas a partir de dados de streaming.
Duração da formação
Programa da formação
Tarefas e componentes de engenharia de dados
• Explique o papel de um engenheiro de dados.
• Compreenda as diferenças entre uma fonte de dados e um receptor de dados.
• Explique os diferentes tipos de formatos de dados.
• Explique as opções de solução de armazenamento no Google Cloud.
• Saiba mais sobre as opções de gestão de metadados no Google Cloud.
• Compreenda como partilhar conjuntos de dados facilmente com o Analytics Hub.
• Compreenda como carregar dados no BigQuery utilizando o console do Google Cloud e/ou a CLI do gcloud.
Replicação e migração de dados
• Explique a arquitetura básica de replicação e migração de dados no Google Cloud.
• Compreenda as opções e casos de uso da ferramenta de linha de comando gcloud.
• Explique a funcionalidade e os casos de uso do serviço de transferência de armazenamento.
• Explique a funcionalidade e os casos de uso do dispositivo de transferência.
• Compreenda os recursos e a implementação do Datastream.
Modelo de pipeline de extração e carregamento de dados
• Explique o diagrama da arquitetura básica para extração e carregamento.
• Compreenda as opções da ferramenta de linha de comando bq.
• Explique a funcionalidade e os casos de uso do serviço de transferência de dados do BigQuery.
• Explique a funcionalidade e os casos de uso do BigLake como modelo de busca zero / busca.
O modelo de pipeline de dados para extração, carregamento e transformação
• Explique o esquema arquitetónico básico para extração, carregamento e transformação.
• Compreenda um pipeline ELT comum no Google Cloud.
• Saiba mais sobre os recursos de script SQL e agendamento do BigQuery.
• Explique a funcionalidade e os casos de uso do Dataform.
O modelo de pipeline de dados para extração, transformação e carregamento (ETL)
• Explique o diagrama de arquitetura básica para extração, transformação e carregamento (ETL).
• Saiba mais sobre as ferramentas de interface gráfica do Google Cloud utilizadas para pipelines de dados ETL.
• Explique o processamento de dados em lote com o Dataproc.
• Aprenda como usar o Dataproc sem servidor para Spark para ETL.
• Explique as opções para processamento de dados de fluxo contínuo.
• Explique o papel que o BigTable desempenha nos pipelines de dados.
Técnicas de automação
• Explique os modelos de automação e as opções disponíveis para pipelines.
• Saiba mais sobre o Agendador do Google e fluxos de trabalho.
• Saiba mais sobre o Cloud Composer.
• Saiba mais sobre os recursos do Cloud Run.
• Explique a funcionalidade e os casos de uso da automação no Eventarc.
Introdução à Engenharia de Dados
• Discutir os desafios da engenharia de dados e como a criação de pipelines de dados na nuvem ajuda a resolvê-los.
• Analise e compreenda a finalidade de um data lake em comparação com um data warehouse, e quando usar cada um deles.
Construindo um data lake
• Discutir por que o Cloud Storage é uma excelente opção para criar um data lake no Google Cloud.
• Explique como usar o Cloud SQL para um data lake relacional.
Construindo um data warehouse
• Discutir os requisitos de um armazém moderno.
• Explicar por que o BigQuery é a solução de armazenamento de dados escalável ideal no Google Cloud.
• Discutir os conceitos básicos do BigQuery e examinar as opções de carregamento de dados no BigQuery.
Introdução à criação de pipelines de dados em lote
• Analisar diferentes métodos para carregar dados nos seus data lakes e data warehouses:
• EL
• ELT
• ETL
Executar Spark no Dataproc
• Examinar o ecossistema Hadoop
• Discutir como migrar (lift and shift) as suas cargas de trabalho Hadoop existentes para a nuvem usando o Dataproc.
• Explicar quando usar o armazenamento em nuvem em vez do armazenamento HDFS.
• Explicar como otimizar as tarefas do Dataproc.
Processamento de dados sem servidor com o Dataflow
• Identificar os recursos mais apreciados pelos clientes no Dataflow.
• Discutir os conceitos básicos do fluxo de dados.
• Analisar a utilização dos modelos Dataflow e SQL.
• Criar um pipeline Dataflow simples e executá-lo localmente e na nuvem.
• Identificar as operações de Map e Reduce, executar o pipeline e utilizar os parâmetros da linha de comando.
• Ler dados do BigQuery para o Dataflow e usar a saída de um pipeline como entrada secundária para outro pipeline.
Gerenciando pipelines de dados com o Cloud Data Fusion e Cloud Composer
• Discutir como gerir os seus pipelines de dados com o Cloud Data Fusion e o Cloud Composer.
• Resumir como o Cloud Data Fusion permite que analistas de dados e desenvolvedores de ETL manipulem dados e criem pipelines visualmente.
• Descrever como o Cloud Composer pode ajudar a orquestrar o trabalho em vários serviços do Google Cloud.
Introdução ao processamento de dados em fluxo contínuo
• Explicar o processamento de dados em fluxo contínuo.
• Identificar os produtos e ferramentas do Google Cloud que podem ajudar a solucionar os desafios de streaming de dados.
• Mensagens sem servidor com Pub/Sub
• Descrever o serviço Pub/Sub.
• Explicar como funciona o sistema Pub/Sub.
• Simular dados de sensores em tempo real utilizando Pub/Sub.
Recursos de streaming do Dataflow
• Descrever o serviço Dataflow.
• Criar um pipeline de processamento de fluxo para dados de tráfego em tempo real.
• Demonstrar como gerir dados defasados utilizando marcas d’água, gatilhos e acumulação.
Recursos de streaming de alta largura de banda do BigQuery e BigTable
• Descrever como realizar análises ad hoc em dados de streaming utilizando o BigQuery e dashboards.
• Analisar o BigTable como uma solução de baixa latência.
• Descrever como arquitetar para o BigTable e como ingerir dados no BigTable.
• Destacar as considerações de desempenho para os serviços em questão.
Recursos avançados e desempenho do BigQuery
• Analisando algumas das funcionalidades avançadas de análise do BigQuery.
Formador
Facilitador que combina know-how com experiência empresarial e competências pedagógicas, para dar resposta a necessidades operacionais e potenciar a aprendizagem.
Clique na imagem para expandir
Os nossos espaços de formação oferecem todas as condições para continuar o seu desenvolvimento pessoal e profissional em absoluta segurança
Não se esqueça de subscrever o blog RhBizz e de nos seguir no LindekIn, Facebook, Instagram e Youtube.














