PYSPARK – PROCESSAMENTO DE DADOS

PYSPARK – PROCESSAMENTO DE DADOS

A formação PySpark – Processamento de Dados é ideal para profissionais que trabalham com grandes volumes de dados e pretendem dominar o processamento distribuído utilizando Python com Apache Spark. Durante 3 dias, os participantes aprendem o funcionamento do ecossistema Hadoop, compreendem a arquitetura do Spark, manipulam dados com DataFrames e Spark SQL, aplicam algoritmos de Machine Learning com MLlib e trabalham com dados em tempo real através de Spark Streaming. Com uma forte componente prática, esta formação capacita para desenvolver pipelines de dados escaláveis e de alto desempenho em ambientes locais, distribuídos ou cloud.

  • Descrever o princípio de funcionamento do Spark.
  • Utilizar a API PySpark para interagir com o Spark em Python.
  • Implementar métodos de Machine Learning com a biblioteca MLlib do Spark.
  • Tratar fluxos de dados com o Spark Streaming.
  • Manipular dados com o Spark SQL.
3 dias

INTRODUÇÃO AO HADOOP 

A era do Big Data

Arquitetura e componentes da plataforma Hadoop

HDFS

NameNode / DataNode / ResourceManager

MapReduce e YARN

 

INTRODUÇÃO AO SPARK 

O que é o Spark?

Spark vs MapReduce

Funcionamento

RDD
DataFrames
Data Sets

Como interagir com o Spark?

PySpark: programar com Spark em Python

 

INSTALAÇÃO DO SPARK 

Numa infraestrutura distribuída

Em local

Em Cloud (apresentação com Amazon AWS e Microsoft Azure)

 

SPARK PARA MANIPULAÇÃO DE DADOS – PYSPARK 

Utilização de SparkSQL e de DataFrames para manipular dados

Carregar dados a partir do Hadoop, de ficheiros CSV, texto, JSON

Transformar dados (criação de DataFrames, adição de colunas, filtros)

Exemplo de trabalhos práticos:

Carregamento e alteração de dados com Spark e PySpark

 

UTILIZAÇÃO DE SPARK.ML PARA MACHINE LEARNING 

Aprendizagem supervisionada

Florestas aleatórias com Spark

Implementação de uma ferramenta de recomendação

Tratamento de dados textuais

Automatizar as análises com pipelines

 

SPARK STREAMING

Introdução ao Spark Streaming

A noção de “DStream”

Principais fontes de dados

Utilização da API

Manipulação dos dados

 

SPARK SQL 

Introdução ao Spark SQL

Criação de DataFrames

Manipulação de DataFrames (operações básicas, agregações e groupBy, missing data)

Carregamento e armazenamento de dados (com Hive, JSON)

 

GRAPHX E GRAPHFRAMES

Apresentação do GraphX

Princípio de criação de grafos

API GraphX

Apresentação do GraphFrames

GraphX vs GraphFrames

Facilitador que combina know-how com experiência empresarial e competências pedagógicas, para dar resposta a necessidades operacionais e potenciar a aprendizagem.

Objetivos da formação

  • Descrever o princípio de funcionamento do Spark.
  • Utilizar a API PySpark para interagir com o Spark em Python.
  • Implementar métodos de Machine Learning com a biblioteca MLlib do Spark.
  • Tratar fluxos de dados com o Spark Streaming.
  • Manipular dados com o Spark SQL.

Duração da formação

3 dias

Programa da formação

INTRODUÇÃO AO HADOOP 

A era do Big Data

Arquitetura e componentes da plataforma Hadoop

HDFS

NameNode / DataNode / ResourceManager

MapReduce e YARN

 

INTRODUÇÃO AO SPARK 

O que é o Spark?

Spark vs MapReduce

Funcionamento

RDD
DataFrames
Data Sets

Como interagir com o Spark?

PySpark: programar com Spark em Python

 

INSTALAÇÃO DO SPARK 

Numa infraestrutura distribuída

Em local

Em Cloud (apresentação com Amazon AWS e Microsoft Azure)

 

SPARK PARA MANIPULAÇÃO DE DADOS – PYSPARK 

Utilização de SparkSQL e de DataFrames para manipular dados

Carregar dados a partir do Hadoop, de ficheiros CSV, texto, JSON

Transformar dados (criação de DataFrames, adição de colunas, filtros)

Exemplo de trabalhos práticos:

Carregamento e alteração de dados com Spark e PySpark

 

UTILIZAÇÃO DE SPARK.ML PARA MACHINE LEARNING 

Aprendizagem supervisionada

Florestas aleatórias com Spark

Implementação de uma ferramenta de recomendação

Tratamento de dados textuais

Automatizar as análises com pipelines

 

SPARK STREAMING

Introdução ao Spark Streaming

A noção de “DStream”

Principais fontes de dados

Utilização da API

Manipulação dos dados

 

SPARK SQL 

Introdução ao Spark SQL

Criação de DataFrames

Manipulação de DataFrames (operações básicas, agregações e groupBy, missing data)

Carregamento e armazenamento de dados (com Hive, JSON)

 

GRAPHX E GRAPHFRAMES

Apresentação do GraphX

Princípio de criação de grafos

API GraphX

Apresentação do GraphFrames

GraphX vs GraphFrames

Formador

Facilitador que combina know-how com experiência empresarial e competências pedagógicas, para dar resposta a necessidades operacionais e potenciar a aprendizagem.

Indisponível

Quer uma formação à medida para a sua empresa?

Peça-nos uma proposta!
Clique na imagem para expandir

Os nossos espaços de formação oferecem todas as condições para continuar o seu desenvolvimento pessoal e profissional em absoluta segurança

Não se esqueça de subscrever o blog RhBizz e de nos seguir no LindekInFacebookInstagram Youtube.

Formações ajustadas ao seu negócio

FORMAÇÕES À MEDIDA

Provocamos e aceleramos processos de mudança com a implementação e desenvolvimento de soluções pragmáticas orientadas para os resultados

SABER MAIS