8–23 May 2025 ONLINE
Porto & Évora, Portugal
Europe/Lisbon timezone

Programa

Módulo 1: Funções Lambda, MapReduce e HDFS ( Síncrona - 2 horas) 

  • Apresentação da formação, objetivos e visão geral do conteúdo.
  • Introdução ao modelo de programação MapReduce e funções Lambda.
  • Visão geral do sistema de armazenamento HDFS (Hadoop Distributed File System).
  • Configuração do ambiente Spark em Python.
  • Resolução de exercícios práticos com funções Lambda e MapReduce.

Módulo 2: Introdução ao Spark ( Síncrona - 2 horas) 

  • Visão geral do Apache Spark, principais vantagens e configurações de
    paralelismo.
  • Introdução aos RDDs (Resilient Distributed Datasets).
  • Operações básicas com RDDs: ações e transformações, como map, filter e reduceByKey.
  • Criação de RDDs a partir de dados locais e aplicação de transformações.
  • Exercícios práticos com comandos Spark básicos

Módulo 3: Processamento com Pares Key-Value

  • Explicação sobre DAGs (Directed Acyclic Graphs) e o fluxo de processamento.
  • Processamento de pares chave-valor e suas aplicações práticas.
  • Ações comuns em RDDs (collect, count, take).
  • Exercícios práticos para aplicar operações com key-value em conjuntos de dados.

Módulo 4: SparkSQL e DataFrames

  • Introdução ao SparkSQL para consultas estruturadas.
  • Leitura e escrita de arquivos estruturados.
  • Operações básicas em DataFrames: groupBy, join, orderBy.
  • Resolução de exercícios para realizar transformações e consultas em DataFrames.

Módulo 5: Dados Ausentes e Operações Avançadas com DataFrames

  • Estratégias para lidar com dados ausentes e errados em conjuntos de dados reais.
  • Aplicação de transformações avançadas em DataFrames.
  • Exercícios para identificar, tratar e remover dados ausentes ou errados.
  • Exploração de operações avançadas com DataFrames e SparkSQL.

Módulo 6: Revisões e Exame Final (Síncrona - 2 horas) 

  • Revisão de conceitos e tópicos abordados nos encontros anteriores.
  • Resolução de exercícios práticos para consolidar o aprendizado.
  • Realização do exame final, abrangendo os conceitos e habilidades trabalhados no curso.