Módulo 1: Funções Lambda, MapReduce e HDFS ( Síncrona - 2 horas)
- Apresentação da formação, objetivos e visão geral do conteúdo.
- Introdução ao modelo de programação MapReduce e funções Lambda.
- Visão geral do sistema de armazenamento HDFS (Hadoop Distributed File System).
- Configuração do ambiente Spark em Python.
- Resolução de exercícios práticos com funções Lambda e MapReduce.
Módulo 2: Introdução ao Spark ( Síncrona - 2 horas)
- Visão geral do Apache Spark, principais vantagens e configurações de
paralelismo. - Introdução aos RDDs (Resilient Distributed Datasets).
- Operações básicas com RDDs: ações e transformações, como map, filter e reduceByKey.
- Criação de RDDs a partir de dados locais e aplicação de transformações.
- Exercícios práticos com comandos Spark básicos
Módulo 3: Processamento com Pares Key-Value
- Explicação sobre DAGs (Directed Acyclic Graphs) e o fluxo de processamento.
- Processamento de pares chave-valor e suas aplicações práticas.
- Ações comuns em RDDs (collect, count, take).
- Exercícios práticos para aplicar operações com key-value em conjuntos de dados.
Módulo 4: SparkSQL e DataFrames
- Introdução ao SparkSQL para consultas estruturadas.
- Leitura e escrita de arquivos estruturados.
- Operações básicas em DataFrames: groupBy, join, orderBy.
- Resolução de exercícios para realizar transformações e consultas em DataFrames.
Módulo 5: Dados Ausentes e Operações Avançadas com DataFrames
- Estratégias para lidar com dados ausentes e errados em conjuntos de dados reais.
- Aplicação de transformações avançadas em DataFrames.
- Exercícios para identificar, tratar e remover dados ausentes ou errados.
- Exploração de operações avançadas com DataFrames e SparkSQL.
Módulo 6: Revisões e Exame Final (Síncrona - 2 horas)
- Revisão de conceitos e tópicos abordados nos encontros anteriores.
- Resolução de exercícios práticos para consolidar o aprendizado.
- Realização do exame final, abrangendo os conceitos e habilidades trabalhados no curso.