Módulo 1: Funções Lambda, MapReduce, HDFS e Introdução ao Spark (Síncrona - 2 horas)
- Conceitos de Big Data e ecossistema Hadoop (HDFS, YARN)
- Modelo MapReduce
- Introdução ao Apache Spark: arquitetura e vantagens
Módulo 2: Apache Spark Essencial (Síncrona - 2 horas)
- Arquitetura Spark: Driver, Executors, Cluster Manager
- Criação e manipulação de RDDs e PairRDDs
- Execução com DAG, uso de cache/persistência
- Benchmark: groupByKey vs. reduceByKey
Módulo 3: SparkSQL e DataFrames (Síncrona - 2 horas)
- Diferença entre RDD e DataFrame
- Operações estruturadas: select, filter, join, groupBy
- Consultas SQL e leitura/escrita de arquivos CSV, JSON, Parquet
Módulo 4: Visualização de Dados e Análise Exploratória (Síncrona - 2 horas)
- Integração Spark ↔ Pandas para visualização
- Uso de bibliotecas (Matplotlib, Seaborn, Plotly)
- Criação de visualizações e dashboards simples