16–24 Oct 2025 ONLINE
Porto & Évora, Portugal
Europe/Lisbon timezone

Programa

Módulo 1: Funções Lambda, MapReduce, HDFS e Introdução ao Spark (Síncrona - 2 horas) 

  • Conceitos de Big Data e ecossistema Hadoop (HDFS, YARN)
  • Modelo MapReduce
  • Introdução ao Apache Spark: arquitetura e vantagens

Módulo 2: Apache Spark Essencial (Síncrona - 2 horas) 

  • Arquitetura Spark: Driver, Executors, Cluster Manager
  • Criação e manipulação de RDDs e PairRDDs
  • Execução com DAG, uso de cache/persistência
  • Benchmark: groupByKey vs. reduceByKey

Módulo 3: SparkSQL e DataFrames (Síncrona - 2 horas) 

  • Diferença entre RDD e DataFrame
  • Operações estruturadas: select, filter, join, groupBy
  • Consultas SQL e leitura/escrita de arquivos CSV, JSON, Parquet

Módulo 4: Visualização de Dados e Análise Exploratória (Síncrona - 2 horas) 

  • Integração Spark ↔ Pandas para visualização
  • Uso de bibliotecas (Matplotlib, Seaborn, Plotly)
  • Criação de visualizações e dashboards simples