Introdução ao Processamento de Dados com Apache Spark

Name: Introdução ao Processamento de Dados com Apache Spark
Start: 2025-10-16T18:00:00+01:00
End: 2025-10-24T20:00:00+01:00
Location: Porto & Évora, Portugal

16–24 Oct 2025 ONLINE

Porto & Évora, Portugal

Europe/Lisbon timezone

Contact

Programa

Módulo 1: Funções Lambda, MapReduce, HDFS e Introdução ao Spark (Síncrona - 2 horas)

Conceitos de Big Data e ecossistema Hadoop (HDFS, YARN)
Modelo MapReduce
Introdução ao Apache Spark: arquitetura e vantagens

Módulo 2: Apache Spark Essencial (Síncrona - 2 horas)

Arquitetura Spark: Driver, Executors, Cluster Manager
Criação e manipulação de RDDs e PairRDDs
Execução com DAG, uso de cache/persistência
Benchmark: groupByKey vs. reduceByKey

Módulo 3: SparkSQL e DataFrames (Síncrona - 2 horas)

Diferença entre RDD e DataFrame
Operações estruturadas: select, filter, join, groupBy
Consultas SQL e leitura/escrita de arquivos CSV, JSON, Parquet

Módulo 4: Visualização de Dados e Análise Exploratória (Síncrona - 2 horas)

Integração Spark ↔ Pandas para visualização
Uso de bibliotecas (Matplotlib, Seaborn, Plotly)
Criação de visualizações e dashboards simples