Trabalho 2 - Spark, MinIO, SQL Server e Delta Lake
Este projeto implementa um pipeline local de engenharia de dados usando SQL Server, MinIO, Apache Spark e Delta Lake.
O objetivo e extrair quatro tabelas relacionais de uma base chamada LojaDB, gravar os dados no MinIO em CSV, converter para Delta Lake e demonstrar operacoes transacionais.
Dataset
As tabelas usadas no trabalho sao:
clientesprodutospedidositens_pedido
Fluxo geral
SQL Server / LojaDB
-> MinIO / landing-zone em CSV
-> MinIO / bronze em Delta Lake
-> DML, History e Time Travel
Entregas tecnicas
- Extracao de dados relacionais para object storage.
- Conversao de CSV para Delta Lake.
- Uso de
INSERT,UPDATEeDELETEem tabela Delta. - Uso de
DESCRIBE HISTORY. - Uso de time travel com
versionAsOf.