Fundamentos e Arquitetura do Microsoft Fabric – Parte 2

OneLake — O Coração do Fabric

Entenda por que o “OneDrive dos Dados” e o formato Delta Parquet mudaram as regras do jogo.

 OneLake: O Conceito de “OneCopy”

O OneLake não é apenas mais um repositório; é o storage único e centralizado de toda a organização. Se o dado está no Fabric, ele está no OneLake. Ponto final.

Construído sobre o robusto Azure Data Lake Storage Gen2 (ADLS Gen2), ele é gerenciado pela Microsoft, mas organizado de forma lógica para você.

A Hierarquia Lógica:

 

 

 

 

A Magia do OneCopy:

Imagine que o Engenheiro de Dados salva uma tabela. No segundo seguinte, o Analista de Power BI abre o relatório e o Cientista de Dados abre um Notebook. Nenhum deles copiou o dado. Todos estão olhando para o mesmo arquivo físico. Se o dado muda na fonte, ele muda para todos simultaneamente.

Delta Parquet: A Base Técnica

Por que o Fabric é tão rápido? A resposta está no “casamento” entre dois formatos de código aberto: Parquet e Delta.

O Poder do Parquet (Armazenamento Colunar)

Diferente de um CSV (que lê linha por linha), o Parquet armazena os dados por coluna.

  • Eficiência Cinematográfica: Se sua tabela tem 100 colunas, mas sua query só pede “Soma de Vendas” e “Data”, o motor do Fabric ignora as outras 98 colunas no disco.

  • Compressão: Um arquivo que ocuparia 100GB em CSV pode cair para 8GB em Parquet sem perder um único bit de informação.

A Inteligência do Delta Lake

O Parquet sozinho é apenas um arquivo. O Delta adiciona uma camada de “inteligência” de banco de dados por cima dele:

  1. Transações ACID: Garante que se um processo de carga cair no meio, os dados não fiquem corrompidos. Ou grava tudo, ou nada.

  2. Time Travel (Viagem no Tempo): Você pode consultar como a tabela estava há uma hora, ontem ou na semana passada. É o versionamento nativo do dado.

  3. Schema Enforcement: Impede que dados “sujos” (ex: um texto onde deveria ser um preço) entrem na tabela.

O “Cérebro” por trás das Tabelas: O Delta Log

Dentro de cada pasta de tabela, existe uma subpasta chamada _delta_log. Ali, arquivos JSON registram cada ação feita na tabela. Quando o motor de consulta lê a tabela, ele primeiro lê o log para saber quais arquivos Parquet são válidos no momento.

Exemplo Prático de Time Travel (SQL e PySpark):

— Consultando as vendas como estavam às 08:00 da manhã
SELECT * FROM fato_vendas TIMESTAMP AS OF ‘2024-01-15 08:00:00’;

— Consultando a versão específica (Snapshot 42)
SELECT * FROM fato_vendas VERSION AS OF 42;

# No PySpark, acessando a versão de ontem
df = spark.read.format(“delta”).option(“timestampAsOf”, “2024-01-14”).load(“Tables/fato_vendas”)

OneLake File Explorer: O Fabric no seu Windows

Para tornar tudo mais tangível, a Microsoft criou o OneLake File Explorer. Ele mapeia seus Workspaces do Fabric como se fossem pastas locais no seu computador.

O que você ganha com isso?

  • Upload “Drag & Drop”: Arraste um CSV do seu desktop para a pasta do Lakehouse e ele já estará disponível na nuvem.

  • Inspeção Direta: Quer entender o Delta Log? Clique com o botão direito, abra o JSON no Bloco de Notas e veja os metadados reais da sua tabela.

  • Agilidade: Copie dados entre diferentes Workspaces com um simples Ctrl+C e Ctrl+V, sem sair do Windows Explorer.

Conclusão: O dado no lugar certo, na hora certa

Entender o OneLake e o formato Delta Parquet é como entender o motor de um carro de Fórmula 1: você percebe que a velocidade do Microsoft Fabric não é mágica, é engenharia pura. Ao adotar o padrão OneCopy, eliminamos o caos das duplicatas e garantimos que todos na organização bebam da mesma fonte da verdade.

Agora que você já conhece o “onde” e o “como” os dados são armazenados, surge a pergunta inevitável: quem pode ver o quê e quem paga a conta?

No próximo post, vamos desbravar a arquitetura administrativa do Fabric: Workspaces, Capacidade e Permissões. Vamos desmistificar o licenciamento, mostrar como organizar seus espaços de trabalho e entender os quatro níveis de acesso para manter seu ambiente seguro e eficiente.

Até lá!

Fundamentos e Arquitetura do Microsoft Fabric – Parte 1