Pular para conteúdo

lakehouse reader

fonte

lê uma tabela diretamente de um lakehouse do workspace. a maneira mais simples de consumir dados produzidos por outros pipelines dentro da mesma plataforma.


casos de uso

  • encadear pipelines: o output de um alimenta o input do próximo
  • criar pipelines de transformação sobre dados já no lakehouse
  • implementar camadas medallion (bronze → silver → gold)

configuração

campo tipo obrigatório descrição
lakehouse_id uuid sim id do lakehouse de origem
table_name string sim nome da tabela dentro do lakehouse

exemplos

lendo tabela de outro pipeline

{
  "lakehouse_id": "uuid-do-lakehouse",
  "table_name": "clientes_bronze"
}

pipeline silver consumindo bronze

pipeline bronze:
  [api rest] → [s3 dest] → lakehouse: clientes_bronze

pipeline silver:
  [lakehouse reader: clientes_bronze] → [transformação] → [s3 dest] → lakehouse: clientes_silver

como localizar o lakehouse_id

  1. acesse workspace → lakehouses
  2. clique no lakehouse desejado
  3. copie o id da url ou do painel de detalhes

caminho resolvido automaticamente

o conector resolve o caminho completo internamente:

s3://{bucket}/{org_id}/{ws_id}/lakehouses/{lh_slug}/tabelas/{table_name}/data.parquet

você não precisa conhecer a estrutura de diretórios — apenas o id do lakehouse e o nome da tabela.


branch awareness

o lakehouse reader lê dados do branch atual do pipeline:

branch do pipeline branch lido
developer dados do último run em staging
main dados do último run em produção

dados não encontrados

se a tabela não existir (nenhum pipeline escreveu nela ainda), o nó retornará um erro. garanta que o pipeline produtor foi executado antes de rodar o consumidor.