lakehouse reader¶

fonte

lê uma tabela diretamente de um lakehouse do workspace. a maneira mais simples de consumir dados produzidos por outros pipelines dentro da mesma plataforma.

casos de uso¶

encadear pipelines: o output de um alimenta o input do próximo
criar pipelines de transformação sobre dados já no lakehouse
implementar camadas medallion (bronze → silver → gold)

configuração¶

campo	tipo	obrigatório	descrição
`lakehouse_id`	uuid	sim	id do lakehouse de origem
`table_name`	string	sim	nome da tabela dentro do lakehouse

exemplos¶

lendo tabela de outro pipeline¶

{
  "lakehouse_id": "uuid-do-lakehouse",
  "table_name": "clientes_bronze"
}

pipeline silver consumindo bronze¶

pipeline bronze:
  [api rest] → [s3 dest] → lakehouse: clientes_bronze

pipeline silver:
  [lakehouse reader: clientes_bronze] → [transformação] → [s3 dest] → lakehouse: clientes_silver

como localizar o lakehouse_id¶

acesse workspace → lakehouses
clique no lakehouse desejado
copie o id da url ou do painel de detalhes

caminho resolvido automaticamente¶

o conector resolve o caminho completo internamente:

s3://{bucket}/{org_id}/{ws_id}/lakehouses/{lh_slug}/tabelas/{table_name}/data.parquet

você não precisa conhecer a estrutura de diretórios — apenas o id do lakehouse e o nome da tabela.

branch awareness¶

o lakehouse reader lê dados do branch atual do pipeline:

branch do pipeline	branch lido
`developer`	dados do último run em staging
`main`	dados do último run em produção

dados não encontrados

se a tabela não existir (nenhum pipeline escreveu nela ainda), o nó retornará um erro. garanta que o pipeline produtor foi executado antes de rodar o consumidor.