Data Lake x Data Warehouse: Entenda as diferenças

Data Lake x Data Warehouse: Entenda as diferenças

Inscreva-se

Abordamos dados e análises dentro das empresas.

Receba novos artigos por e-mail


Compartilhe

Quando se fala em Big Data, muito se fala sobre Data Lake ou Data Warehouse, porém apesar de ambos serem usados para guardar dados, suas funções e aplicações são bem distintas entre si.

O que é Data Lake?

Data Lake é um repositório para guardar dados estruturados ou não estruturados, ou seja, ele abriga qualquer tipo de dado, incluindo dados brutos. Ele foi desenvolvido para abrigar grandes volumes de dados geralmente não transformados, não sendo necessário que estes obedeçam a uma estrutura em particular, por isso pode encolher ou aumentar conforme os dados são escritos nele. O Data Lake é comumente usado por cientistas de dados para aplicação de análises profundas, como data minning, análises preditivas e estatísticas, por conter dados brutos e muito granulares. O tratamento destes dados geralmente costuma consumir muito tempo do cientista de dados.

O que é Data Warehouse?

Data Warehouse é um repositório desenvolvido para armazenamento de dados de média ou larga escala, geralmente já estruturados. Ao contrário do Data Lake, os dados inseridos no Data Warehouse obedecem a um esquema definido previamente. Ele é comumente usado para reunir informações de diversas fontes estruturadas, para fins de análise de negócio.

Então, qual a diferença entre os dois?

Na tabela abaixo resumimos as principais diferenças:

TópicoData LakeData Warehouse
Estrutura dos DadosNão transformados / não estruturadosEstruturados
Quem mais usaCientistas de dadosAnalistas de negócio e gestores
UsoAnálises profundas de dados não estruturadosAnálises de negócio, montagem de dashboards e reports periódicos, entre outros
EsquemaDefinido após a insercão dos dadosDefinido antes da inserção dos dados

Como definir qual dos dois usar?

A verdade é que dependerá da aplicação, inclusive muitas empresas usam os dois. Caso você busque um repositório para armazenar todos os seus dados independente de sua estrutura, e deseje fazer análises mais profundas e menos objetivas, como por exemplo encontrar padrões e prever comportamentos, o data lake é o mais indicado. Mas se você precisa de um repositório para consultar dados para análises mais objetivas e rotineiras, como reports de resultado por exemplo, prefira o Data Warehouse.

Não esqueça que a Kondado pode te ajudar a mandar os seus dados estruturados para o seu data warehouse ou data lake! Faça nosso teste grátis clicando no botão abaixo e confira.

Publicado em 2020-09-22