Data Warehouse e Data Mart
Nesta página é destinada a compreensão do conceito de Data Warehouse e Data Mart
Atualizado
Isto foi útil?
Nesta página é destinada a compreensão do conceito de Data Warehouse e Data Mart
Atualizado
Isto foi útil?
Escrito por
Data Warehouse e Data Mart são bancos de dados projetados para análises, construídos com base em tabelas fato e dimensões. O conceito de DW foi criado por Ralph Kimball e o de DM por Bill Inmon na década de 1990. Na época, isso representou um avanço, pois seu uso permitia que as empresas obtivessem informações sobre suas operações e tomassem decisões mais informadas.
Podemos definir que ambos são repositórios centralizados de dados estruturados, coletados de diversas fontes operacionais, armazenados e organizados para facilitar a análise e a geração de relatórios. Eles são projetados para suportar a análise histórica de dados em larga escala, fornecendo uma visão consolidada e integrada da organização.
Orientados por assunto: Os dados são coletados em suas fontes de dados, separados e organizados por assuntos dentro do banco (geralmente usando esquemas) como finanças, pessoas, produção, etc.
Integrado: Como mencionado, a finalidade do DW/DM é suportar as decisões. Para isso, ele integra todas as fontes de dados dos sistemas transacionais possíveis e organiza-os por assuntos.
Variação temporal: Os dados armazenados refletem um acontecimento em determinado tempo, portanto, suportam decisões e análises históricas.
Não volátil: Os dados, uma vez carregados, não são alterados ou apagados sem um respectivo evento no transacional, permitindo que as análises sejam reprodutíveis, historicamente consistentes e mantenham sua integridade.
Granularidade: Consiste na menor parcela do dado. Dessa forma, no DW/DM, os dados são armazenados em diferentes níveis de detalhe, desde o nível mais granular (transações individuais) até níveis mais agregados (resumos mensais).
Grande volume de dados: Eles são projetados para armazenar grandes quantidades de dados, garantindo as análises de negócio.
Tabelas fato: Registram ocorrências/eventos do sistema transacional, contêm valores numéricos e são compostas por chaves para identificar suas dimensões. Nestas tabelas, geralmente, trabalhamos com informações quantitativas que são a base para a construção de medidas. Alguns tipos de tabelas: fato granular, fato agregado, fato-lixo, fato-sem-fato.
Tabelas dimensões: São tabelas descritivas, cujas chaves e ocorrências justificam os fatos ocorridos. Estas tabelas contêm informações qualitativas.
A principal diferença está na abordagem. A de Inmon é top-down (de cima para baixo), ou seja, primeiro se constrói um Data Warehouse Corporativo que serve como um repositório central de dados para toda a empresa. Em seguida, criam-se os Data Marts específicos para cada área de negócio.
Essa abordagem tende a ser mais abrangente, mas também mais custosa e complexa, uma vez que requer o mapeamento e a modelagem de todo o sistema transacional da empresa desde o início.
Por outro lado, Kimball adota uma abordagem bottom-up (de baixo para cima). Nessa metodologia, os Data Marts são criados primeiro para atender necessidades específicas de cada área de negócio. Depois, esses Data Marts são integrados para formar um Data Warehouse Empresarial.
Ao iniciar um projeto de criação de um data warehouse, é necessário entender a demanda, as regras de negócio, o desenho da arquitetura, etc.
A grande diferença entre o DW/DM e os Data Lakes e Lakehouses é que, para a construção e manutenção dos DW/DM, são realizados processos e técnicas de ETL, enquanto no Data Lake e Lakehouse usa-se o ELT.
Não iremos nos aprofundar nos conceitos de ETL e ELT por enquanto, pois haverá uma sessão dedicada a isso.
Entre o sistema transacional e o DW/DM existe uma área intermediária chamada stage area. Do ambiente transacional para a stage, são realizados os processos de extração de dados, e na stage aplica-se as transformações (limpeza, normalização, modelagem, etc). Após o processo de transformação ocorrer, da stage para o DW/DM é feita uma nova extração e carga final no repositório analítico, que alimentará as ferramentas de visualização de dados, como Tableau, Looker, Metabase, etc.
CRM - Customer Relationship Management
DM - Data Mart
DW - Data Warehouse
EDW - Enterprise Data Warehouse
ELT - Extract, Load and Transform
ETL - Extract, Transform and Load
OLTP - Online Transactional Processing
OLAP - Online Analytical Processing