📖
C&D.tech - Docs
  • 🇧🇷PORTUGUÊS - BRA
    • Apresentação
    • Engenharia de Dados
      • Conceitos
        • Conceituando dados
        • O que é Engenharia de Dados
        • Profissionais de Dados
      • Fundamentos de Engenharia de Dados
        • Arquitetura de Dados
          • O que é arquitetura
          • Tipos de Arquiteturas
            • Arquitetura Transacional
            • Arquitetura Analítica
              • Data Warehouse e Data Mart
              • Data Lake e Lakehouse
        • Formato de Dados
        • Formato de Arquivos
    • Índices e Referências
      • Referências
        • 📗Livros
        • 📑Artigos
        • 📹Vídeos
        • 👨‍💻Cursos
        • 👨‍🏫Profissionais
        • 📃Outros Materiais
      • Índices
        • 🗂️Figuras e Imagens
        • 📇Siglas Utilizadas
    • Contato
Fornecido por GitBook
Nesta página
  • Conceituando Engenharia de Dados
  • Fontes
  • Siglas

Isto foi útil?

Editar no GitHub
  1. PORTUGUÊS - BRA
  2. Engenharia de Dados
  3. Conceitos

O que é Engenharia de Dados

Nesta secção irei contextualizar um pouco sobre a Engenharia de Dados e um pouco da história e evolução.

AnteriorConceituando dadosPróximoProfissionais de Dados

Atualizado há 5 meses

Isto foi útil?

Escrito por

Conceituando Engenharia de Dados

A palavra "engenharia" nos remete à construção, e, dentro da tecnologia, não é diferente. No contexto de dados, gosto da definição presente no livro de Joe Reis e Matt Housley, que descreve a Engenharia de Dados como a área responsável por desenvolver, implementar e manter sistemas de coleta de dados. Esses processos começam na coleta, passam pela transformação e terminam na disponibilização dos dados para diversas aplicações analíticas e científicas. Para isso, é essencial garantir informações consistentes e de alta qualidade.

Podemos dizer que a Engenharia de Dados é uma área transversal que se conecta com várias outras, especialmente Engenharia de Software e Negócios. O engenheiro de dados é responsável por executar processos dentro do ciclo de vida da engenharia de dados, começando com a obtenção de dados dos sistemas de origem e terminando com o fornecimento de dados para casos de uso em camadas analíticas e de ciência de dados. A imagem abaixo, retirada do livro de Joe Reis e , ilustra o ciclo de vida da Engenharia de Dados.

Ciclo de Vida da Engenharia de Dados

Figura 04 - Ciclo de Vida da Engenharia de Dados (Fonte: Livro )

O termo "Engenharia de Dados" é relativamente novo e surgiu principalmente com o advento do Big Data. No entanto, os processos já existiam dentro da área de Inteligência de Negócios (BI). Um marco significativo foi a criação dos conceitos de Armazéns de Dados (Data Warehouses) e a modelagem analítica, propostas por Ralph Kimball e Bill Inmon. Esses conceitos abordam a necessidade de segregação de dados para suportar decisões de negócio, diferenciando-se da modelagem transacional (OLTP), que é projetada principalmente para inserção de dados e não para consultas analíticas. Por isso, era necessário um ambiente onde os dados tivessem uma frequência de carga adequada e pudessem atender principalmente aos sistemas analíticos (OLAP) com o menor tempo de resposta possível em caso de consultas.

Com a explosão da internet e a entrada das tecnologias de Big Data, iniciada pela Google com o Google File System e posteriormente pelo Hadoop, em 2006, pela Yahoo, houve um movimento crescente para a Engenharia de Dados. Em 2009, o surgimento do Spark, desenvolvido por Matei Zaharia, e em 2010, o conceito de Data Lake, proposto por James Dixon, foram pontos decisivos na evolução dessa área.

Com o avanço da tecnologia e a popularização do Big Data, novas ferramentas e tecnologias surgiram para suportar a crescente demanda por processamento e análise de grandes volumes de dados. Exemplos notáveis incluem o Hadoop, que inicialmente dominou o cenário de processamento de Big Data, e o Spark, que ofereceu uma alternativa mais rápida e eficiente com processamento em memória.

Ferramentas de Big Data em 2012

Podemos demonstrar essa evolução através do panorama de ferramentas e tecnologias de 2012, disponível no blog da Forbes. Naquela época, o Hadoop ainda era muito forte. Dentro do Business Intelligence, destacavam-se ferramentas como Cognos, SAP Business Objects e MicroStrategy. No campo da análise de dados, ferramentas como Tableau, SAS e Alteryx eram amplamente utilizadas.

Ferramentas de Big Data, Data e IA em 2024

Agora, veja o panorama de 2024, retirado do blog de Matt Turck. A quantidade de ferramentas e tecnologias cresceu exorbitantemente, influenciada também pelo crescimento da inteligência artificial e da ciência de dados. Ferramentas modernas como Databricks, Snowflake e tecnologias de Machine Learning e AI tornaram-se essenciais para um engenheiro de dados.


Fontes

Siglas

BI - Business Intelligence

OLAP - Online Analytical Processing

OLTP - Online Transactional Processing

Figura 05 - Ferramentas de Big Data em 2012 (Fonte: )
Figura 06 - Ferramentas de Big Data, Data e IA em 2024 (Fonte: )

🇧🇷
Fundamentals of Data Engineering, Joe Reis and Matt Housley, O’Reilly, 2022.
Pentaho, Hadoop, and Data Lakes | James Dixon's Blog
O que é data lake, Blog da Redhat, 2024.
The Big Data Landscape, Dave Feinleib, Blog Forbes, 2014.
Full Steam Ahead: The 2024 MAD (Machine Learning, AI & Data) Landscape – Matt Turck
Matheus Sampaio
Fundamentals of Data Engineering
Blog da Forbes
Matt Turck