O que é Engenharia de Dados

Nesta secção irei contextualizar um pouco sobre a Engenharia de Dados e um pouco da história e evolução.

Escrito por Matheus Sampaio

Conceituando Engenharia de Dados

A palavra "engenharia" nos remete à construção, e, dentro da tecnologia, não é diferente. No contexto de dados, gosto da definição presente no livro de Joe Reis e Matt Housley, que descreve a Engenharia de Dados como a área responsável por desenvolver, implementar e manter sistemas de coleta de dados. Esses processos começam na coleta, passam pela transformação e terminam na disponibilização dos dados para diversas aplicações analíticas e científicas. Para isso, é essencial garantir informações consistentes e de alta qualidade.

Podemos dizer que a Engenharia de Dados é uma área transversal que se conecta com várias outras, especialmente Engenharia de Software e Negócios. O engenheiro de dados é responsável por executar processos dentro do ciclo de vida da engenharia de dados, começando com a obtenção de dados dos sistemas de origem e terminando com o fornecimento de dados para casos de uso em camadas analíticas e de ciência de dados. A imagem abaixo, retirada do livro de Joe Reis e , ilustra o ciclo de vida da Engenharia de Dados.

Ciclo de Vida da Engenharia de Dados

O termo "Engenharia de Dados" é relativamente novo e surgiu principalmente com o advento do Big Data. No entanto, os processos já existiam dentro da área de Inteligência de Negócios (BI). Um marco significativo foi a criação dos conceitos de Armazéns de Dados (Data Warehouses) e a modelagem analítica, propostas por Ralph Kimball e Bill Inmon. Esses conceitos abordam a necessidade de segregação de dados para suportar decisões de negócio, diferenciando-se da modelagem transacional (OLTP), que é projetada principalmente para inserção de dados e não para consultas analíticas. Por isso, era necessário um ambiente onde os dados tivessem uma frequência de carga adequada e pudessem atender principalmente aos sistemas analíticos (OLAP) com o menor tempo de resposta possível em caso de consultas.

Com a explosão da internet e a entrada das tecnologias de Big Data, iniciada pela Google com o Google File System e posteriormente pelo Hadoop, em 2006, pela Yahoo, houve um movimento crescente para a Engenharia de Dados. Em 2009, o surgimento do Spark, desenvolvido por Matei Zaharia, e em 2010, o conceito de Data Lake, proposto por James Dixon, foram pontos decisivos na evolução dessa área.

Com o avanço da tecnologia e a popularização do Big Data, novas ferramentas e tecnologias surgiram para suportar a crescente demanda por processamento e análise de grandes volumes de dados. Exemplos notáveis incluem o Hadoop, que inicialmente dominou o cenário de processamento de Big Data, e o Spark, que ofereceu uma alternativa mais rápida e eficiente com processamento em memória.

Ferramentas de Big Data em 2012

Podemos demonstrar essa evolução através do panorama de ferramentas e tecnologias de 2012, disponível no blog da Forbes. Naquela época, o Hadoop ainda era muito forte. Dentro do Business Intelligence, destacavam-se ferramentas como Cognos, SAP Business Objects e MicroStrategy. No campo da análise de dados, ferramentas como Tableau, SAS e Alteryx eram amplamente utilizadas.

Ferramentas de Big Data, Data e IA em 2024

Agora, veja o panorama de 2024, retirado do blog de Matt Turck. A quantidade de ferramentas e tecnologias cresceu exorbitantemente, influenciada também pelo crescimento da inteligência artificial e da ciência de dados. Ferramentas modernas como Databricks, Snowflake e tecnologias de Machine Learning e AI tornaram-se essenciais para um engenheiro de dados.