Profissionais de Dados
Esta página irei abordar alguns dos profissionais que existem dentro da área de Dados.
Escrito por Matheus Sampaio
Já comentamos que a área de Engenharia de Dados é relativamente recente, no entanto, já existia processos de Engenharia de Dados. Nesta secção quero apresenta-lhes os profissionais mais comuns dentro do time de dados:
Engenheiro de Dados
✍🏻 Responsabilidade: por executar processos dentro do ciclo de vida da engenharia de dados, começando com a obtenção de dados dos sistemas de origem e terminando com o fornecimento de dados para casos de uso em camadas analíticas e de ciência de dados. O que chamamos carinhosamente de ETL ou ELT, isso dependerá da arquitetura.
🧠 Principais Tecnologias/Habilidades:
-> Linguagem de programação (Python, esta é mais comum atualmente, Java, Scala, R);
-> Linguagem de Consulta em Bancos de Dados (SQL);
-> Bancos de Dados Estruturado (SQL Server, MySQL, Oracle) e Não Estruturado (MongoDB, Redis);
-> Modelagem Analítica (Data Warehouse, Datalake, Lakehouse) e Transacional;
-> Versionamento de Código com Git e repositórios (GitHub, Gitlab, Bitbucket, Azure Repo);
-> Conceitos de DevOps, em especial, Integração Contínua e Entrega Contínua (CI/CD);
-> Computação em Nuvem e seus principais componentes;
-> Processamento distribuído (Spark) com uso de ferramentas de Big Data (Databricks, Dataproc (Google), EMR (AWS), HD Insights (Azure));
-> Formatos de Arquivos (CSV, JSON, Parquet) e frameworks de formato de dados (Delta, HUDI, Iceberg).
Upstream e Downstream de Data Producers e Consumers
Arquiteto de Dados
✍🏻 Responsabilidade: elaborar o projeto para o gerenciamento de dados organizacionais, mapeando os processos das arquiteturas existentes e os sistemas gerais de dados. Estes profissionais possuem contato direto com o Engenheiro de Dados, e sua arquitetura deve ser projetada para que seja resiliente, escalável, com segurança e ao melhor custo possível.
🧠 Principais Tecnologias/Habilidades:
-> Conhecimento de Arquitetura de Negócios: Arquitetura em Camadas, Arquitetura Orientada a Serviços (SOA), Microsserviços, Cliente-Servidor, Ports e Adapters (Hexagonal);
-> Bancos de Dados Estruturados e Não estruturados;
-> Computação em Nuvem e Onpremise;
-> Modelagem Analítica (Data Warehouse, Datalake, Lakehouse) e Transacional;
-> Linguagem de programação;
-> Conceitos de DevOps, em especial, Integração Contínua e Entrega Contínua (CI/CD).
Analista de Dados ou Engenheiro Analítico
✍🏻 Responsabilidade: buscar entender o desempenho e as tendências dos negócios, identificando através dos dados, oportunidades de melhorias ou explicação para fatos ocorridos no passado. É comum serem especialista em um determinado domínio de negócios (financeiro, suprimentos, vendas, etc), executa alguns tratamentos de dados quando necessário, comunica-se frequentemente com o time de Engenharia de Dados.
🧠 Principais Tecnologias/Habilidades:
-> Ferramentas de visualização (Power BI, Tableau, Looker);
-> Ferramentas de Planilhas Eletrônicas (Excel, Google Sheets);
-> Conhecimentos em Linguagem de Consulta a Bancos de Dados (SQL);
-> Conhecimentos em Cálculos de Indicadores e Métricas;
-> Linguagem de Programação (Geralmente, Python) ou outra ferramenta de preparação de dados como: Alteryx.
Cientista de Dados
✍🏻 Responsabilidade: buscar prever o futuro, com uso da matemática e a estatística, criando previsões ou recomendações, através de dados com informações passadas.
🧠 Principais Tecnologias/Habilidades:
-> Estatística e Matemática Aplicada;
-> Conhecimento de modelos (logístico, regressão, classificação);
-> Linguagem de programação (R, Python) e as Bibliotecas necessárias;
-> Linguagem de Consulta da Bancos de Dados (SQL);
-> Entender técnicas e conceitos de underfitting e overfitting bem como redução de dimensionalidade.
Analista de Governança de Dados
✍🏻 Responsabilidade: buscar garantir que os dados estão sendo coletados e guardados da forma correta, mapeando toda a linhagem de dados (downstring e upstream) e acesso somente ao que é necessário.
🧠 Principais Tecnologias/Habilidades:
-> Ferramentas de Qualidade de Dados e suas Ferramentas (Talend, Trifacta/Alteryx);
-> Ferramentas de Governança de Dados e suas Ferramentas (Alation, Ataccama);
-> Catálogos de Dados e suas Ferramentas (dataedo, unity catalog, erwin);
-> Linhagem de Dados e Metadados e suas Ferramentas (dataedo, informática);
-> Segurança de Dados e suas ferramentas (Apache Ranger, SAP Master Data Governance).
Referências
Fundamentals of Data Engineering, Joe Reis and Matt Housley, O’Reilly, 2022.
What is Data Governance? | Google Cloud
2024 Data Governance Resume Example (+Guidance) | TealHQ
What Is a Data Architecture? | IBM
Data Analyst Career Path | Indeed.com Canada
Siglas
AWS - Amazon Web Services
CD - Continuos Delivery
CI - Continuos Integration
CSV - Comma-separated values
DevOps - Development and Operations
GIT - Global Information Tracker
JSON - JavaScript Object Notation
SOA - Service-Oriented Architecture
SQL - Strutured Query Language
Atualizado
Isto foi útil?