Careers Xpand IT Careers Xpand IT
Contact Us
marketing.talent@careers.xpand-it.com
Careers Xpand ITCareers Xpand IT
  • Procurar Oportunidades
    • Oportunidades de Emprego
    • Estudantes & Universidades
  • Life at Xpand IT
    • Trabalhar na Xpand IT
    • Os nossos Valores
  • Recursos
    • Blog
    • Webinares e Conteúdos
    • ITalks lives @Instagram
  • Quem Somos
    • Equipas de Produto & Tecnologia
    • Equipas Corporativas
    • O que fazemos
    • Imprensa
  • Contactos
  • Português
  • Inglês
Info
Junta-te a nósJunta-te a nósJunta-te a nós
Search website
Search
Close

Data Engineer ou Data Scientist? Descobre a carreira que faz match contigo

  1. Home
  2. Blog Xtech Community
Data Engineer ou Data Scientist? Descobre a carreira que faz match contigo
09-11-2020
Tempo de leitura: 4 minutos

Data Engineer ou Data Scientist? Descobre a carreira que faz match contigo

Por André Pires, Big Data Engineer e Nuno Chicória, Data Scientist @Xpand IT

“90% dos dados existentes foram criados nos últimos dois anos”. À medida que a quantidade de dados cresce, maior necessidade existe de armazená-la, analisá-la e torná-la útil. À parte de todas essas necessidades, vários empregos começaram a emergir no mundo das TI com diferentes objetivos em mente. E é neste panorama que encontramos os data scientists e os data engineers – unidos pelos dados, mas separados por objetivos diferentes. Assim, neste artigo vamos clarificar as principais diferenças entre as funções de um Data Engineer e de um Data Scientist enquanto provavelmente te encontras com várias questões. Vamos descobrir que carreira e emprego faz match contigo. Data Engineer ou Data Scientist?

O que fazem realmente os Data Scientists?

O número de data scientists duplicou nos últimos quatro anos e tem sido sistematicamente identificado como o emprego número 1 nos Estados Unidos, bem como considerado o emprego mais sexy do século XXI. Mas qual o verdadeiro significado de data science?

Uma piada comum no mundo das TI é de que um data scientist é melhor em programação do que um estatístico; e é melhor em estatística do que um programador.

Com essa “piada” podemos começar a perceber as diferentes habilidades que um data scientist deve possuir para prosperar no mundo das TI. Não é apenas programação, porque no final do dia ainda nos preocupamos com distâncias Euclidianas, desvios padrão ou médias, e não é apenas estatística, porque nunca vais pedir a um estatístico para treinar uma Support Vector Machine em Python.

Data science é uma mistura de ferramentas, conhecimento teórico e as limitações que isso acarreta

Agora, como introduzimos alguma ordem neste cocktail de habilidades e conhecimento? Com perguntas. Um data scientist “vive e morre” pela sua capacidade de fazer as perguntas certas. Podemos criar um pipeline para um cientista dos dados trabalhar (acredita, nós já o fizemos) e, como podemos ver, a base de tudo é a exploração de dados, que é fortemente orientada e influenciada pelas perguntas que fazes.

Quando falamos sobre data science, irás ouvir muitas vezes que 80% é exploração de dados  e 20% treino e teste de modelos – o que está muito próximo da verdade. Compreender os dados recebidos, saber como manipulá-los e “prepará-los” são algumas das habilidades mais importantes necessárias para criar um bom modelo de análise de dados/modelo de aprendizagem automático que responda às perguntas que fizemos.

A próxima pergunta deve ser: ‘que ferramentas aqui encaixam?’. No caso de data science, não há uma solução definitiva. Terás que aprender e trabalhar com uma variedade de tecnologias. Só para dar um exemplo, não existe uma linguagem de programação clara. Muitos usam Python, mas R, Matlab e Java são outras opções viáveis com várias bibliotecas associadas, que vão ajudar no teu trabalho de forma mais rápida e fácil (NumPy e Pandas no Python e o TidyVerse no R). Finalmente, enquanto continuas a aprender, vais mergulhar em Machine e Deep Learning e aqui também existem muitas bibliotecas úteis (SciKit Learn, TensorFlow, PyTorch.

Resumidamente, um data scientist “apenas” precisa entender o negócio, saber fazer as perguntas certas, ser um estatístico, ser um programador e estar familiarizado com um “pequeno” conjunto de ferramentas. O data scientist pode ser identificado como o “joker” do mundo das TI.

E os Data Engineers?

Se um data scientist é um “joker” no mundo IT, um Big Data Engineer é o canalizador do mundo movido a dados. Porquê? Porque tem a responsabilidade de arquitetar/projetar e desenvolver as pipelines de dados (batch ou streaming/NRT) que serão a espinha dorsal das futuras organizações orientadas por dados.

O dia-a-dia de um data engineer consiste em engenharia (sim, a maior parte do nosso trabalho é engenharia!) de pipelines e plataformas de processamento de dados eficientes, que podem levar os dados das organizações das fontes aos destinos de maneira eficiente e adequada com a melhor qualidade possível. Dessa forma, as organizações podem alavancar seu melhor ativo – os seus dados – para fins operacionais (como por exemplo: alimentar back-ends críticos que servem como fundamentos operacionais) e analíticos (ser usado pelos data scientists para extrair insights de mudança estratégicas para a organização, por exemplo). Os data engineers devem ser vistos como facilitadores dos dados e o seu objetivo final deve ser fornecer facilmente os dados para que o data scientist (não exclusivamente) brilhe.

Um bom data engineering pode aumentar em dez vezes a produção dos data scientists, fornecendo dados bons e oportunos no melhor formato para que este último os aproveite.

Normalmente, um engenheiro dos dados é o intermediário no mundo dos dados e é responsável por integrá-los entre várias fronteiras: tecnológicas, políticas, departamentais – isso geralmente torna-o num facilitador e integrador de sistema.

Tira proveito de um muito bom conhecimento em sistemas distribuídos como:

  • Storages Engines (por exemplo, HDFS, S3, NoSQL DBs)
  • Message Brokers (por exemplo, Apache Kafka, Apache Pulsar)
  • Sistemas/estruturas de processamento distribuído (por exemplo, Apache Spark, Apache Hive, Apache Impala, Kafka Streams, Apache Flink)
  • Plataformas de computação em cloud (por exemplo, Azure, AWS)

Um data engineer geralmente trabalha com linguagens de programação/tempos de execução fortemente estruturados e muito eficientes (por exemplo, Scala, Java), que permite produzir pipelines de processamento de dados robustos e muito rápidos. Como data engineer, na maioria das vezes aplica-se a “cola” que anexa vários sistemas (incluindo projetos de data science) e que devem ser bem versado em Python e outras linguagens comuns usadas por data scientists.

A Data engineering também requer um muito bom conhecimento de dados, de forma diferente que os data scientists

É preciso saber como mapear com eficiência as propriedades dos dados (tipo, volume, taxa de produção, relacionamentos, etc.) em mãos para as transformações de processamento mais eficientes, camadas de armazenamento físico e muito mais. Ter um bom conhecimento de linguagens semelhantes a SQL também é desejável.

No final, a equação é: Data Engineer = Sistemas Distribuídos + Software Engineer + Conhecimento de Dados.

Conslusões: Data Engineer ou Data Scientist?

Apesar das suas diferenças, data engineers e data scientists devem coexistir no mesmo meio. Podemos partilhar algumas ferramentas e haver uma sobreposição de competências, mas aquelas que nos definem e os nossos objetivos são muito diferentes e bem estabelecidas . Ambos agregam grande valor ao mundo das TI, mas de maneiras diferentes. Enquanto os engenheiros dos dados se concentram no processamento/tratamento de dados eficiente, movimentação e armazenamento, os cientistas dos dados concentram-se na descoberta de conhecimento e análise dos mesmos. Independentemente do seu caminho específico, a curiosidade é o pré-requisito comum destas carreiras orientadas aos dados.

As futuras plataformas de dados serão construídas por Data Engineers e Data Scientists, que se devem complementar,  em vez de se tentarem ofuscar. Data Engineer ou Data Scientist? Esperamos que descubras a carreira que faz match contigo.

Categories:
  • Blog Xtech Community
Tags:
  • Big Data
  • Careers
  • Data Science
  • IT

Leave a comment

Comments are closed.

Comments

  1. 0
    Como criei impacto através dos dados enquanto Engineer?

    […] estás a tentar aprender mais sobre a função de Data Engineer ou até mesmo quando já decidiste candidatar-te a uma posição de Business Intelligence e […]

Anterior Seguinte
  • Popular
  • Recente
Três dicas para criar um CV de engenharia informática de sucesso
Mai 08, 20

Três dicas para criar um CV de engenharia informática de sucesso

A minha primeira experiência profissional nos estágios de verão da Xpand IT
Set 20, 19

A minha primeira experiência profissional nos estágios de verão da Xpand IT

Como começar a trabalhar em IT? – live instagram
Abr 27, 21

Como começar a trabalhar em IT? – live instagram

Como ser um bom developer? Não é apenas sobre código
Fev 03, 20

Como ser um bom developer? Não é apenas sobre código

Sete conselhos que um junior developer deve saber
Set 16, 19

Sete conselhos que um junior developer deve saber

Teletrabalho: boas práticas para trabalhar em casa (miúdos incluídos)
Mar 31, 20

Teletrabalho: boas práticas para trabalhar em casa (miúdos incluídos)

Cinco razões para continuar a trabalhar na mesma empresa de TI
Jan 22, 20

Cinco razões para continuar a trabalhar na mesma empresa de TI

Data Engineer ou Data Scientist? Descobre a carreira que faz match contigo
Nov 09, 20

Data Engineer ou Data Scientist? Descobre a carreira que faz match contigo

Comecei um novo desafio profissional em teletrabalho. Foi assim a minha experiência
Mai 14, 20

Comecei um novo desafio profissional em teletrabalho. Foi assim a minha experiência

Metodologias ágeis: cinco lições a partir do coaching a diferentes equipas
Dez 26, 19

Metodologias ágeis: cinco lições a partir do coaching a diferentes equipas

10 hacks em Javascript que os developers devem conhecer
Mai 17, 22

10 hacks em Javascript que os developers devem conhecer

10 top skills procuradas num Senior Developer
Abr 21, 22

10 top skills procuradas num Senior Developer

A importância de UX e as suas aplicações no futuro – live instagram
Abr 18, 22

A importância de UX e as suas aplicações no futuro – live instagram

Angular vs React: qual escolher? Conhece aplicações práticas
Mar 14, 22

Angular vs React: qual escolher? Conhece aplicações práticas

5 razões para trabalhares numa consultora de IT
Fev 09, 22

5 razões para trabalhares numa consultora de IT

De Native para Flutter: a opinião de um mobile developer
Jan 07, 22

De Native para Flutter: a opinião de um mobile developer

Termos e Condições de Participação no Passatempo Auscultadores Bluetooth
Dez 20, 21

Termos e Condições de Participação no Passatempo Auscultadores Bluetooth

Como aplicar deployments no Tableau Server através de uma abordagem DevOps?
Dez 14, 21

Como aplicar deployments no Tableau Server através de uma abordagem DevOps?

4 lições que aprendi sobre liderança ao correr uma meia-maratona
Nov 17, 21

4 lições que aprendi sobre liderança ao correr uma meia-maratona

Middleware: tudo o que precisas de saber enquanto software engineer
Nov 10, 21

Middleware: tudo o que precisas de saber enquanto software engineer

pin

Portugal

pin

United Kingdom

pin

Sweden

Carreira em IT logo Xpand IT
Subscrever Newsletter
  • Procurar Oportunidades
  • Oportunidades de Emprego
  • Estudantes & Universidades
  • Life at Xpand IT
  • Trabalhar na Xpand IT
  • Os nossos valores
  • Recursos
  • Blog
  • Webinares e Conteúdos
  • ITalks lives @Instagram
  • Quem Somos
  • Equipas de Produto & Tecnologia
  • Equipas Corporativas
  • O que fazemos
  • Imprensa
  • Contactos
www.xpand-it.com  2022 | All rights reserved
Legal Privacy Policy Terms Of Use
Lisboa 2020 Logo norte 2020
logo Compete 2020
Logo Portugal 2020
Logos CMMI e Pledge 1


X
This website uses Cookies
We use cookies on our website to give you the most relevant experience by remembering your preferences and repeat visits. By clicking “Accept All”, you consent to the use of all the cookies. However, you may visit Cookie Settings to provide a controlled consent.
By browsing our website, you agree to ourCookie Policy
Cookie settingsACCEPT ALL
Manage consent

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessários
Relatório de Consentimento
Os cookies necessários são essenciais para o nosso website funcionar normalmente. Assegurando anonimanente as funcionalidades básicas
CookieDuraçãoDescrição
__rd_experiment_versionsessãoEste cookie é configurado pelo RD Station garante que o utilizador veja sempre a mesma versão de um teste A/B, preservando a experiência e consistência dos dados.
_GRECAPTCHA5 meses 27 diasEste cookie é configuirado pelo Google reCAPTCHA protege o nosso site contra ataques de spam nos formulários de contacto.
cookielawinfo-checkbox-[CATEGORY]1 anoEste cookie é usado pelo plugin GDPR Cookie Consent guarda o consentimento do visitante da [CATEGORIA].
viewed_cookie_policy1 anoEste cookie usado pelo GDPR Cookie Consent plugin para guardar se o visitante consentiu ou não o use the cookies. Não guarda nenhum dado pessoal.
Performance e Analíticos
Estes cookies são usados em análises estatísticas, permitem-nos analisar o comportamente de navegação no nosso site de forma a melhorar os serviços e campanhas que disponibilizamos.
CookieDuraçãoDescrição
__trf.src1 anoEste cookie é configurado pelo RD Station, guarda a referência da origem da visita ao site.
_fbp3 mesesEste cookie é configurado pelo Facebook para exibir anúncios quando estiver no Facebook ou noutra plataforma digital onde é usada publicidade do Facebook
_ga2 anosEste cookie é configurado pelo Google Analytics, calcula dados de visitantes, sessões, campanhas e acompanha o uso do site. O cookie armazena informações anónimas atribuindo um número aleatório para distinguir visitantes únicos.
_ga_[ID]2 anosEste cookie é configurado pelo Google Analytics é usado para distinguir os visitantes.
_gat_UA-[ID]1 minutoEste cookie é configurado pelo Google Analytics, onde o elemento padrão no nome contém um número que identifica o site. É uma variação do cookie _gat usado para limitar a quantidade de dados registados pelo Google em sites de alto volume de tráfego.
_gid1 diaEste cookie é configurado pelo Google Analytics guarda um ID único que é usado para gerar dados estatísticos sobre como o visitante usa o site
_rdtrk9 anos 8 meses 4 dias 9 horas 21 minutosEste cookie é configurado pelo RD Station, guarda a lista de todas as páginas que o visitante acedeu.
AnalyticsSyncHistory1 mêsEste cookie é usado pelo Linkedin para guardar informação sobre quando ocorreu a sincronização com o cookie lms_analytics para os visitantes dos países selecionados.
bcookie2 anosEste cookie é usado pelo Linkedin para guardar informação sobre quando ocorreu a sincronização com o cookie lms_analytics para os visitantes dos países selecionados.
fr3 mesesEste cookie é usado pelo Facebook permite mostrar anúncios relevantes aos visitantes, analisando o comportamento do visitante noutros websites que possuem pixel do Facebook ou o plugin social do Facebook.
rdtrk1 anoEste cookie é configurado pelo RD Station, guarda a lista de todas as páginas que o visitante acedeu.
UserMatchHistory1 mêsEste cookie usado pelo LinkedIn para sincronizar os ID's dos Ads.
YSCsessãoEste cookie é usado pelo Youtube para guardar as visualizações de videos do youtube embebidos em páginas.
yt-remote-connected-devicesnuncaEste cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.
yt-remote-device-idnuncaEste cookie é usado pelo YouTube para guardar as preferências de video do visitante nos videos embebidos.
yt.innertube::nextIdnuncaEste cookie é usado pelo YouTube regista um ID único para guardar quais os vídeos que o visitante visualizou.
yt.innertube::requestsnuncaUsed by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
Outros
Cookies que estão atualmente a ser analisados pela nossa equipa.
CookieDuraçãoDescrição
cookietestsessãoEste cookie está a ser analisado pela nossa equipa.
cxssh_status3 meses 8 diasEste cookie está a ser analisado pela nossa equipa.
Funcionais
Estes cookies são usadas para melhorar a experiência e funcionalidades do nosso website, permitem também guardar as preferências do utlizador para futuras vistas.
CookieDuraçãoDescrição
_icl_visitor_lang_js1 diaEste cookie é configurado pelo WPML WordPress plugin guarda o idioma redirecionado.
bscookie2 anosEste cookie é usado pelo LinkedIn guarda se o utlizador fez login com multi-factor
CONSENT2 anosEste coookie é usado pelo YouTube em videos embebidos e regista dados estatísticos anonimamente.
langsessãoEste cookie é usado pelo LinkedIn para guardar a escolha do idioma do visitante no website linkedin.com.
li_gc2 anosEste cookie é usado pelo Linkedin para guardar o consentimento dos visitantes acerca do uso de cookies não essenciais.
lidc1 diaEste cookie é usado pelo LinkedIn para facilitar a escolha do datacenter.
VISITOR_INFO1_LIVE5 meses 27 diasEste cookie usado pelo YouTube para medir a largura de banda de modo a determinar se o visitante acede à nova ou à antiga interface.
wpml_browser_redirect_testsessãoEste cookie é usado pelo WPML WordPress plugin é usado para testar se os cookies estão ativos no browser.
Salvar e Aceitar
  • Português
  • Inglês