20-10-2022
Como pode um developer melhorar a qualidade dos dados?
por José Miranda, Data Analytics Engineer @ Xpand IT
Vivemos na era dos dados. Certamente a maioria de nós tem a convicta noção da importância dos mesmos visto que grandes empresas como a Google, Meta, Microsoft, etc. lutam entre si para ganhar o trono do reino dos dados. Mas penso que não podemos debruçar-nos neste mundo somente pela forma monetizada. A verdade é que empresas que procurem lançar produtos ou serviços de qualidade que resultem em conhecimento fidedigno para criação de valor, são e serão as de maior relevância e que com as quais podemos mudar o mundo.
E porque digo isto? Sabias que 75% dos developers e engineers que desenvolvem softwares e sistemas assumem ser os responsáveis da qualidade dos dados? Porque hoje preocupam-nos temas como:
- O ambiente e qual o futuro das gerações
- Os oceanos e como protegê-los renovando os recifes
- Os mercados financeiros e como otimizá-los potenciando ganhos para todos os stakeholders
- As cadeias de distribuição e como torná-las mais eficientes com menos desperdício e exploração de recursos
- A energia, explorando opções mais limpas de forma a tornar o ser humano menos poluente
- O marketing, tentando saber em que termos se pode oferecer uma solução alargada ou que posicionamento utilizar para cada segmento
- E no tecido empresarial, analisando de que formas se podem melhorar os processos empresarias, tornando-as mais atrativas tanto pelo mercado como pelos seus recursos humanos e pela opinião pública
Existem muitos mais mas estes são alguns exemplos para apenas defender que todos estes temas, ou em caso de estar equivocado, quase todos, serão respondidos com dados – que criarão a informação necessária para a tomada da posição certa quando esta está nas mãos das pessoas certas.
E agora, pensa comigo. Se as pessoas certas tiverem a informação certa, o mundo pode mudar e ser melhor daquele que vives hoje. E se a informação certa é originada pelos dados, como é que sabes que os dados que tens… estão certos?
Gosto de usar estas analogias. Quando estás a conduzir, há uma grande probabilidade de utilizares aplicações de GPS. Então, imagina que vais fazer uma viagem. Imagina que o GPS mandou-te virar para uma estrada, que embora mais rápida, está cheia de buracos o que fará com que fures um dos pneus dianteiros. Embora o GPS estivesse a enviar-te por uma via mais rápida, o mesmo não esperava que nessa estrada furasses um pneu. Isto é um exemplo de informação que em parte é correta e noutra parte não.
Num termo mais real, houve um caso que tivemos com um cliente no qual queríamos construir um gráfico que relacionava o budget por cada projeto de inovação. Ou seja, queríamos poder entender quais os projetos que tinham obtido mais budget em cada ano ou por cada departamento. A questão é que estávamos a obter valores completamente absurdos e com erros. E qual a razão disto tudo? Nada mais que a diferença entre uma vírgula e um ponto. Na realidade, a plataforma de onde retirávamos os dados retornava o separador de milhares como uma vírgula enquanto que na ferramenta onde construíamos os gráficos, essa vírgula, correspondia não aos milhares, mas sim às décimas. Perante este cenário teríamos então duas soluções: ou mudávamos o formato na origem, ou no tratamento de dados criávamos uma regra que fizesse a alteração das vírgulas por pontos e vice-versa. No fim, a solução passou pela criação da regra.
Portanto, como é que podes saber que os dados estão certos? Torna-te um Data Engineer ou assume um cargo equivalente e segue alguns dos pontos que deves ter em conta para garantir a qualidade dos dados:
- Primeiro que tudo, tenta entender quais são os intervenientes e qual o teu papel. Tens de saber sempre quem são os responsáveis pelos dados e quem os cria para que possas dirigir-te às pessoas corretas sempre que tenhas alguma questão
- Faz as perguntas corretas. Entende bem o que queres saber e define rigorosamente as perguntas que vão obter o conhecimento que procuras
- Tendo as respostas que procuras, terás dados e é a partir daqui que terás de começar a ser minucioso e tratar os dados de forma a que não existam campos duplicados ou mal colocados, tipos de dados errados, etc. Neste vídeo encontras um bom processo sobre qualidade dos dados
- Além disso, garante que as regras que queres e os cálculos que tencionas fazer estão bem executados e a devolver os valores corretos. Basta uma fórmula mal feita para todos os valores darem errado
- Tendo os dados normalizados e limpos, assegura-te de que tens uma forma de catalogar esses dados para evitar redundâncias. Existe uma dinâmica em que tu próprio crias uma tabela e tens de a atualizar manualmente, ou podes de outra forma, mais moderna usar software que ofereça as funcionalidade de data catalog e data lineage, assim como outras funções nas quais possas definir regras de Machine Learning ou Inteligência Artificial
- Bons exemplos de data catalog podem ser:
Lumada Data Catalog da Hitachi
Purview da Microsoft
- Após teres todo o sistema articulado, tenta perceber padrões de erros ou de dados mal inseridos recorrentemente. Comunica à pessoa ou equipa que possa ser a fonte desses erros de forma a que os mesmos possam ser mitigados. Em caso de impossibilidade, cria regras no teu sistema que tenham em conta a possibilidade desses erros
Conclusão
Garantir a qualidade dos nossos processos nem sempre é fácil e ter a certeza de que os dados estão amplamente limpos a dar cálculos certos e sem duplicados é por vezes um grande bicho de sete cabeças pois nem sempre reparamos em tudo, mas facilmente dominado quando nos tornamos os Hércules dos dados. O que te falei é apenas o básico e o início de um grande processo que podes encontrar em sites como o Dataversity ou em vídeos do YouTube sobre Quality Data Management.
O que esperas? Junta-te a nós e ajuda-nos a melhorar o mundo.
Leave a comment
Comments are closed.