Artigo
Tratamento de Dados
Quando não é preciso preencher as lacunas
Uma das principais dificuldades relacionadas ao uso de grandes bancos de dados reside no fato de que, muitas vezes, uma parcela das informações não pode ser utilizada. Isso ocorre por dois motivos principais: dados cadastrados de forma incorreta ou inconsistências acumuladas durante a migração do dado por diferentes sistemas, ao longo do seu ciclo de vida. É um problema recorrente em bancos de dados governamentais e privados em todo o mundo, e tal situação representa um risco para os seus consumidores. No entanto, é possível contornar essa questão utilizando técnicas computacionais e estatísticas.
Considerado uma especialização da mineração de dados, o tratamento de dados faltantes, ou “missing data”, em inglês, é objeto de estudos da estatística, que incorporou melhorias decorrentes dos avanços na ciência da computação. Entre as soluções adotadas estão a imputação de valores, os algoritmos de expectativa e maximização, o apagamento parcial de dados, a análise completa de dados (utilizando-se muitas vezes de ferramentas de inteligência artificial neste processo) e a interpolação.
Bancos de dados governamentais são geralmente trabalhados para que ocorrências de dados faltantes sejam minimizadas. O analista da Superintendência de Suporte e Dados do Serpro, Ednylton Franzosi, explica que esta característica é considerada uma das principais vantagens do uso do conceito de lago de dados. Segundo ele, esta tecnologia permite que “clientes e usuários possam conhecer os dados brutos presentes nos bancos da forma como estão nos sistemas fontes; aplicar suas aferições; tirar suas conclusões de análise mesmo que parciais; e mensurar custos para aplicar processos de melhoria, que podem vir depois da primeira visão fornecida pelos ambientes”.
Ednylton ainda considera que existem ferramentas nativas a lagos de dados que cumprem, de forma satisfatória, funções de indexação e busca (como o Elasticsearch), análise de dados (Pentaho), ciência de dados (RapidMiner) e ferramentas mais robustas (como o R e o Impala). No entanto, ele lembra que todo procedimento de tratamento de dados, nos casos de informações governamentais brasileiras tornadas disponíveis para outros órgãos públicos, deve ser feita de forma paralela à fonte original de informações, para evitar o surgimento de inconsistências nas bases de dados originais.
Para os órgãos do Sisp
O arcabouço de metodologias de enfrentamento a este problema é amplo, mas não é uma necessidade corrente no Serpro, dada a confiabilidade das informações de posse da empresa. De acordo com Rodrigo Hjort, analista da Coordenação Estratégica de Inovação e Governança de TI do Serpro, o GovData, oferece dados que podem ser tratados em paralelo à fonte original para órgãos públicos. “Há uma higienização das informações e nós não temos necessidade de tratar missing data”, diz.
Embora poderoso, o GovData tem como objetivo oferecer aos clientes que tenham acesso ao Sisp (Sistema de Administração dos Recursos de Tecnologia da Informação do Governo Federal, que gere os recursos de informação da administração pública federal) uma chance de conseguir dados de forma rápida, sem ter maiores preocupações com dados sujos. Segundo Ednylton, trata-se de uma estratégia de “data-mart”, onde o cliente paga para realizar pesquisas nas bases de dados disponíveis no GovData.
Já no Datalake RFB, que é hospedado dentro do Serpro, é possível, por parte dos técnicos da Receita Federal do Brasil, o uso de avançadas ferramentas de análise e ciência de dados dentro do ambiente de data lake disponibilizado a eles. Uma parcela destas informações pode ser compartilhada com outros órgãos públicos, ou ainda com o público em geral. Ednylton explica que a diferença entre o GovData e o Datalake RFB é quase como a de comércio por varejo e atacado, respectivamente.
Para o setor privado
Outras soluções de dados fornecidas pelo Serpro, como é o caso do DataValid e das APIs, não exigem tanto “quebra-cabeça” de seus clientes, geralmente empresas privadas. Alfredo Dias, analista da Divisão de Gestão de Produtos de Informação da empresa, ressalta a integridade de um banco de dados de mais de 230 milhões de registros como o da Receita Federal, base das APIs CPF, CNPJ e Nfe. “Missing data é praticamente inexistente, dada a confiabilidade dos dados”, afirma.
Já no caso do DataValid, o analista da Divisão de Produtos em Nuvem, Daniel Ribeiro, reforça que, dada a natureza do produto, não há a possibilidade de haverem dados faltantes. “O dado que entregamos ao cliente é um arquivo processado com o resultado das validações dos campos que nos foram encaminhados. O Datavalid não devolve o dado bruto”, finaliza, ressaltando que o arquivo fornecido ao cliente é fechado e não permite análise dos dados ali contidos de forma bruta.