Artigo
Na era dos dados
Data Lake e Big Data são tendência no uso de dados públicos
Dois conceitos merecem atenção do setor público brasileiro nos próximos anos: Data Lake e Big Data. Ambos são vistos como responsáveis por possibilitar uma nova forma de formular e prover políticas públicas para o cidadão, e tanto empresas de tecnologia estatais quanto privadas já promovem o seu uso em algumas ferramentas que estão em produção.
Um Data Lake (lago de dados), por exemplo, possibilita que grandes volumes de dados estruturados e não estruturados sejam armazenados de forma flexível e elástica em formatos próximos aos de origem. O objetivo de um lago de dados é apresentar uma visão não refinada das informações para ajudar os profissionais que com eles trabalham a explorar técnicas de análise de dados, independentemente das restrições que possam existir em um armazém de dados tradicional.
Já Big Data refere-se a ativos de informação de alto volume, velocidade e variedade que exigem formas de processamento economicamente viáveis e inovadoras para uma melhor compreensão e tomada de decisão. Para tanto, novas tecnologias precisam ser empregadas no armazenamento e no processamento de dados massivos, mantendo-se economicamente viáveis. Em Big Data, o valor do negócio reside nas conclusões a que se chega a partir dos dados, os quais não podem ser disponibilizados nas tecnologias convencionais devido a restrições inerentes às características desses dados.
O cenário público
Os gestores públicos no Brasil ainda carecem de soluções tecnológicas que apoiem a elaboração e o acompanhamento da execução de políticas públicas. Existem inúmeras bases de dados governamentais que serviriam de insumo para essas soluções, porém o volume massivo desses dados, a heterogeneidade das bases e o alto custo de implementação impedem que tecnologias convencionais de armazenamento e processamento de dados sejam empregadas nessas soluções.
É justamente nesses casos que novos paradigmas são necessários. Uma plataforma de Big Data sustentada por um ambiente tecnológico de Data Lake pode ser usada para gerar informações estratégicas para um órgão público, por meio de ferramentas de descoberta e mineração de dados e de análises estatísticas. Essa plataforma possibilita ainda o cruzamento e a comparação das informações de forma robusta, embasando com maior precisão o desenvolvimento e o monitoramento de políticas públicas, em especial no combate a fraudes e na melhoria da prestação de serviços.
Uma solução construída pelo Serpro que utiliza Data Lake e Big Data é a Plataforma de Análise de Dados do Governo Federal – GovData, que também contou com a colaboração da Dataprev e do Ministério do Planejamento. Nessa plataforma, que pode ser acessada por todos os órgãos do Sistema de Administração de Recursos de Tecnologia de Informação do governo federal (SISP), estão disponíveis dezenas de bases de dados governamentais integradas com diversas ferramentas analíticas avançadas. Por exemplo, a ferramenta de exploração de dados Spotfire e o ambiente de desenvolvimento científico-estatístico R Studio.
E o setor privado?
O Serpro oferece ao setor privado uma oportunidade de uso de grandes volumes de dados públicos, direto da fonte governamental. É o caso das APIs Gov, um conjunto de interfaces de acesso a bases de informação de caráter público, como o CPF, o CNPJ e a Nota Fiscal Eletrônica, de forma instantânea. O acesso a essas informações é feito de forma segura, utilizando uma chave digital criptografada e certificados digitais.