Artigo
Tecnologia
Pescar dados num oceano, em vez de armazenar oceanos de dados
Qualquer mortal que tenha vivido a época das fotografias reveladas em papel e hoje lide com a abundância de fotos digitais – essas em que produzimos de tudo e a toda hora – tem uma vaga noção de como é difícil armazenar e recuperar a informação que desejamos quando o número de registros se multiplica.
Essa questão de lidar com novas grandezas é ainda mais aguda para as organizações. Na verdade, múltiplas vezes mais aguda. A abundância de dados assumiu uma tal escala que “armazenar dados para consultar depois” se tornou um problema que exigiu não apenas novas tecnologias para tratar os dados, mas todo um novo paradigma para lidar com eles, genericamente nomeado Big Data.
Volume sem precedentes
Perguntamos a uma especialista em sistemas de computação, professora em duas universidades federais no Rio de Janeiro: o que vem a ser esse tal de Big Data? Num intervalo entre os compromissos na UniRio e na UFRJ, Fernanda Baião nos respondeu com uma analogia:
“É como se sua organização tivesse um cômodo para armazenar os dados, e com o passar dos anos ampliasse esse cômodo. E tempos depois construísse mais cômodos para continuar provendo armazenamento, até que se chegasse a uma situação na qual não há multiplicação de cômodos que dê conta de acolher os dados gerados. Então, foi necessário arquitetar uma nova forma de lidar com esse volume sem precedentes. É mais ou menos como se esse cômodo tivesse uma janela pela qual os dados estão passando e você tivesse que pensar em modos para: observar esses dados; prever quais são os necessários; selecionar só os relevantes; e trazê-los compactados — em vez de simplesmente pegar todos os dados e puxar para dentro do cômodo”, resume. “É um paradigma diferente dos repositórios tradicionais, mesmo daqueles que tinham características voltadas a prover um maior desempenho”, destaca a professora.
3 Vs
Além do primeiro V, de volume em nova escala, outros dois Vs são frequentemente citados na literatura sobre Big Data: velocidade e variedade. Velocidade relaciona-se ao tempo de resposta exigido para as novas operações, que deixou de ser medido em horas e minutos, passando a se aproximar do tempo real – é só pensar em nossa expectativa, quase sempre atendida, diante de uma operação de busca na internet. Já o terceiro V refere-se à variedade: os dados disponíveis são de qualidade e naturezas diversas – vídeos, imagens, documentos em texto, dados tabulados em diversas linguagens, documentos em outros formatos.
Esses 3 Vs, conjugados, trazem novas possibilidades para os negócios, como explica Geison Souza de Salles, que atua no Serpro em uma área que resume no título a que vem: Gestão de dados e de Bancos de dados corporativos.
“Antigamente dizíamos, em tom de certa admiração: ‘Ah, temos um DW com 4 teras!’. Significava um data warehouse, ou armazém de dados com 4 terabytes de dados. Pensando em Big Data, 4 teras já não é nada. Para se ter ideia, o Receita Data, contratado pela Receita Federal, está sendo entregue com 1 Peta de armazenamento”, exemplifica. “É uma mudança de paradigma, considerando que se tem uma plataforma que é capaz de processar um maior volume de dados, trazendo informação de forma praticamente instantânea para a tomada de decisão e lidando com dados estruturados e com dados não estruturados, de bases diversas”, acrescenta Geison.
A possibilidade de colocar no grande lago de dados tantos as informações modeladas, estruturadas, que foram tratadas previamente para se adequar a um determinado formato, quanto aquelas que não receberam tratamento é um diferencial importante desse paradigma. “Isso permite que outras organizações, que são nossos clientes, não precisem desenvolver sistemas para estruturar dados. Elas vão precisar de pessoas com conhecimento em ciência de dados, mas não, necessariamente, desenvolvedores. É um salto muito grande, tanto para nossos clientes quanto para nós. Já temos muito caminho andado; por outro lado, Big Data ainda não é uma realidade para a totalidade de nossa empresa. Mas o sentido que se aponta para o futuro, neste momento, é esse”, afirma.
Quatro perguntas
No início, eram apenas quatro perguntas: “Quero saber quem recebe Bolsa Família e é servidor público; quem recebe Bolsa Família e é proprietário de veículo; quem recebe Bolsa Família e é empresário; quem recebe Bolsa Família e consta nos registros públicos como pessoa falecida”. As interrogações eram necessidades básicas de um órgão como o Ministério do Planejamento (MP), e chegaram em forma de demanda ao Serpro, há cerca de dois anos.
O problema era que as respostas esbarravam na questão de grandeza, dependiam do cruzamento de vários bancos formados por milhões de dados: 14 milhões no caso do Bolsa Família, outros muitos milhões no caso dos proprietários de veículos, e assim por diante.
A solução foi recorrer a Big Data, a plataforma capaz de operar comparando dados massivos. “Já tínhamos algum estudo sobre o assunto, especialmente em plataformas de desenvolvimento para dados em grande escala. Havíamos preparado alguns ambientes, mas foi a partir da necessidade posta pelo MP que adotamos de fato essa nova plataforma no Serpro”, relembra Rodrigo Hjort, um dos responsáveis pela prospecção de novas tecnologias no Serpro.
“Tínhamos uma reunião semanal com representação de diversas instituições públicas, como Dataprev, Ipea e Ministérios do Planejamento, do Desenvolvimento Social, e do Trabalho. O Planejamento viu nessa dinâmica uma oportunidade de oferecer a vários outros órgãos do governo essa possibilidade de operar dados massivos, e daí nasceu o GovData: cada uma das entidades que aderir pode fazer uso das bases de dados existentes. A autorização para a disponibilização dessas ferramentas é simplificada e, a partir da associação, muitas outras questões do serviço público poderão ser resolvidas”, destaca Rodrigo.
Vida mais fácil e economia
A integração dos dados no GovData possibilitará não apenas que fraudes sejam descobertas, mas também, na outra ponta, que o serviço público não exija da pessoa honesta uma série de comprovações já fornecidas para o próprio Estado. Por exemplo, ao tirar passaporte, não seria mais necessário que o cidadão apresentasse documentos com informações que já são de conhecimento de órgãos públicos, como os comprovantes de quitação de serviço militar e da justiça eleitoral. Gradativamente, o mesmo ocorreria na emissão de outros documentos.
Estima-se que o GovData propicie economia de cerca de R$ 20 milhões anuais ao Ministério do Planejamento com custos de armazenamento, processamento e análise de dados. Nada mal para uma tecnologia que, de quebra, promete ampliar conhecimentos, facilitar a vida dos gestores públicos e diminuir as exigências burocráticas rotineiramente impostas a brasileiras e brasileiros.