Definição
Conjuntos de dados que são muito grandes e/ou complexos para os tradicionais softwares de processamento de informações, e que se tornaram um valioso recurso social, comercial, científico e político.
Aspectos distintivos
O Big Data deriva de vários fatores: desenvolvimento de computadores de alta potência, novos modelos de soluções de armazenamento, novas técnicas analíticas, ubiquidade da tecnologia da informação, disseminação da internet e de aparelhos sensores e a interconexão digital dos objetos cotidianos com a internet (internet das coisas).
Apesar de a expressão denotar volume, Big Data não se resume a isso. Em primeiro lugar, porque “grande” (Big) é um predicado relacional; ou seja, essa comum definição sugere que os dados são grandes ou volumosos se comparados ao nosso atual poder computacional ou que eles têm um valor absoluto e óbvio de grandeza ou volume, independente de qualquer referência. Esse sentido de superabundância não implica necessariamente em uma sobrecarga às pessoas; se estamos nos tornando ricos em quantidade de dados, é importante lembrar que isso não corresponde a um necessário aproveitamento de todos eles: os dados permanecem um recurso passível de ser explorado. Em segundo lugar, governos, indústrias e a própria academia há muito produzem conjuntos de dados massivos. Basta pensar no censo demográfico. Mas, esses conjuntos foram tradicionalmente produzidos com limites técnicos que restringiam seu aproveitamento: limites materiais e econômicos para armazenamento de enormes volumes de dados; inflexibilidade do meio de armazenagem; delimitação prévia de informações a serem coletadas; imediatismo dos dados (simplificação); predefinição do intervalo de tempo de coleta de dados; exigência de tempo para coleta e processamento; resolução bruta das informações; incomunicabilidade com outros conjuntos de dados.
O que caracteriza o Big Data, então, são: o grande volume de dados, medidos em terabytes ou petabytes; o armazenamento flexível, em extensão (novos campos podem ser adicionados rapidamente) e escala (possibilidade de expansão); a variedade de informações produzidas e processadas; o escopo exaustivo, o que permite a captura de dados pormenores de populações ou sistemas inteiros; a geração contínua de dados; a alta velocidade de criação e processamento desses dados; a resolução mais refinada (exatidão); a natureza relacional, que permite a conjuntividade de diferentes conjuntos.
Retóricas utópicas e distópicas informam que os zilhões de dados possuem muitas utilidades. Big Data já é utilizado, por exemplo, para encontrar o melhor momento para comprar passagens a partir de estatísticas das empresas aéreas; indicar o melhor match a partir de dados pessoais; elaborar uma engenharia de tráfego urbano mais eficiente; detectar sinais de atividade terrorista a partir de registros telefônicos ou de crimes econômicos a partir de transações financeiras; aprimorar a inteligência artificial dos tradutores eletrônicos a partir de sugestões de adequação textual; etc. Por outro lado, é preocupante a utilização dessa tecnologia para fins que possam, deliberadamente ou não, violar direitos fundamentais, como: conduzir a uma nova onda de marketing invasivo; rastrear manifestantes; suprimir a liberdade de expressão; manipular eleições.
A tecnologia do Big Data interessa à criminologia em dois pontos principais: (a) novos conceitos e ferramentas estão sendo desenvolvidos para entender o crime (produção de conhecimento); e (b) a análise do Big Data pode ser empregada como ferramenta para orientar estratégias e decisões político-criminais (polícia preditiva) e judiciais (justiça automatizada).
Análise
Pesquisadores sugerem algumas limitações no recurso ao Big Data. (1) Só porque os dados são acessíveis, isso não torna sua coleta ética (Boyd e Crawford explicam que existe uma diferença entre “estar em público e ser público”). (2) Os dados podem ser confundidos como representação exata da realidade. É um erro presumir, por exemplo, que os “usuários do Twitter” são sinônimo de uma “população” de pesquisa; os usuários da plataforma são um subconjunto particular e não representam a população global; nem mesmo as contas e os usuários são equivalentes, havendo usuários com múltiplas contas e contas utilizadas por muitos usuários – sempre lembrando que muitas contas são robôs (bots) que produzem conteúdo automaticamente sem o envolvimento direto de uma pessoa. (3) As ferramentas do Big Data podem ser facilmente enganadas. Se alguém descobre o que é relevante para a análise de dados, pode se concentrar nisso para chamar a atenção ou deixar de fazê-lo para passar despercebido. (4) Big Data funciona bem com o extremamente comum, o que permite a criação de um padrão, mas falha na análise de coisas menos comuns ou espontâneas. (5) Big Data oportuniza o fenômeno da apofenia, ou seja, a identificação de padrões onde eles não existem em razão da enorme quantidade de dados e das conexões que irradiam em todas as direções. (6) Quando a fonte de informação de uma análise de Big Data é produto do próprio Big Data, pode-se gerar o efeito echo-chamber (câmara de eco), reforçando um círculo vicioso. (7) Embora seja muito bom em detectar correlações, o Big Data não informa se elas fazem sentido. Além disso, existe o risco de que as muitas correlações possíveis amplifiquem eventuais erros. (8) Por sua natureza matemática, Big Data é propenso a dar uma aparência de exatidão científica a informações imprecisas. (9) Big Data carrega uma mitologia própria caracterizada pela crença difundida de que grandes conjuntos de dados oferecem uma forma superior de inteligência e conhecimento que pode gerar insights que eram previamente impossíveis, com a aura de verdade, objetividade e precisão. (10) Contrário ao argumento de que a interpretação do Big Data se torna disponível a qualquer um que consiga visualizar os dados ou decodificar uma estatística, eliminando, assim, o domínio do conhecimento por círculos restritos de profissionais, uma tal interpretação corre o risco de ser anêmica dos saberes produzidos por séculos e de ignorar os efeitos da cultura, da política, da economia etc. – ou seja, os dados podem explicar o “o quê”, mas não são suficientes para explicar o “por quê”. Além disso, o acesso aos dados não é igualitário: existem pessoas ou corporações que têm acesso privilegiado aos dados, recursos ou habilidades disponíveis, estabelecendo novas divisões digitais.
Referências bibliográficas
BOYD, Danah; CRAWFORD, Kate. “Critical Questions for Big Data: Provocations for a cultural, technological, and scholarly phenomenon”, Information, Communication & Society, v. 15, n. 5, June 2012, p. 662-679.
CHAN, Janet. Big Data and Visuality. Oxford Research Encyclopedia of Criminology, 2017.
GOODMAN, Marc. Future crimes: inside the digital underground and the battle for our connected world. London: Transworld Publishers, 2016. [GOODMAN, Marc. Future crimes: tudo está conectado, todos somos vulneráveis e o que podemos fazer sobre isso. São Paulo: HSM, 2014.]
KITCHIN, Rob. “Big Data, new epistemologies and paradigm shifts”, Big Data & Society, Apr/Jun. 2014.
ZAVRSNIK, Ales (ed.). Big Data, crime and social control. London: Routledge, 2018.
Referências artísticas
Sujeito a Termos e Condições (Cullen Hoback, 2013)
Documentário
O documentário critica o modo como corporações e governos utilizam as informações que os usuários fornecem quando fazem buscas na internet, instalam aplicativos, participam de redes sociais e fazem compras on-line.
O Círculo (Dave Eggers, 2013)
Livro
Fábula sobre um futuro presente distópico, no qual uma poderosa empresa de tecnologia, responsável por reunir todos os dados e transações em um sistema operacional universal e criar uma identidade on-line única para seus usuários, se esforça em implementar uma nova era de civilidade e transparência absoluta, levantando questões fundamentais sobre privacidade, liberdade e democracia. O livro se tornou filme, com o mesmo nome, em 2017.
Freiheit 2.0 (Florian Mehnert, 2016)
Projeto
A proposta do projeto foi de transportar a complexa questão do Big Data aos espaços públicos por meio de instalações artísticas. Um de seus quatro elementos consistia num aplicativo de autorrastreamento; baixado por vários usuários, o aplicativo servia de interface entre os dois mundos, colorindo um mapa com os movimentos e trajetos individuais, com o alerta de como os perfis de movimentos se tornaram recursos legíveis e valiosos, criando consciência da sensibilidade dos dados pessoais. Link do projeto: http://www.freiheit2-0.de
Leandro Ayres França
Lattes | Orcid
FRANÇA, Leandro Ayres. Big data. In.: FRANÇA, Leandro Ayres (coord.); QUEVEDO, Jéssica Veleda; ABREU, Carlos A F de (orgs.). Dicionário Criminológico. Porto Alegre: Editora Canal de Ciências Criminais, 2020. Disponível em: https://www.crimlab.com/dicionario-criminologico/big-data/28. ISBN 978-85-92712-50-1.