Uma das homenagens para o hacker Aaron Swartz, morto no dia 11, foi organizada pelo Twitter. Usando a hashtag #pdftribute, pesquisadores postaram links para download de seus artigos acadêmicos. Foi uma maneira de honrar o hacker, que enfrentava um processo milionário do governo norte-americano por ter baixado artigos acadêmicos para colocá-los de graça na internet. A homenagem mobilizou milhares de pessoas, mas também levantou críticas sobre sua ingenuidade. Um amigo de Swartz comentou: o hacker não ficaria satisfeito - afinal, o PDF não é um formato aberto o suficiente para facilitar e permitir os hacks e o cruzamento de dados.

Quem luta para conseguir informações detesta o formato PDF - que, não por acaso, é o formato preferido de autoridades e governos para divulgar balanços e relatórios oficiais. É que os scripts que leem os textos não conseguem entender os dígitos do PDF e a conversão é trabalhosa. Para os ativistas, o ideal é que eles estivessem em texto plano, ou "formato legível por máquina".

Na semana retrasada, Jorge Machado, pesquisador do Grupo de Pesquisa em Políticas Públicas para o Acesso à Informação (Gpopai), da USP, pediu à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes), órgão ligado ao Ministério da Educação, informações sobre a avaliação de periódicos. O pesquisador solicitou os dados com base na Lei de Acesso à Informação, mas o pedido foi negado em três instâncias, segundo ele. Para a Capes, o pedido foi atendido: ela alegou que os dados já estavam disponíveis - mas em PDF. Para a entidade, usar esse formato (que é originado a partir de outro documento com os dados brutos) é uma maneira de preservar a "credibilidade" da produção, mesmo que a fonte original - que é o que o pesquisador do Gpopai procurava - não estivesse disponível.

Segundo um pequeno manual proposto pelo inventor da web, Tim Berners-Lee, há algumas condições que definem um "dado aberto". A primeira é que eles estejam disponíveis na web com uma licença aberta (Creative Commons, por exemplo). A segunda é que o formato seja legível por uma máquina (exemplo: uma planilha em vez da imagem escaneada de uma tabela). A terceira definição é que eles estejam em um formato não proprietário (CSV em vez de planilha do Excel). Esses são os requisitos mínimos.

São vários passos, portanto, que demandam uma mudança de mentalidade de instituições e órgãos públicos - e seus funcionários -, e isso vai além da Lei de Acesso à Informação, que entrou em vigor no ano passado (e que, por si só, não garante o acesso pleno à informação pública). É só através da divulgação aberta, ampla e irrestrita que verdades ocultas sob planilhas, números e relatórios vão aparecer.

Aaron mesmo havia baixado milhões de artigos de Harvard para descobrir quem havia financiado os pesquisadores "supostamente independentes", como ele definiu. Para entender essa quantidade imensa de arquivos, é preciso escrever códigos de programação (robôs) que automatizam o processo de leitura e conseguem extrair a exatamente a informação que se procura no meio do texto. É um trabalho que nunca seria executado de maneira braçal, e é por isso que hacks desse tipo são importantes para conseguir informações relevantes que não seriam extraídas de outra maneira - seja para pesquisadores, jornalistas, políticos ou ativistas.

"Eu acho que a maneira como as empresas usam o seu dinheiro para controlar sutilmente as alavancas da democracia é uma das coisas mais importantes e assustadoras que estão acontecendo hoje", Swartz me escreveu sobre o tema, em uma entrevista por e-mail no ano passado. "E eu acho que fornecer evidências claras sobre os detalhes é importante e útil para informar o público sobre o que está acontecendo."

E, como disse o próprio Aaron Swartz em seu manifesto pelo acesso aberto, a informação é poder. "Mas, como todo o poder, há aqueles que querem mantê-lo para si mesmos", escreveu em 2008 em um texto que, em vários países e esferas, faz cada vez mais sentido.

