Fim da Wikipédia? Enciclopédia digital tenta sobreviver à era da inteligência artificial

Projeto colaborativo está ameaçado pelos mesmos sistemas que ajudou a alimentar

PUBLICIDADE

Por Jon Gertner

THE NEW YORK TIMES - No início de 2021, um editor da Wikipédia se viu diante do futuro: o despontar do GPT-3, um precursor dos novos chatbots da OpenAI. Quando este editor testou a nova tecnologia, percebeu que ela não era confiável. O bot misturava facilmente elementos ficcionais (um nome falso, uma citação acadêmica falsa) em respostas factuais e coerentes. Mas ele não tinha dúvidas do potencial dela. “Acho que o dia em que a inteligência artificial (IA) vai escrever uma enciclopédia de alta qualidade chegará mais cedo ou mais tarde”, escreveu ele em “Death of Wikipedia” (A Morte da Wikipédia, em tradução livre), um ensaio postado por elea. Ele acha que um modelo computadorizado poderia, com o tempo, substituir seu amado site e seus editores humanos, assim como a Wikipédia substituiu a Encyclopaedia Britannica, que em 2012 anunciou o fim de sua versão impressa.

A Wikipédia completou 22 anos em janeiro. Ela continua sendo um túnel do tempo para os primórdios utópicos da internet, quando os experimentos com colaboração aberta ainda não tinham perdido território digital para corporações multibilionárias e mineradores de dados, maquinadores da publicidade e marqueteiros das redes sociais. O objetivo da Wikipédia, como seu cofundador Jimmy Wales descreveu em 2004, era criar “um mundo no qual cada pessoa no planeta tenha livre acesso à soma de todo o conhecimento humano”.

PUBLICIDADE

A Wikipédia agora tem versões em 334 idiomas e um total de mais de 61 milhões de artigos. Ela está constantemente entre os dez sites mais visitados do mundo, porém é o único desse grupo seleto (cujos líderes costumam ser Google, YouTube e Facebook) a se abster da motivação pelo lucro. A Wikipédia não publica anúncios, exceto quando está pedindo doações. Ao sugerir repudiar os imperativos do capitalismo, seu sucesso pode parecer surpreendente, até mesmo inexplicável. Alguns wikipedistas comentam que o esforço deles funciona na prática, mas não na teoria.

A Wikipédia não é mais uma enciclopédia, ou, pelo menos, não apenas uma enciclopédia: na última década, ela se tornou uma espécie de rede factual que mantém unido o mundo digital todo. As respostas que recebemos de pesquisas no Google e no Bing, ou da Siri e da Alexa são retiradas em parte dos dados com os quais a Wikipédia foi alimentada em seus bancos de conhecimento. O YouTube também recorreu à Wikipédia para combater a desinformação.

Os novos chatbots com IA costumam devorar o corpus da Wikipédia também. Embora as estimativas de sua influência possam variar, a Wikipédia é provavelmente a fonte individual mais importante no treinamento de modelos de IA. “Sem a Wikipédia, a IA generativa não existiria”, disse Nicholas Vincent, que recentemente passou a integrar o corpo docente da Universidade Simon Fraser, na Colúmbia Britânica.

No entanto, conforme bots como o ChatGPT se tornam cada vez mais populares e sofisticados, Vincent e alguns de seus colegas se perguntam o que acontecerá se a Wikipédia, encurralada pela IA que a canibalizou, for afetada pela falta de uso e abandono. Em tal futuro, um desfecho como “A Morte da Wikipédia” talvez não seja tão absurdo.

Em uma teleconferência em março que focou nas ameaças da IA à Wikipédia, os editores demonstravam em preocupações. Eles questionavam se os usuários escolheriam cada vez mais o ChatGPT – rápido, fluido, quase um oráculo – em vez de um texto menos atraente da enciclopédia. Uma das principais preocupações entre os editores era como os wikipedistas poderiam se proteger de um intruso tecnológico tão ameaçador como este.

Publicidade

Uma conclusão da teleconferência foi bastante clara: queremos um mundo no qual o conhecimento seja criado por seres humanos. Mas será que é tarde demais para isso?

Em 2017, a Fundação Wikimedia e sua comunidade de voluntários começaram a investigar como a enciclopédia e seus sites irmãos, como o Wikidata e o Wikimedia Commons poderiam evoluir até 2030. O plano era garantir que a fundação, uma organização sem fins lucrativos que supervisiona a Wikipédia, pudesse proteger e compartilhar as informações do mundo para sempre. Um resultado dessa iniciativa de 2017 foi a previsão de que a Wikimedia se tornaria “a infraestrutura essencial do ecossistema do conhecimento livre”; outra conclusão foi que tendências como a desinformação online em breve exigiriam muito mais vigilância. E um artigo fruto de uma pesquisa encomendada pela fundação revelou que a IA estava melhorando em um ritmo que poderia mudar a forma como o conhecimento é “coletado, reunido e sintetizado”.

Wikipédia vive momento de dúvidas com a popularização dos chatbots Foto: Yves Herman/Reuters

Por essa razão, o lançamento do ChatGPT não provocou surpresa dentro da comunidade da Wikipédia. Apesar de sua aparência sem graça, a Wikipédia está mais por dentro da tecnologia do que os usuários ocasionais talvez suponham. Com um pequeno grupo de voluntários para fiscalizar milhões de artigos, é necessário que editores altamente experientes, muitas vezes conhecidos como administradores, usem softwares semiautomatizados para identificar erros ortográficos e detectar certas formas de desinformação intencional. E por causa de seu sistema de código aberto, a organização algumas vezes incorporou tecnologias disponibilizadas gratuitamente por empresas de tecnologia ou pesquisadores, em vez de passar por um processo de desenvolvimento demorado e caro por conta própria. “Temos ferramentas de inteligência artificial e bots desde 2002, e temos uma equipe voltada para o aprendizado de máquina desde 2017″, diz Selena Deckelmann, diretora de tecnologia da Wikimedia. “Elas são extremamente úteis para revisão de conteúdo semiautomática e principalmente para traduções.”

Entretanto, a forma como a Wikipédia utiliza bots e como os bots usam a Wikipédia são extremamente diferentes. Durante anos, ficou claro que sistemas de IA inexperientes estavam sendo treinados com base nos artigos do site. Nos primeiros dias desses modelos, cerca de uma década atrás, a Wikipédia representava uma grande porcentagem dos dados extraídos usados para treinar máquinas. A enciclopédia foi crucial não só porque é gratuita e acessível, mas também porque contém uma fonte abundante de fatos e muito de seu material é formatado constantemente.

CONTiNUA APÓS PUBLICIDADE

Nos últimos anos, à medida que os chamados grandes modelos de linguagem (LLMs) cresciam em tamanho e funcionalidades – esses são os modelos por trás de chatbots como o ChatGPT e o Bard –, eles começaram a absorver quantidades muito maiores de informações. Em alguns casos, o conteúdo ingerido por eles é superior a mais de um trilhão de palavras. As fontes incluem não apenas a Wikipédia, mas também o banco de dados de patentes do Google, documentos governamentais, o corpus de perguntas e respostas do Reddit, livros de bibliotecas on-line e um número imenso de notícias da web. Mas, embora a contribuição da Wikipédia em termos de volume geral esteja diminuindo, ela continua sendo uma das maiores fontes individuais dos LLMs.

Jesse Dodge, cientista da computação do Allen Institute for AI, em Seattle, disse que a Wikipédia talvez represente hoje de 3% a 5% dos dados extraídos usados para treinar um LLM. “A Wikipédia daqui para frente será sempre supervaliosa”, destaca Dodge, “porque é um dos maiores conjuntos de dados com boa curadoria existentes”.

Conflito histórico

O objetivo fundamental da Wikipédia é espalhar o conhecimento o máximo possível e da forma mais livre possível, por qualquer meio. Cerca de dez anos atrás, quando os administradores do site estavam focados em como o Google vinha usando a Wikipédia, eles estavam numa situação que pressagiava o advento dos chatbots de IA. O motor de busca do Google era capaz de apresentar no topo dos resultados das consultas o trabalho dos wikipedistas, dando à enciclopédia um alcance muito maior do que antes. Em 2017, três cientistas da computação e pesquisadores, Connor McMahon, Isaac Johnson e Brent Hecht, conduziram um experimento que testou como os usuários aleatórios reagiriam se apenas parte das contribuições aos resultados de pesquisa do Google pela Wikipédia fossem removidas. Eles constataram uma “grande interdependência”: a Wikipédia torna o Google um motor de busca “significativamente melhor” para muitas consultas, e a Wikipédia, por sua vez, consegue a maior parte de seu tráfego a partir do Google.

Publicidade

Uma consequência do conflito com o Google e outras empresas que reutilizam o conteúdo da Wikipédia foi a criação, dois anos atrás, da Wikimedia Enterprise, uma unidade de negócios à parte que vende acesso a uma série de interfaces de programação de aplicativos (APIs) que fornecem atualizações aceleradas para artigos da Wikipédia - no total, a unidade arrecadou US$ 3,1 milhões em 2022.

No entanto, as APIs tornam os novos textos da Wikipédia legíveis quase instantaneamente. Isso acelera o que já era uma conexão muito rápida. Andrew Lih, consultor que trabalha com museus para inserir dados de suas coleções na Wikipédia, disse que conduziu um experimento em 2019 para ver quanto tempo levaria para um novo artigo da Wikipédia, sobre uma balonista pioneira chamada Vera Simons, aparecer nos resultados de pesquisa do Google. Ele descobriu que o tempo transcorrido era de cerca de 15 minutos.

ChatGPT mudou a forma como pesquisamos informação na internet  Foto: Richard Drew/AP

Entretanto, a estreita relação entre os motores de busca e a Wikipédia tem suscitado algumas questões existenciais para a enciclopédia. Pergunte ao Google: “O que é a guerra da Rússia contra a Ucrânia?” e a Wikipédia é creditada, com parte de seu material brevemente resumido. Mas e se isso diminuir as chances de você visitar o artigo da Wikipédia, que tem cerca de dez mil palavras e mais de 400 notas de rodapé? Do ponto de vista de alguns editores da Wikipédia, a redução do tráfego simplificará demais nossa compreensão do mundo e dificultará o recrutamento de uma nova geração de colaboradores. Isso talvez também signifique menos doações.

Com a IA, este problema da reutilização ameaça tornar-se bem mais generalizado. Aaron Halfaker, que liderou a equipe de pesquisa de aprendizado de máquina na Fundação Wikimedia durante vários anos, diz que os resumos dos motores de busca pelo menos oferecem aos usuários links, citações e uma forma de chegarem até a Wikipédia. As respostas dos chatbots podem parecer um milkshake de informações que é digerida sem esforço, mas contém ingredientes misteriosos. “A capacidade de gerar uma resposta basicamente mudou”, disse ele, observando que em uma resposta do ChatGPT não há “literalmente nenhuma citação e nenhuma referência bibliográfica de onde aquela informação veio”. Ele faz a comparação com os motores de busca do Google ou do Bing: “Isso é diferente. Isso é muito mais poderoso do que aquilo que tínhamos antes.”

Um cientista da computação que trabalha no setor de IA (mas não tem permissão para falar publicamente de seu trabalho) disse que essas tecnologias são extraordinariamente autodestrutivas, ameaçando extinguir por completo o mesmo conteúdo do qual dependem para serem treinadas. Acontece que muitas pessoas, incluindo algumas no setor de tecnologia, ainda não perceberam as implicações delas.

Perigos da alucinação

Por mais difícil que a busca pela verdade possa ser para os wikipedistas, ela parece consideravelmente mais difícil para os chatbots de IA. O ChatGPT tornou-se famoso pela má-fama de gerar pontos de dados fictícios ou citações falsas conhecidas como “alucinações”. Uma preocupação com a IA generativa na Wikipédia – cujos artigos sobre diagnósticos médicos e tratamentos são bastante visitados – está relacionada com informações sobre saúde. Um resumo da teleconferência de março sintetiza a questão: “Estamos colocando a vida das pessoas nas mãos dessa tecnologia, que pode estar errada e as pessoas morrerão”.

Esta apreensão se estende não apenas aos chatbots, mas também aos novos motores de busca combinados com tecnologias de IA. Em abril, uma equipe de cientistas da Universidade Stanford avaliou quatro desses motores alimentados por IA – Bing Chat, NeevaAI, perplexity.ai e YouChat – e descobriu que só cerca de metade das frases geradas pelos motores de busca em resposta a uma consulta poderiam ser totalmente corroboradas por citações factuais. “Acreditamos que esses resultados são preocupantemente baixos para sistemas que talvez funcionem como a principal ferramenta inicial para usuários em busca de informações”, concluíram os pesquisadores.

Publicidade

O que torna o objetivo da precisão tão irritante para os chatbots é que eles operam probabilisticamente ao escolher a próxima palavra numa frase. “Esses modelos são construídos para gerar texto que pareça com o que uma pessoa diria – essa é a chave”, disse Jesse Dodge. “Portanto, sem dúvidas, eles não são construídos para serem confiáveis.”

Jimmy Wales criou a Wikipédia para difundir conhecimento  Foto: Tiago Queiroz/Estadão

Margaret Mitchell, que trabalha como cientista-chefe de ética na empresa de IA Hugging Face, disse acreditar que as empresas de IA vão ganhar precisão e reduzir as respostas enviesadas usando dados melhores. Jesse Dodge, por sua vez, chama a atenção para uma ideia conhecida como “recuperação”, segundo a qual um chatbot consultará essencialmente uma fonte de alta qualidade na web para verificar os fatos de uma resposta em tempo real. “Sem esse elemento de recuperação”, disse Dodge, “não acho que exista um modo de resolver o problema da alucinação”. Caso contrário, ele duvida que uma resposta de chatbot possa ganhar paridade factual com a Wikipédia ou com a Encyclopaedia Britannica.

A concorrência no mercado também pode ajudar a estimular melhorias. Owain Evans, pesquisador de uma organização sem fins lucrativos em Berkeley, na Califórnia, que estuda a veracidade nos sistemas de IA, ressaltou que a OpenAI agora tem várias parcerias com empresas que vão se preocupar bastante com as respostas conquistarem um nível alto de precisão. Enquanto isso, o Google está desenvolvendo sistemas de IA para trabalhar em conjunto com profissionais da saúde na identificação de doenças e diagnósticos.

Novas tentativas

No fim de junho, comecei a experimentar um plug-in que a Fundação Wikimedia desenvolveu para o ChatGPT, que visava assinantes que queiram respostas aprimoradas em suas consultas à ferramenta. O efeito é semelhante ao processo de “recuperação” que Jesse Dodge supõe ser necessário para produzir respostas precisas. O plug-in da Wikipédia ajuda o bot a acessar informações sobre eventos até os dias atuais. Pelo menos em teoria, a ferramenta oferece aos usuários uma experiência combinatória aprimorada: a fluência e as habilidades linguísticas de um chatbot de IA associadas à factualidade e à aceitação da Wikipédia.

Nos testes, fiz perguntas sobre o submersível Titan, operado pela empresa OceanGate, cujo paradeiro durante uma tentativa de visita aos destroços do Titanic ainda era desconhecido. As respostas me pareceu inteligíveis, bem embasadas e atuais – uma grande melhoria em relação a uma resposta do ChatGPT que deturpava os fatos.

Dentro da comunidade da Wikipédia, há um sentimento cauteloso de esperança de que a IA, se gerenciada da forma correta, ajudará a organização a melhorar em vez de acabar com ela. Selena Deckelmann, diretora de tecnologia, manifesta essa perspectiva de um modo mais otimista. “O que provamos há mais de 22 anos é: temos um modelo de voluntariado viável”, disse.

O plug-in da Wikimedia é o primeiro passo significativo para proteger o futuro da enciclopédia. Também estão sendo desenvolvidos projetos para utilizar internamente os avanços recentes na IA. Um foco é fazer com que os modelos de IA ajudem os novos voluntários, digamos, com instruções passo a passo por meio do chatbot conforme eles começam a trabalhar em novos artigos, um processo que envolve muitas regras e protocolos e com frequência afasta os recém-chegados da Wikipédia.

Publicidade

Leila Zia, chefe de pesquisa da Fundação Wikimedia, diz que sua equipe também estava trabalhando em ferramentas que poderiam ajudar a enciclopédia prevendo, por exemplo, se um novo artigo ou edição deveriam ser rejeitados. Ou, disse ela, talvez um colaborador “não saiba como fazer citações” – nesse caso, outra ferramenta indicaria como fazê-las.

Resistência

No momento, enquanto a comunidade da Wikipédia debate as regras e políticas, o envio de artigos escritos apenas por LLMs são fortemente desencorajados na versão em inglês da enciclopédia. No entanto, os chatbots têm uma capacidade formidável de produzir algo em série. E com os modelos de IA melhorando na imitação dos estilos de escrita das pessoas, pode ser cada vez mais difícil identificar os textos escritos por chatbots.

Três anos atrás, em antecipação ao 20º aniversário da Wikipédia, Joseph Reagle, professor da Universidade Northeastern, escreveu um ensaio histórico examinando como a morte do site havia sido prevista inúmeras vezes. No entanto, a Wikipédia encontrou maneiras de se adaptar e resistir. Reagle me disse que o debate recente em torno da IA o faz lembrar dos primeiros dias da Wikipédia, quando sua qualidade era pouco atrativa em comparação com as demais enciclopédias.

“Assim como a Wikipédia não é perfeita, o ChatGPT não é perfeito – nunca será perfeito –, mas qual é o valor relativo dado as outras informações que estão por aí?” O futuro, na visão dele, seria um conjunto de opções para ter acesso a informações, com o risco sob responsabilidade de quem escolhe onde se informar, incluindo tudo, desde o ChatGPT a Wikipédia, passando pelo Reddit e pelo TikTok. Até lá, um plug-in específico poderia aprimorar as respostas dos chatbots para perguntas sobre, por exemplo, saúde, clima ou história.

No momento, apostar contra a IA é remar contra a maré. As gigantes da tecnologia, investindo bilhões nas novas tecnologias e em grande parte sem se deixar intimidar pelas falhas ou riscos delas, parecem determinadas a avançar o mais rápido possível. Essas dinâmicas sugeririam que organizações como a Wikipédia serão forçadas a se adaptar. No entanto, muitos wikipedistas e pesquisadores com quem conversei questionam qualquer suposição desse tipo. Por mais impressionantes que sejam os chatbots, o aparente caminho da IA para o sucesso talvez se depare em breve com uma série de obstáculos.

O Parlamento Europeu está atualmente estudando um novo marco regulatório que, entre outras coisas, obrigaria as empresas de tecnologia a identificar conteúdos gerados por IA e a divulgar mais informações a respeito dos dados de treinamento dela. Enquanto isso, o Congresso americano está considerando vários projetos de lei para regulamentar a IA.

Europa quer regular avanços na IA  Foto: Geert Vanden Wijngaert/Bloomberg

Os fornecedores de dados também podem exercer outros tipos de influência nessa trajetória. Em abril, o Reddit anunciou que não disponibilizaria seu corpus para as gigantes da tecnologia extraí-lo de graça. Parece muito improvável que a Fundação Wikimedia possa fazer o mesmo e bloquear seus sites. Entretanto, a fundação poderia apresentar argumentos em nome da justiça e apelar para as empresas pagarem por sua API, como o Google faz hoje. Ela poderia ainda insistir que os chatbots dessem crédito à Wikipédia e oferecessem citações em suas respostas.

Publicidade

Sem ser alimentado pelos milhões de páginas da Wikipédia ou extrair as discussões do Reddit sobre reviravoltas na trama da série “O urso”, os novos LLMs não conseguiriam ser treinados adequadamente. Na verdade, ninguém com quem conversei na comunidade de tecnologia parecia saber se seria possível criar um modelo de IA bom sem a Wikipédia.

No final de maio, vários pesquisadores de IA colaboraram para um artigo que examinou se novos sistemas de IA poderiam ser desenvolvidos a partir do conhecimento gerado por modelos de IA existentes no lugar dos bancos de dados gerados por humanos. Eles descobriram uma pane sistêmica – uma falha que chamaram de “colapso do modelo”. Os autores perceberam que o uso de dados de uma IA para treinar novas versões de IAs leva ao caos. Os dados sintéticos, escreveram eles, acabam “poluindo o conjunto de dados para treinamento da próxima geração de modelos; ao serem treinados com dados contaminados, eles compreendem de forma equivocada a realidade”.

A lição aqui é que será um desafio criar novos modelos a partir de modelos antigos. E com os chatbots, segundo Ilia Shumailov, pesquisadora da Universidade Oxford e a autora principal do artigo, as consequências negativas são semelhantes. Ilia disse que sem dados humanos no treinamento, “seu modelo de linguagem começa a ficar completamente alheio ao que você pede para ele solucionar e começa apenas a falar em círculos sobre o que der vontade, como se tivesse entrado num modo lunático”. Se no futuro a Wikipédia fosse entupida de artigos gerados pela IA, o mesmo ciclo seria perpetuado.

Em última análise, o estudo concluiu que o valor dos dados de “interações humanas genuínas” será cada vez maior para os futuros LLMs. Mas há muitas questões no ar. O encanto de uma conversa com um chatbot, apesar das falhas factuais dele, já parece irresistível demais e fascinante para muitos milhões de pessoas. Na verdade, as horas que passei com o ChatGPT prejudicaram meu ponto de vista neutro – não porque a troca de informações foi criteriosa (não foi), mas porque a interação foi muito cativante e simples. /TRADUÇÃO DE ROMINA CÁCIA

Comentários

Os comentários são exclusivos para assinantes do Estadão.