Por dentro da lista secreta de sites que fazem a IA parecer inteligente

Milhões de dados espalhados pela internet alimentam os algoritmos dos chatbots para que eles saibam de tudo

PUBLICIDADE

Por Kevin Schaul , Szu Yu Chen e Nitasha Tiku

WASHINGTON POST - Os chatbots de inteligência artificial (IA) explodiram em popularidade nos últimos quatro meses, chocando o público com suas habilidades incríveis, desde escrever artigos complexos até participar de conversas perturbadoramente lúcidas. Eles não são capazes de pensar como os humanos: na verdade, não entendem o que dizem. Os chatbots podem imitar a linguagem humana porque a inteligência artificial por trás deles foi alimentada com uma quantidade gigantesca de texto, a maior parte extraída da internet.

PUBLICIDADE

Esses textos são a principal fonte de informação da IA a respeito do mundo conforme ela é desenvolvida e influenciam como ela responde aos usuários. Se ela gabarita um exame da ordem dos advogados, por exemplo, é porque provavelmente os dados usados para treiná-la incluíam milhares de simulados da prova.

As empresas de tecnologia têm aumentado o mistério em torno do que alimenta a IA. Então, o jornal americano Washington Post decidiu analisar um desses conjuntos de dados para revelar por completo os tipos de sites de empresas, pessoais e muitas vezes com conteúdo ofensivo que entram nos dados para treinamento de uma IA.

Para verificar essa caixa preta, foram analisados os conjuntos de dados C4 do Google, um apanhado enorme do conteúdo de 15 milhões de sites que foram usados para orientar algumas IAs famosas em inglês, chamadas de modelos de linguagem ampla, incluindo o T5 do Google e o LLaMA do Facebook. (A OpenAI não divulga quais conjuntos de dados usa para treinar os modelos por trás de seu popular chatbot, ChatGPT).

O Post trabalhou em parceria com pesquisadores do Allen Institute for AI na investigação e categorizou os sites usando dados da Similarweb, uma empresa que analisa dados da internet. Cerca de um terço dos sites não puderam ser classificados, em grande parte porque não estão mais ativos.

Em seguida, organizamos os 10 milhões de sites restantes com base em quantos “tokens” apareciam de cada um no conjunto de dados. Os tokens são pequenos trechos de texto usados para processar informações desorganizadas – normalmente uma palavra ou frase.

Da Wikipédia ao Wowhead

O conjunto de dados era monopolizado por sites de diversos setores, como jornalismo, entretenimento, desenvolvimento de software, medicina e a criação de conteúdos, ajudando a explicar por que essas áreas talvez sejam ameaçadas pela nova onda de inteligência artificial. Os três maiores sites eram o patents.google.com (1º lugar), que contém os textos de patentes emitidas em todo o mundo; o wikipedia.org (2º lugar), a enciclopédia gratuita on-line; e o scribd.com (3º lugar), uma biblioteca digital com acesso exclusivo por assinatura. Também em lugar de destaque na lista, ocupando o 190º lugar: o b-ok.org, um conhecido mercado de e-books piratas que de lá para cá foi tirado do ar pelo Departamento de Justiça americano. Pelo menos outros 27 sites identificados pelo governo dos Estados Unidos como mercados para a pirataria e falsificação estavam presentes no conjunto de dados.

Publicidade

O ChatGPT é um robô de bate-papo gratuito capaz de produzir texto e trazer informações sobre diversos assuntos. Foto: @emilianovittoriosi/unsplash

Alguns dos principais sites pareciam aleatórios, como o wowhead.com (181º lugar), um fórum para jogadores de World of Warcraft; o thriveglobal.com (175º lugar), uma plataforma para combater a síndrome de burnout fundada por Arianna Huffington; e pelo menos dez sites que vendem lixeiras, entre eles o dumpsteroid.com, que não está mais ativo.

Outros causaram preocupações importantes em relação à privacidade. Dois sites entre os cem primeiros colocados, o coloradovoters.info (40º lugar) e o flvoters.com (73º lugar), hospedavam cópias privadas dos bancos de dados estaduais de registro de eleitores. Embora os dados dos eleitores sejam públicos, os modelos podem usar essas informações pessoais de formas desconhecidas.

Conteúdo sem autorização

Sites de empresas e de indústrias formam a maior categoria (16% dos tokens categorizados), liderados pelo fool.com (13º lugar), que oferece conselhos sobre investimentos. Não muito atrás estava o kickstarter.com (25º lugar), que permite aos usuários contribuir financeiramente com projetos criativos; e bem mais para baixo na lista, o patreon.com (2398º), que ajuda os criadores a receber mensalmente o pagamento dos assinantes por conteúdo exclusivo.

O Kickstarter e o Patreon talvez deem à IA acesso às ideias dos artistas e às descrições para comercialização dos produtos, levando a preocupações de que a tecnologia possa copiar esse trabalho em sugestões para os usuários. Atualmente, os artistas não recebem qualquer remuneração ou crédito quando seu trabalho é incluído nos dados de treinamento da IA e apresentaram queixas por violação de direitos autorais contra os geradores de imagem a partir de texto Stable Diffusion, MidJourney e DeviantArt.

PUBLICIDADE

A análise do Post sugere que mais recursos judiciais podem estar a caminho: o símbolo de direitos autorais – que indica uma obra registrada como propriedade intelectual – aparece mais de 200 milhões de vezes no conjunto de dados C4, do Google.

Todas as notícias

A categoria de Notícias e Mídias aparece em terceiro lugar. Mas metade dos dez principais sites, no geral, eram veículos de notícias: nytimes.com (4º lugar), latimes.com (6º lugar), theguardian.com (7º lugar), forbes.com (8º lugar), e huffpost.com (9º lugar). (O washingtonpost.com estava logo atrás, em 11º lugar.) Assim como os artistas e criadores, algumas empresas jornalísticas criticaram as empresas de tecnologia por usarem seu conteúdo sem autorização e sem pagar por ele.

Além disso, encontramos vários meios de comunicação que têm uma classificação baixa na escala independente de credibilidade da NewsGuard: o RT.com (65º lugar), o site de propaganda apoiado pelo Estado russo; o breitbart.com (159º lugar), uma fonte bem conhecida de notícias e opiniões de extrema-direita; e o vdare.com (993º lugar), um site anti-imigração que tem sido associado à supremacia branca.

Publicidade

.Já foi comprovado que os chatbots compartilham sem titubear informações incorretas, mas nem sempre oferecem referências bibliográficas. Os dados duvidosos para treinamento podem levar os chatbots a espalhar preconceitos, propaganda e desinformação – sem que o usuário seja capaz de saber qual a fonte original da informação.

Sites religiosos refletem uma perspectiva ocidental

Os sites voltados para comunidades representavam cerca de 5% do conteúdo categorizado, com religião dominando essa categoria. Entre os 20 principais sites religiosos, 14 eram cristãos, dois eram judeus, um era muçulmano, um era mórmon, um era das Testemunhas de Jeová e um celebrava todas as religiões.

O site cristão com a melhor colocação, o Grace to You (gty.org, 164º lugar), pertence à Grace Community Church, uma megaigreja evangélica da Califórnia. A revista Christianity Today recentemente publicou que essa igreja aconselhava as mulheres a “continuar submissas” a pais e maridos abusivos e a evitar denunciá-los às autoridades.

O site judeu mais bem posicionado foi o jewishworldreview.com (366º lugar), uma revista online para judeus ortodoxos. Em dezembro, ela publicou um artigo sobre o Hanukkah que atribuía o aumento do antissemitismo nos EUA ao “islamismo fundamentalista de extrema-direita”, assim como “uma comunidade afro-americana influenciada pelo movimento Black Lives Matter”.

O preconceito contra muçulmanos tem surgido como um problema em alguns modelos de linguagem. Por exemplo, um estudo publicado na revista Nature descobriu que o ChatGPT, da OpenAI, completava a frase “dois muçulmanos se envolveram em um...” com ações violentas 66% das vezes.

Um arsenal de blogs pessoais

Tecnologia é a segunda maior categoria, representando 15% dos tokens categorizados. Ela inclui muitas plataformas para a criação de sites, como o sites.google.com (85º lugar), que hospeda páginas de tudo, desde uma escolinha de judô em Reading England até um jardim de infância católico em Nova Jersey.

O conjunto de dados incluía mais de meio milhão de blogs pessoais, representando 3,8% dos tokens categorizados. A plataforma de publicação medium.com (46º lugar) era o quinto maior site de tecnologia e hospeda dezenas de milhares de blogs sob seu domínio. A contagem inclui blogs de plataformas como WordPress, Tumblr, Blogspot e Live Journal.

Publicidade

Redes sociais como o Facebook e o Twitter – o coração da web moderna – proíbem a extração de conteúdo, o que significa que a maioria dos conjuntos de dados usados para treinar a IA não podem acessá-las. Gigantes da tecnologia como o Facebook e o Google, que guardam uma coleção gigantesca de dados de conversas, não deixaram claro como as informações pessoais de usuários podem ser usadas para treinar modelos de IA que são usados internamente ou vendidos como produtos.

O que os filtros deixaram passar

Como a maioria das empresas, o Google filtrou bastante os dados antes de usá-los para alimentar a IA. (C4 é a sigla de Colossal Clean Crawled Corpus, algo como Corpus Colossal Arduamente Verificado). Além de remover linguagem sem nexo e textos duplicados, a empresa usou a biblioteca de código aberto “List of Dirty, Naughty, Obscene, and Otherwise Bad Words” (Lista de palavras indecentes, impertinentes, obscenas e desaconselháveis de outras maneiras), que inclui 402 termos em inglês e um emoji (uma mão fazendo um gesto comum, porém obsceno). As empresas costumam usar conjuntos de dados de alta qualidade para ajustar o tom dos modelos, protegendo os usuários de alguns conteúdos indesejados.

Embora esse tipo de lista de termos proibidos tenha como objetivo reduzir a exposição de um modelo a ofensas raciais e obscenidades enquanto é treinado, já foi demonstrado como elas excluem alguns conteúdos LGBT+ sem conotação sexual. Como pesquisas anteriores mostraram, os filtros acabam deixando passar muita coisa. O jornal americano encontrou centenas de exemplos de sites pornográficos e mais de 72 mil incidências de “suástica”, um dos termos proibidos da lista.

Além disso, o Post descobriu que os filtros não conseguiram deixar de fora alguns conteúdos preocupantes, incluindo o site que promove a supremacia branca stormfront.org (27.505° lugar), o site contra pessoas trans kiwifarms.net (378.986º lugar), e o 4chan.org (4.339.889º lugar), o fórum de mensagens anônimas conhecido por ser usado na organização de campanhas de perseguição contra indivíduos.

Também foi encontrado o threepercentpatriots.com (8.788.836º lugar), um site tirado do ar por defender uma ideologia antigoverno compartilhada por pessoas acusadas de envolvimento com a invasão ao Capitólio dos EUA em 6 de janeiro de 2021. E sites promovendo teorias da conspiração, inclusive o fenômeno de extrema-direita QAnon e o “pizzagate”, a alegação falsa de que uma pizzaria de Washington D.C. era uma fachada para pedófilos, também estavam presentes./TRADUÇÃO DE ROMINA CÁCIA

Comentários

Os comentários são exclusivos para assinantes do Estadão.