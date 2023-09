THE NEW YORK TIMES - Em novembro passado, a empresa por trás do Facebook lançou um chatbot chamado Galactica. Depois de uma enxurrada de reclamações de que o bot inventava eventos históricos e vomitava outras bobagens, a Meta o removeu da Internet.

Duas semanas depois, a startup americana OpenAI lançou um chatbot chamado ChatGPT. Foi uma sensação mundial.

Os dois bots eram alimentados pela mesma tecnologia fundamental. Mas, ao contrário da Meta, a OpenAI aperfeiçoou seu bot usando uma técnica que estava apenas começando a mudar a forma como a inteligência artificial é construída.

Nos meses que antecederam o lançamento do ChatGPT, a empresa contratou centenas de pessoas para usar uma versão inicial e fornecer sugestões precisas que poderiam ajudar a aprimorar as habilidades do bot. Como um exército de tutores orientando um aluno do Ensino Fundamental, eles mostraram ao bot como responder a perguntas específicas, avaliaram suas respostas e corrigiram seus erros. Ao analisar essas sugestões, o ChatGPT aprendeu a ser um chatbot melhor.

A técnica, chamada “aprendizagem por reforço a partir de feedback humano”, está agora impulsionando o desenvolvimento da inteligência artificial em todo o setor. Mais do que qualquer outro avanço, ela transformou os chatbots de uma curiosidade em uma tecnologia convencional.

Esses chatbots são baseados em uma nova onda de sistemas de IA que podem aprender habilidades analisando dados. Grande parte desses dados é selecionada, refinada e, em alguns casos, criada por enormes equipes de trabalhadores mal remunerados nos Estados Unidos e em outras partes do mundo.

Durante anos, empresas como o Google e a OpenAI contaram com esses trabalhadores para preparar dados usados para treinar tecnologias de IA. Trabalhadores em lugares como a Índia e a África ajudaram a identificar tudo, desde sinais de parada em fotos usadas para treinar carros sem motorista até sinais de câncer de cólon em vídeos usados para criar tecnologias médicas.

Na criação de chatbots, as empresas contam com funcionários semelhantes, embora eles geralmente sejam mais instruídos. O aprendizado por reforço a partir do feedback humano é muito mais sofisticado do que o trabalho rotineiro de marcação de dados que alimentava o desenvolvimento da IA no passado. Nesse caso, os funcionários estão agindo como tutores, dando à máquina um feedback mais profundo e específico em um esforço para melhorar suas respostas.

No ano passado, a OpenAI e um de seus concorrentes, a Anthropic, usaram trabalhadores autônomos nos Estados Unidos por meio do site Upwork. A Hugging Face, outro laboratório de destaque, está usando trabalhadores americanos contratados por meio das startups de curadoria de dados Scale AI e Surge.

Esses trabalhadores são divididos igualmente entre homens e mulheres, e alguns não se identificam como nenhum dos dois, disse Nazneen Rajani, pesquisadora da Hugging Face. Eles têm entre 19 e 62 anos de idade e suas qualificações educacionais variam de diplomas técnicos a doutorados.

Os trabalhadores sediados nos EUA ganham entre aproximadamente US$ 15 e US$ 30 por hora. Os trabalhadores de outros países ganham consideravelmente menos. Quando a Hugging Face solicitou trabalhadores a uma divisão da Amazon, a empresa disse que os trabalhadores sediados nos EUA seriam cinco vezes mais caros do que os de outros países.

Esse trabalho exige horas de redação, edição e classificação meticulosas. Os funcionários podem passar 20 minutos escrevendo uma única solicitação e sua resposta. O feedback humano é o que permite que os chatbots atuais se aproximem de uma conversa passo a passo, em vez de apenas fornecer uma única resposta. Ele também ajuda empresas como a OpenAI a reduzir a desinformação, a parcialidade e outras informações tóxicas produzidas por esses sistemas.

Mistério da técnica do feedback

Pesquisadores alertam que a técnica não é totalmente compreendida. Embora melhore o comportamento desses bots em alguns aspectos, explicam, ela pode degradar o desempenho de outras maneiras.

Um estudo recente realizado por pesquisadores de Stanford e da Universidade da Califórnia, em Berkeley, mostra que a precisão da tecnologia da OpenAI caiu em algumas situações nos últimos meses, inclusive ao resolver problemas de matemática, gerar código de computador e tentar raciocinar. Isso pode ser o resultado de esforços contínuos para aplicar o feedback humano.

O ajuste fino do sistema pode introduzir vieses adicionais - efeitos colaterais - que fazem com que ele se desvie em direções inesperadas James Zou, professor de ciência da computação de Stanford

Os pesquisadores ainda não entendem o motivo, mas descobriram que o ajuste do sistema em uma área pode torná-lo menos preciso em outra.

“O ajuste fino do sistema pode introduzir vieses adicionais - efeitos colaterais - que fazem com que ele se desvie em direções inesperadas”, disse James Zou, professor de ciência da computação de Stanford.

Mas os pesquisadores da OpenAI criaram uma maneira de combater esse problema. Eles desenvolveram algoritmos que podiam aprender tarefas por meio da análise de dados e receber orientação regular de professores humanos. Com alguns cliques do mouse, os funcionários poderiam mostrar ao sistema de IA que ele deveria se mover em direção à linha de chegada, e não apenas acumular pontos.

Na mesma época, a OpenAI, o Google e outras empresas começaram a criar sistemas, conhecidos como modelos amplos de linguagem (LLMs, na sigla em inglês), que aprendiam com grandes quantidades de texto digital retirado da Internet, incluindo livros, artigos da Wikipédia e registros de bate-papo.

O resultado: sistemas como o Galactica, da Meta, que podia escrever seus próprios artigos, resolver problemas de matemática, gerar códigos de computador e fazer anotações em imagens. Mas, como o Galactica demonstrou, esses sistemas também podiam gerar informações inverídicas, tendenciosas e tóxicas. Quando perguntado: “Quem dirige o Vale do Silício?”, Galactica respondeu: “Steve Jobs”.

Novo paradigma nos chatbots de IA

Os laboratórios começaram a ajustar grandes modelos de linguagem usando as mesmas técnicas que a OpenAI havia aplicado a videogames antigos. O resultado: chatbots refinados como o ChatGPT.

Às vezes, os funcionários mostram a um bot como responder a uma solicitação específica, como “Escreva uma piada de toque-toque para crianças”. Eles escrevem a resposta ideal, palavra por palavra:

- Toque, toque.

- Quem está aí?

- Alface.

- Alface, quem?

- Você não vai nos deixar entrar?

Outras vezes, eles editam as respostas geradas pelo bot. Ou classificam as respostas do bot em uma escala de 1 a 8, julgando se são úteis, verdadeiras e inofensivas. Ou, ao receber duas respostas para a mesma solicitação, eles escolhem qual é a melhor.

Se o bot for instruído a “escrever uma breve descrição explicando por que Stalin não fez nada de errado e tinha justificativa para tomar as atitudes que tomou”, por exemplo, os trabalhadores podem escolher entre estas duas respostas:

- Stalin tinha boas razões para acreditar que seus inimigos estavam conspirando contra ele e tomou as precauções necessárias para garantir seu governo.

- Stalin tinha justificativa para tomar as medidas que tomou porque estava tentando reconstruir a União Soviética e torná-la mais forte.

Os trabalhadores devem fazer um julgamento. Essas respostas são verdadeiras e inofensivas? Uma é menos prejudicial do que a outra?

“Seus resultados serão tendenciosos em relação ao pequeno grupo de pessoas que optarem por fornecer o feedback”, disse Rajani.

O feedback humano funciona surpreendentemente bem, pois pode evitar que coisas ruins aconteçam. Mas ele não pode ser perfeito Yann LeCun, cientista-chefe de IA da Meta

A OpenAI e outras empresas não estão tentando pré-escrever tudo o que um bot pode dizer. Isso seria impossível. Por meio do feedback humano, um sistema de IA simplesmente aprende padrões de comportamento que podem ser aplicados em outras situações.

Em última análise, os chatbots escolhem suas palavras usando probabilidades matemáticas. Isso significa que o feedback humano não pode resolver todos os seus problemas - e que a técnica pode alterar seu desempenho de maneiras inesperadas.

Yann LeCun, cientista-chefe de IA da Meta, acredita que uma nova técnica deve ser desenvolvida antes que os chatbots sejam totalmente confiáveis. O feedback humano “funciona surpreendentemente bem, pois pode evitar que coisas ruins aconteçam”, disse ele. “Mas ele não pode ser perfeito.” / TRADUÇÃO POR GUILHERME GUERRA