Chatbots espertos começam a enfrentar limitações fundamentais em sua tecnologia

Grandes modelos de linguagem, como os do ChatGPT, parecem ter encontrado um teto em sua arquitetura

PUBLICIDADE

Em 17 de dezembro de 1962, a Life International publicou um quebra-cabeça lógico composto por 15 frases que descreviam cinco casas em uma rua. Cada frase era uma pista, como “O inglês mora na casa vermelha” ou “Bebe-se leite na casa do meio”. Cada casa tinha uma cor diferente, com habitantes de nacionalidades diferentes, que tinham animais de estimação diferentes e assim por diante. A manchete da história perguntava: “Quem é o dono da zebra?” Problemas como esse provaram ser uma medida das habilidades - na verdade, das limitações - dos modelos atuais de aprendizado de máquina.

Também conhecido como quebra-cabeça ou enigma de Einstein (provavelmente uma atribuição apócrifa), o problema testa um certo tipo de raciocínio de várias etapas. Nouha Dziri, cientista pesquisadora do Allen Institute for AI, e seus colegas recentemente colocaram grandes modelos de linguagem (LLMs) baseados na arquitetura transformer, como o ChatGPT, para trabalhar em tais tarefas - e descobriram que eles não eram muito bons. “Eles podem não ser capazes de raciocinar além do que viram durante os dados de treinamento para tarefas difíceis”, disse Dziri. “Ou, pelo menos, fazem uma aproximação, e essa aproximação pode estar errada.”

Problemas lógicos de várias etapas podem confundir os LLMs. Foto: Kristina Armitage/Quanta Magazine

PUBLICIDADE

O enigma de Einstein exige a composição de uma solução maior a partir de soluções para subproblemas, o que os pesquisadores chamam de tarefa de composição. A equipe de Dziri demonstrou que os LLMs que foram treinados apenas para prever a próxima palavra em uma sequência - a maioria deles - são fundamentalmente limitados em sua capacidade de resolver tarefas de raciocínio de composição. Outros pesquisadores mostraram que os transformers têm limites matemáticos rígidos quando se trata de resolver esses problemas. Os cientistas obtiveram alguns sucessos ao ultrapassar esses limites, mas cada vez mais eles parecem ser soluções de curto prazo. Se for esse o caso, isso significa que há limites computacionais fundamentais para as habilidades dessas formas de inteligência artificial (IA), o que pode significar que é hora de considerar outras abordagens.

“O trabalho é realmente motivado para ajudar a comunidade a tomar essa decisão sobre se os transformers são realmente a arquitetura que queremos adotar para o aprendizado universal”, disse Andrew Wilson, especialista em aprendizado de máquina da Universidade de Nova York que não participou desse estudo.

Publicidade

Exame minucioso

Ironicamente, os LLMs são os únicos culpados por essa descoberta de um de seus limites. “A razão pela qual todos nós ficamos curiosos para saber se eles fazem raciocínio real é por causa de suas incríveis capacidades”, disse Dziri. Eles se deslumbraram em tarefas que envolviam linguagem natural, apesar da aparente simplicidade de seu treinamento. Durante a fase de treinamento, é mostrado a um LLM um fragmento de uma frase com a última palavra obscurecida (embora tecnicamente nem sempre seja uma única palavra). O modelo prevê as informações ausentes e, em seguida, “aprende” com seus erros.

Os maiores LLMs - o o1 e o GPT-4 da OpenAI, o Gemini do Google, o Claude da Anthropic - treinam em quase todos os dados disponíveis na internet. Como resultado, os LLMs acabam aprendendo a sintaxe e grande parte do conhecimento semântico da linguagem escrita. Esses modelos “pré-treinados” podem ser treinados ou ajustados para realizar tarefas sofisticadas muito além do simples preenchimento de frases, como resumir um documento complexo ou gerar código para jogar um jogo de computador. Os resultados foram tão poderosos que os modelos pareciam, às vezes, capazes de raciocinar. No entanto, eles também falharam de maneiras óbvias e surpreendentes.

“Em certas tarefas, eles têm um desempenho incrivelmente bom”, disse Dziri. “Em outras, eles são surpreendentemente estúpidos.”

Veja a multiplicação básica. Os LLMs padrão, como o ChatGPT e o GPT-4, falham feio nessa tarefa. No início de 2023, quando a equipe de Dziri solicitou ao GPT-4 que multiplicasse dois números de três dígitos, ele teve sucesso em apenas 59% das vezes. Quando multiplicou dois números de quatro dígitos, a precisão caiu para apenas 4%.

Publicidade

A equipe também testou os LLMs em tarefas como o enigma de Einstein, onde o sucesso também foi limitado. O GPT-4 sempre obteve a resposta certa quando o quebra-cabeça envolvia duas casas com dois atributos por casa. Mas a precisão caiu para 10% quando a complexidade do quebra-cabeça aumentou para quatro casas com quatro atributos por casa. Na versão original da Life International - cinco casas, cada uma com cinco atributos - a taxa de sucesso foi de 0%.

A equipe de Dziri pensava que talvez os LLMs simplesmente não tivessem visto exemplos suficientes em seus dados de treinamento, então eles ajustaram o GPT-3 em 1,8 milhão de exemplos de multiplicação de dois números. Em seguida, quando lhe mostraram novos problemas, o LLM foi bem-sucedido, mas somente se eles fossem suficientemente semelhantes aos que ele havia visto durante o treinamento. Por exemplo, os dados de treinamento incluíam a multiplicação de dois números de três dígitos e de um número de dois dígitos por um número de quatro dígitos, mas quando o modelo foi solicitado a multiplicar um número de quatro dígitos por um número de três dígitos, ele teve sucesso em apenas 2% das vezes. “Se eles estão realmente raciocinando e compreendendo determinadas tarefas, deveriam obter o algoritmo implícito”, disse Dziri. Não foi isso que sua equipe viu. “Isso levanta muitas questões sobre como os LLMs realizam tarefas e se estão fazendo um raciocínio verdadeiro.”

A equipe observou o mesmo padrão quando se tratou de resolver o enigma de Einstein: O GPT-3 falhou quando foi solicitado a responder versões maiores do quebra-cabeça em comparação com as versões em que estava ajustado. “Ele está imitando algo que já viu, mas não tem total compreensão disso”, disse Dziri.

Limites rígidos

Enquanto Dziri e seus coautores finalizavam seus resultados, uma outra equipe estava adotando outra abordagem para entender por que os LLMs tinham dificuldades com tarefas de composição. Binghui Peng, na época um estudante de doutorado na Universidade de Columbia, estava trabalhando com um de seus orientadores, Christos Papadimitriou, e colegas para entender por que os LLMs “alucinam” ou geram informações factualmente incorretas. Peng, hoje pesquisador de pós-doutorado na Universidade Stanford, suspeitava que isso ocorria porque os transformers parecem não ter a “capacidade de composição”.

Publicidade

PUBLICIDADE

Para entender o motivo, imagine que alimentamos um LLM com duas informações: O pai de Frédéric Chopin era Nicolas Chopin, e Nicolas Chopin nasceu em 15 de abril de 1771. Se perguntarmos a ele: “Qual é a data de nascimento do pai de Frédéric Chopin?”, o LLM terá que responder compondo ou juntando os diferentes fatos. De fato, ele precisaria responder à seguinte pergunta aninhada: “Qual é a data de nascimento de (Quem é o pai de (Frédéric Chopin)?)?” Se o LLM prevê as palavras erradas como resposta, diz-se que ele teve uma alucinação - nesse caso, possivelmente como resultado de não ter conseguido resolver a tarefa de composição.

Peng queria testar esse palpite. Sua equipe começou estudando as propriedades de um transformer simples, com apenas uma camada, que aprende a “prestar atenção” à ordem e à posição das palavras de uma frase ao tentar prever a próxima palavra. A equipe estabeleceu uma ligação entre a complexidade da camada do transformer e o “tamanho do domínio”, ou o número de bits necessários para representar as perguntas. Ao se concentrar nesse modelo simples, eles provaram um limite matemático. “Se o número total de parâmetros nesse transformer de uma camada for menor do que o tamanho de um domínio, então os transformadores comprovadamente não poderão resolver a tarefa de composição”, disse Peng. Em outras palavras, um LLM com apenas uma camada era clara e matematicamente limitado.

Embora esse fosse um resultado teórico sólido, suas implicações práticas não eram claras, pois os LLMs modernos são muito mais complexos. “Não é fácil ampliar nossa prova”, disse Peng. Assim, sua equipe usou uma abordagem diferente para estudar as capacidades de transformers mais complicados: Eles recorreram à teoria da complexidade computacional, que estuda os problemas em termos de recursos, como tempo e memória, necessários para resolvê-los.

Eles acabaram usando uma conjectura bem conhecida para mostrar que o poder computacional até mesmo dos transformadores multicamadas é limitado quando se trata de resolver problemas de composição complicados. Então, em dezembro de 2024, Peng e seus colegas da Universidade da Califórnia, em Berkeley, publicaram uma prova - sem depender de conjecturas de complexidade computacional - mostrando que os transformadores multicamadas de fato não conseguem resolver determinadas tarefas de composição complicadas. Basicamente, alguns problemas de composição sempre estarão além da capacidade dos LLMs baseados em transformadores.

Publicidade

“Se seu modelo ficar maior, você poderá resolver problemas muito mais difíceis”, disse Peng. “Mas se, ao mesmo tempo, você também dimensionar seus problemas, isso se tornará novamente mais difícil para modelos maiores.” Isso sugere que a arquitetura do transformador tem limitações inerentes.

Ultrapassando os limites

Para deixar claro, esse não é o fim dos LLMs. Wilson, da NYU, ressalta que, apesar dessas limitações, os pesquisadores estão começando a aumentar os transformers para ajudá-los a lidar melhor, entre outros problemas, com a aritmética. Por exemplo, Tom Goldstein, cientista da computação da Universidade de Maryland, e seus colegas acrescentaram um toque à forma como apresentavam os números a um transformador que estava sendo treinado para somar, incorporando informações “posicionais” extras em cada dígito. Como resultado, o modelo podia ser treinado com números de 20 dígitos e ainda assim adicionar de forma confiável (com 98% de precisão) números de 100 dígitos, enquanto um modelo treinado sem a incorporação posicional extra tinha apenas cerca de 3% de precisão. “Isso sugere que talvez haja algumas intervenções básicas que podem ser feitas”, disse Wilson. “Isso poderia realmente fazer muito progresso nesses problemas sem a necessidade de repensar toda a arquitetura.”

Outra maneira de superar as limitações de um LLM, além de simplesmente aumentar o tamanho do modelo, é fornecer uma solução passo a passo de um problema dentro do prompt, uma técnica conhecida como prompt de cadeia de pensamento (chain of thought). Estudos empíricos demonstraram que essa abordagem pode dar a um LLM, como o GPT-4, uma nova capacidade de resolver mais variedades de tarefas relacionadas. Não se sabe exatamente o motivo, o que levou muitos pesquisadores a estudar o fenômeno. “Estávamos curiosos para saber por que ele é tão poderoso e por que pode fazer tantas coisas”, disse Haotian Ye, um estudante de doutorado da Universidade Stanford.

Quando Ye ainda estava em um curso de graduação na Universidade de Pequim, ele e seus colegas modelaram o comportamento de transformadores com e sem o estímulo da cadeia de raciocínio. Sua prova, usando outro ramo da ciência da computação chamado teoria da complexidade de circuitos, estabeleceu como o estímulo da cadeia de raciocínio essencialmente transforma um grande problema em uma sequência de problemas menores, possibilitando que os transformadores lidem com tarefas de composição mais complexas. “Isso significa que (...) ele pode resolver alguns problemas que estão em uma classe computacional mais ampla ou mais difícil”, disse Ye.

Publicidade

Porém, Ye adverte que o resultado não implica que os modelos do mundo real resolverão de fato problemas tão difíceis, mesmo com a cadeia de raciocínio. O trabalho concentrou-se no que um modelo é teoricamente capaz de fazer; as especificidades de como os modelos são treinados determinam como eles podem chegar a esse limite superior.

Em última análise, por mais impressionantes que sejam esses resultados, eles não contradizem as descobertas das equipes de Dziri e Peng. Os LLMs estão fundamentalmente correspondendo aos padrões que viram, e suas habilidades são limitadas por limites matemáticos. A incorporação de truques e o estímulo da cadeia de raciocínio simplesmente ampliam sua capacidade de fazer uma correspondência de padrões mais sofisticada. Os resultados matemáticos implicam que sempre é possível encontrar tarefas de composição cuja complexidade esteja além das capacidades de um determinado sistema. Até mesmo alguns “modelos de espaço de estado” mais recentes, que têm sido apresentados como alternativas mais poderosas aos transformadores, mostram limitações semelhantes(abre uma nova guia).

Por um lado, esses resultados não mudam nada para a maioria das pessoas que usam essas ferramentas. “O público em geral não se importa se ele está raciocinando ou não”, disse Dziri. Mas para as pessoas que criam esses modelos e tentam entender suas capacidades, isso é importante. “Temos que realmente entender o que está acontecendo por baixo do capô”, disse ela. “Se descobrirmos como eles realizam uma tarefa e como raciocinam, provavelmente poderemos consertá-los. Mas se não soubermos, é aí que é realmente difícil fazer qualquer coisa.”

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em Chatbot Software Begins to Face Fundamental Limitations

Publicidade

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Comentários

Os comentários são exclusivos para cadastrados.