Como avaliar a qualidade de um algoritmo de IA? Não é uma tarefa fácil

Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.

De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.

Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.

Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados Foto: Dado Ruvic/Reuters

Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.

No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.

Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.

Leia também

A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.

Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.

Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.

Opinião por Alexandre Chiavegatto Filho

Professor Livre Docente de inteligência artificial na Faculdade de Saúde Pública da USP

Tudo Sobre

inteligência artificial

Comentários

Os comentários são exclusivos para assinantes do Estadão.

Já sou Assinante

Alexandre Chiavegatto Filho

Opinião|Como avaliar a qualidade de um algoritmo de IA? Não é uma tarefa fácil

Tecnologia representa uma vasta coleção de informações e por isso é importante saber avaliar esses dados

Leia também

Últimas: Link

Empresas de IA ignoram ditaduras do Oriente Médio para financiar a tecnologia; entenda

Blue Origin faz primeiro voo espacial depois de quase 2 anos e leva 6 tripulantes ao espaço

Humana e pessoal: Chegamos na era da IA vista no filme ‘Ela’ com lançamentos de OpenAI e Google

OpenAI, que treinou IA com livros digitais, tem biblioteca física em sua sede; veja fotos e títulos

Mais lidas

O que o escândalo do vazamento de dados de 37 milhões de casados infiéis ensina sobre a internet

Presidente do Irã, Ebrahim Raisi, morre aos 63 anos em queda de helicóptero

The Economist: os jovens da China estão se rebelando contra as longas jornadas de trabalho

É o fim da Virada Cultural? Ao temer o centro, ela perde a identidade e cria ‘cercas imaginárias’

Ônibus são incendiados durante manifestação em Porto Alegre; cidade ainda tem bairros alagados