Por que a inteligência artificial tem tanta dificuldade em desenhar mãos e dedos?

Se você pedir para uma ferramenta de inteligência artificial criar a imagem de um cavalo tomando chá com um cachorro, ela fará isso de forma inquestionável. O mesmo vale para um urso de pelúcia andando de skate na Times Square. Mas pedir o retrato de uma simples mão humana é um desafio gigantesco para as máquinas. O resultado pode ser uma mãos com quatro, seis ou até oito dedos. Ou então, a mão será “fundida” com qualquer objeto próximo.

Essa limitação dos geradores de imagem virou piada e até um traço notável da tecnologia - muitas vezes, é justamente o que desmascara conteúdos falsos. Na famosa foto inverídica do Papa Francisco usando uma jaqueta puffer, por exemplo, os dedos do líder católico foram uma das primeiras provas apontadas sobre a inautenticidade da imagem — ele segurava um copo de café, mas seus dedos pareciam amassados, e as mãos pareciam ser mais joviais do que as de um idoso de 87 anos. Mas, afinal, porque a IA não consegue desenhar mãos?

Apesar das frequentes atualizações, o desenho de mãos segue sendo um obstáculo para as ferramentas de IA. Foto: Imagem gerada por IA/DALL-E/Canva

Também é difícil para humanos

Embora pequena, a mão é uma das regiões do corpo com maior número de ossos. São 27 ao total que, juntos, permitem mais de 20 articulações. Tudo isso com uma rica quantidade de detalhes, que envolvem unhas, cutículas, veias, linhas, vincos e mais. Não à toa, é um dos desenhos anatômicos mais desafiadores inclusive para artistas, não só para a IA.

Elas não costumam ser o foco de treinamentos

Mãos são pequenas e, na maior parte das imagens reais, elas não são o destaque das imagens. Por vezes, estão escondidas atrás de uma perna ou em um bolso. Ou podem ser ofuscadas pela iluminação, por um objeto que está sendo segurado ou até mesmo por luvas. Assim, as representações nítidas de mãos em diversas poses acabam sendo minoria no conjunto de dados de treinamento dos modelos de IA. E os conjuntos incompletos geram resultados insatisfatórios.

Não é coincidência, portanto, que outros desenhos anatômicos que não aparecem tanto quanto um rosto ou o cabelo, por exemplo, também saiam meio esquisitos em imagens geradas. Orelhas, dedos dos pés e até mesmo dentes do canto da boca podem ser fatores destoantes da realidade em imagens geradas artificialmente.

“Modelos de linguagem não têm uma visão de mundo embutida neles. Eles aprendem via dados. No caso de modelos de imagem, aprendem via pixels das imagens. E, em princípio, ninguém inseriu no algoritmo o fato de que uma mão tem cinco dedos”, pontua Chiavegatto.

Além disso, as ferramentas “estudam” em bancos de imagens bidimensionais. Não sabem reconhecer, portanto, as diversas posições que uma mão e seus cinco dedos conseguem assumir em um mundo tridimensional. E isso, como consequência, torna muito mais limitada a sua reprodução fidedigna.

Ferramentas estão tentando melhorar

As companhias por trás dos modelos de linguagem estão ciente do problema, e em alguns casos melhorias já foram divulgadas. Em 2023, o Midjourney, um conhecido criador de imagens, lançou uma atualização que amenizou o problema, mas criou outro: o software aprimorado foi utilizado para gerar imagens falsas do ex-presidente Trump sendo preso.

Por esse lado, portanto, alguns especialistas comemoram a persistência do ato falho na maioria dos modelos de linguagem, já que ainda pode dar pistas sobre conteúdos deepfake criados com intuitos políticos ou mal intencionados. No entanto, o prazo para dedos extras ou mãos deformadas é possivelmente curto, já que é improvável, ou impossível, de forma mais realista, que as empresas pausem ou diminuam o ritmo de aprimoramento de seus modelos.

Tudo Sobre

inteligência artificial

Comentários

Os comentários são exclusivos para assinantes do Estadão.

Já sou Assinante

Por que a inteligência artificial tem tanta dificuldade em desenhar mãos e dedos?

Pedir para um modelo de linguagem gerar uma imagem simples, como uma mão segurando um copo, geralmente resulta em escassez ou excesso de dedos

Também é difícil para humanos

Leia também

Elas não costumam ser o foco de treinamentos

Ferramentas estão tentando melhorar

Últimas: Cultura Digital

Comprou computador com processador Intel recentemente? Sua máquina pode estar em perigo

Google tenta evitar alucinações de suas IAs com novas medidas; veja o que mudou

Seu navegador de internet está ultrapassado: conheça o Arc, o browser do futuro

Alexa: assistente da Amazon pode chegar em versão paga e mais inteligente ainda em julho

Mais lidas

Abertura das Olimpíadas de Paris mostra a Los Angeles o que não fazer em 2028

Memes da abertura das Olimpíadas: veja os melhores da web

Nikolas extrapolou a imunidade parlamentar ao chamar Lula de ladrão? Veja o que dizem especialistas

Venezuela fecha fronteiras e bloqueia avião com ex-presidentes que observariam eleições

Por que o Brasil não está no futebol masculino nas Olimpíadas 2024?