DALL-E 2: conheça a inteligência artificial capaz de gerar imagens impressionantes

Junto com Midjourney e Stable Diffusion, sistema é capaz de gerar, a partir de comandos escritos, ilustrações com alto grau de qualidade e criatividade

PUBLICIDADE

Por Bruno Romani
Atualização:
3 min de leitura

A sabedoria popular diz que uma imagem vale mais do que mil palavras. O modelo de inteligência artificial (IA) DALL-E 2 transforma isso em um mantra. Lançado em abril pela OpenAI (empresa fundada por Elon Musk em 2015 (hoje, o bilionário não faz mais parte da companhia), o sistema é capaz de gerar, a partir de comandos escritos, imagens impressionantes tanto em qualidade quanto em criatividade - a mistura de arte com tecnologia está implícita no nome, pois combina o nome do robô Wall-E, do filme homônimo do estúdio de animação Pixar, e o sobrenome do pintor surrealista espanhol Salvador Dalí.

O DALL-E 2 é uma versão modificada do GPT-3, IA capaz de gerar texto também desenvolvido pela OpenAI (empresa fundada por Elon Musk em 2015; hoje, o bilionário não faz mais parte da companhia), e aplica uma técnica chamada de diffusion (ou difusão).

Proposto em 2015, o método tem dois processos. O primeiro acrescenta ruído (ou distorções) em um banco de imagens com descrições (como a foto de um cachorro com uma legenda descrevendo o animal) até que seja impossível identificar os conteúdos. O segundo reverte o processo de ruído até que as imagens sejam formadas.

Em testes, a técnica mostrou-se eficiente não apenas na qualidade das imagens, mas também por ser menos suscetível a erros de funcionamento - os resultados, por exemplo, deixaram para trás as GANs, redes de IA que deram origem aos deep fakes. Assim, mesmo com um número de parâmetros (representações matemáticas de padrões) relativamente pequenos (3,5 bilhões), o DALL-E 2 é capaz de gerar imagens com resolução quatro vezes superior às da primeira geração.

As imagens abaixo foram geradas por IA, usando os modelos DALL-E 2, Midjourney e Stable Diffusion)

Imagens criadas pelas IAs (da esquerda para a direita) DALL-E 2 , MidJourney e Stable Diffusion para o especial do LINK, com comando: "Um artista, com uma pintura a óleo impressionista, em um pôr do sol de uma cidade espanhola" Foto: DALL-E 2 / MidJourney / Stable Diffusion / Estadão

“O DALL-E 2 é uma sacada revolucionária. As técnicas já eram conhecidas, mas ninguém tinha pensado em usá-las para gerar imagens”, conta Fábio Cozman, diretor do Centro para Inteligência Artificial (C4AI) da Universidade de São Paulo (USP).

Continua após a publicidade

O impacto da descoberta foi sentido na maneira como o DALL-E 2 influenciou a criação de modelos parecidos. Poucos meses após a divulgação, surgiram a Midjourney e a Stable Diffusion, duas IAs de geração de imagens com resultados igualmente impressionantes. Não apenas isso, a Meta, holding do Facebook, apresentou uma IA capaz de gerar vídeo a partir de comandos de texto.

“Esses modelos levam o mundo da IA para outro patamar. Agora, eles produzem conteúdo ambíguo, abstrato e vago. Não é mais possível avaliar objetivamente o que é certo ou errado. É preciso jogar na rua e as pessoas vão avaliar com as suas subjetividades”, argumenta Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás (UFG).

O DALL-E 2 é uma sacada revolucionária. As técnicas já eram conhecidas, mas ninguém tinha pensado em usá-las para gerar imagens

Fábio Cozman, diretor do Centro para Inteligência Artificial (C4AI) da Universidade de São Paulo (USP)

A julgar pelos primeiros testes na rua, o futuro é intrigante. Recentemente, o artista Jason M. Allen ganhou concurso anual de arte da Feira do Estado do Colorado, nos EUA. Detalhe: o trabalho apresentado por ele foi criado pelo Midjourney. Assim, além de debates típicos do mundo das artes, geradores de imagem devem enfrentar também questões de viés e de direitos autorais - o banco de imagens Getty Images proibiu em setembro a inclusão de imagens geradas por IA por temores referentes à questão.

Caso supere essas questões, ainda há dúvidas sobre o impacto desses modelos junto a designers, artistas e ilustradores. “Não acredito que haverá substituição, e sim uma cooperação entre máquina e homem”, diz Jean Lucas Lima, programador e consultor em tecnologia. Ao contrário, é possível que uma das profissões do futuro em design envolva saber exatamente como pedir para que a IA produza imagens - já existem manuais de boas práticas disponíveis na rede.

Além do uso óbvio no universo da criatividade, os geradores de imagem podem mudar processos no mundo da moda, da arquitetura e até da gestão de projetos. “Essas IAs darão acesso aos pequenos negócios os recursos que antes não estavam disponíveis no mercado”, diz Lima.