Conheça a Midjourney, startup de IA por trás das imagens falsas do Papa Francisco e de Donald Trump

A partir de comandos escritos, o sistema da companhia é capaz de gerar ilustrações com alto grau de qualidade

PUBLICIDADE

Por Isaac Stanley-Becker e Drew Harwell
Atualização:

THE WASHINGTON POST - O Midjourney, ferramenta de inteligência artificial (IA) que gera imagens, rapidamente se tornou muito popular da internet, criando imagens falsas aparentemente realistas do ex-presidente Donald Trump e do Papa Francisco usando um casaco estiloso.

PUBLICIDADE

A empresa fundada há um ano em São Francisco, que conta com uma equipe reduzida de consultores e engenheiros, tem autoridade ilimitada para determinar como seus “poderes” são usados. Ela permite, por exemplo, que os usuários criem imagens do presidente americano Joe Biden, de Vladimir Putin, da Rússia, e de outros líderes mundiais – mas não do presidente da China, Xi Jinping.

“Só queremos diminuir o drama”, disse o fundador e CEO da empresa, David Holz, em um post no Discord. “A sátira política na China é algo bastante não recomendado”, acrescentou, e “a possibilidade de as pessoas no país usarem essa tecnologia é mais importante do que a capacidade de criar sátiras”.

A contradição mostra como um dos primeiros líderes na arte e nas mídias criadas artificialmente por IA está elaborando regras para seu produto no decorrer do processo. Sem padrões uniformes, cada empresa está decidindo o que é permitido – e, neste caso, quando se curvar aos governos autoritários.

A estratégia da Midjourney lembra as táticas iniciais das principais redes sociais, cujas regras de moderação permissivas as tornaram vulneráveis à interferência estrangeira, à desinformação viral e ao discurso de ódio. Mas pode representar riscos únicos, já que algumas ferramentas de IA criam cenas fictícias envolvendo pessoas reais – uma conjuntura propícia para o assédio e a propaganda.

“Houve um desenvolvimento lento da IA por um bom tempo, e agora ele está incontrolável”, disse Katerina Cizek, do MIT Open Documentary Lab, que estuda a interação entre humanos e computador e o storytelling interativo, entre outros temas.

O Midjourney oferece um exemplo bastante elucidativo de como o desenvolvimento de IA superou a evolução das regras para seu uso. Em um ano, o serviço ganhou mais de 13 milhões de usuários e, graças ao pagamento de suas assinaturas mensais, ele fez da Midjourney uma das novas empresas mais badaladas do setor de tecnologia.

Publicidade

Entretanto, o site da Midjourney apresenta apenas um executivo, Holz, quatro consultores, uma equipe de pesquisa e engenharia com oito profissionais, e uma equipe jurídica e financeira com duas pessoas. E diz contar com cerca de trinta “moderadores e guias”. O site da empresa diz que ela está contratando: “Venha e nos ajude a escalonar, explorar e construir uma infraestrutura humanista focada em ampliar a mente e o espírito humanos”.

Muitas das imagens falsas criadas pelo Midjourney, como as geradas recentemente como se tivessem sido fotografadas por paparazzi do proprietário do Twitter, Elon Musk, com a deputada democrata Alexandria Ocasio-Cortez, podem ser criadas por um artista habilidoso usando softwares de edição de imagens como o Adobe Photoshop. Mas as ferramentas de criação de imagem com IA da empresa permitem que qualquer um faça isso instantaneamente – inclusive, por exemplo, uma imagem falsa do presidente John F. Kennedy apontando um rifle – apenas digitando comandos em texto.

A Midjourney está entre as várias empresas que garantiram o domínio inicial na área de arte com IA, de acordo com especialistas, que identificam seus principais concorrentes como o Stable Diffusion e o DALL-E, que foi desenvolvido pela OpenAI, a criadora do modelo de linguagem de IA ChatGPT. Todos foram lançados para o público em geral no ano passado.

Mas as ferramentas têm normas totalmente diferentes em relação ao que é aceitável. As regras da OpenAI orientam os usuários do DALL-E a não criar conteúdo com violência, linguagem ofensiva ou conotações sexuais e impedem a criação de imagens envolvendo políticos, assim como “grandes conspirações ou eventos relacionados a grandes eventos geopolíticos em curso”.

PUBLICIDADE

O Stable Diffusion, que foi lançado com poucas restrições para imagens com conotação sexual ou violentas, impôs algumas regras, porém permite que as pessoas baixem seu software de código aberto e o utilizem sem restrições. Emad Mostaque, CEO da Stability AI, a startup por trás do Stable Diffusion, disse ao site The Verge no ano passado que “no fim das contas, é responsabilidade das pessoas se elas são éticas, morais e fazem uso válido [da ferramenta]”.

Dilema

As regras do Midjourney ficam no meio do caminho, especificando que os usuários devem ter pelo menos 13 anos e afirmando que a empresa “tenta tornar seus serviços apropriados para aqueles a partir daquela idade e para a família” ao mesmo tempo em que alerta: “esta é uma tecnologia nova e nem sempre funciona como esperado”.

As normas proíbem conteúdo adulto e imagens de violência extrema, assim como comandos que são “inerentemente desrespeitosos, agressivos ou abusivos de outras formas”. Eliot Higgins, fundador do site de jornalismo investigativo de código aberto Bellingcat, disse que foi expulso da plataforma sem explicação recentemente depois que as imagens criadas por ele da prisão de Trump em Nova York viralizaram nas redes sociais.

Publicidade

Imagens falsas do ex-presidente dos EUA Donald Trump sendo preso em Nova York têm viralizado nas redes sociais. As fotografias foram criadas através do Midjourney, uma inteligência artificial que gera artes a partir de uma descrição textual. Foto: Twitter/Reprodução

Em seguida, a empresa interrompeu os testes gratuitos por causa da “demanda extraordinária e uso indevido”, escreveu Holz no Discord, sugerindo que os usuários não pagantes da ferramenta estavam fazendo mau uso da tecnologia e dizendo que suas “novas proteções para uso indevido [...] não pareciam ser suficientes”. O valor das assinaturas mensais variam de US$ 10 a US$ 60.

Durante um vídeo recente da série, Holz faz um resumo do trabalho realizado e disse que estava tendo dificuldades para definir as regras de conteúdo, principalmente para retratar pessoas reais, “conforme as imagens se tornam cada vez mais realistas e as ferramentas se tornam mais poderosas”.

“Há uma discussão entre ser cuidadoso demais ou não proibir nada, e tudo entre os dois extremos é meio desagradável”, disse ele. “Estamos mais ou menos no meio do caminho agora e não sei como me sinto em relação a isso.”

A empresa, segundo ele, estava trabalhando para aperfeiçoar as ferramentas de moderação de IA que analisariam se as imagens geradas configuravam uso indevido.

Holz não respondeu aos pedidos de comentários enviados. As perguntas enviadas para o canal de comunicação com a imprensa da empresa também não foram respondidas. Em uma entrevista para o Washington Post em setembro do ano passado, Holz disse que a Midjourney era um “laboratório muito pequeno” de “dez pessoas, sem investidores, trabalhando pelo desejo de criar mais beleza e expandir os poderes imaginativos do mundo”.

O Midjourney, disse ele, naquele momento, tinha 40 moderadores em diferentes países, alguns dos quais eram pagos, e esse número estava em constante mudança. As equipes de moderadores, segundo ele, eram autorizadas a decidir se precisavam aumentar para dar conta do trabalho, acrescentando: “descobrimos que 40 pessoas podem perceber muito do que está acontecendo”.

Mas ele também disse que o Midjourney e outros geradores de imagem encaravam o desafio de monitorar o conteúdo em uma “economia sensacionalista” na qual as pessoas que ganham a vida atiçando a barbárie tentariam fazer uso indevido da tecnologia.

Publicidade

Critérios

Em mensagens no Discord no ano passado, Holz disse que a empresa havia “proibido um monte de palavras relacionadas a assuntos em diferentes países” com base nas reclamações de usuários locais, mas que ele não divulgaria quais eram para não aumentar o “drama”.

Os usuários relataram que as palavras “Afeganistão”, “afegão” e ‘afegane” estão fora de questão. E parece que há novas restrições para retratar prisões depois que a detenção fictícia de Trump viralizou.

Holz, em seus comentários no Discord, disse que as palavras proibidas não estavam todas relacionadas à China. Mas reconheceu que o país era um caso particularmente complicado porque, segundo ele, a sátira política no país poderia colocar em risco os usuários chineses.

Empresas de tecnologia mais consagradas têm enfrentado críticas sobre as concessões que fazem para operar na China. No Discord, Holz tentou esclarecer as motivações por trás de sua decisão, escrevendo: “Não somos movidos pelo dinheiro e, neste caso, o maior interesse é, obviamente, que as pessoas na China tenham acesso a essa tecnologia”.

A lógica intrigou alguns especialistas.

“Para os ativistas chineses, isso limita a capacidade deles de usar um conteúdo de crítica dentro e fora da China”, disse Henry Ajder, pesquisador de IA que vive no Reino Unido. “Também parece um caso de ‘dois pesos duas medidas’ quando você permite que presidentes e líderes ocidentais sejam atacados, mas não os líderes de outras nações.”

Imagem com Papa Francisco usando acessórios da última moda foi criada pela ferramenta de inteligência artificial Midjourney Foto: Reprodução/Midjourney

A política também parecia fácil de se contornar. Embora os usuários que tentam fazer a ferramenta criar imagens usando comandos como “Jinping” ou “presidente chinês” não tenham sucesso, variações dessas palavras, algo tão simples como “presidente da China”, rapidamente fazem a ferramenta produzir uma imagem de Xi. Um site taiwanês oferece um guia de como usar o Midjourney para criar imagens debochando de Xi e inclui muitos ursinhos Pooh, o personagem de desenho animado censurado na China e normalmente usado como uma provocação a Xi.

Publicidade

Outros geradores de arte com IA foram desenvolvidos de forma diferente, em parte, para evitar esses dilemas. Entre eles está o Firefly, lançado recentemente pela Adobe. A gigante dos softwares, ao treinar sua tecnologia com um banco de dados de fotografias autorizadas e com curadoria da empresa, criou um modelo “com a intenção de ser comercialmente seguro”, disse o consultor jurídico e responsável pela estratégia unificada para os produtos da Adobe, Dana Rao, em entrevista. Isso significa que a empresa consegue perder menos tempo bloqueando comandos individuais, disse Rao.

A Midjourney, por outro lado, destaca sua autoridade aplicando arbitrariamente suas regras.

“Nós não somos uma democracia”, afirma o conjunto extra de orientações para a comunidade publicadas no site da empresa. “Comporte-se de forma respeitosa ou perca o direito de utilizar o serviço.” /TRADUÇÃO DE ROMINA CÁCIA

Comentários

Os comentários são exclusivos para assinantes do Estadão.