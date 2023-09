O ChatGPT aprendeu a falar. A OpenAI, empresa de inteligência artificial (IA), lançou nesta segunda-feira, 25, uma versão do chatbot que pode interagir com as pessoas usando a fala. A ferramenta vai funcionar de forma semelhante às respostas que assistentes virtuais — como a Alexa, da Amazon — oferecem hoje e deve ser aprimorada para ter uma conversação “natural” com os usuários.

Já há algum tempo, assistentes de voz como a Alexa e a Siri, da Apple, oferecem maneiras de interagir com smartphones e outros dispositivos por meio da fala. Mas os chatbots, como o ChatGPT e o Google Bard, têm habilidades linguísticas mais poderosas e são capazes de escrever instantaneamente e-mails, poesias e trabalhos de conclusão de curso, além de falar sobre praticamente qualquer assunto que lhes seja apresentado.

A OpenAI combinou essencialmente os dois métodos de comunicação. A empresa vê a conversa como uma forma mais natural de interagir com seu chatbot. Ela argumenta que as vozes sintéticas do ChatGPT - as pessoas podem escolher entre cinco opções diferentes, incluindo vozes masculinas e femininas - são mais convincentes do que outras usadas com assistentes digitais populares.

Na prática, a plataforma para usar a ferramenta por voz é a mesma que já existe para o ChatGPT. Por meio de um botão de áudio, o usuário pode perguntar para o chatbot por alguma informação ou dar algum comando. O LLM do ChatGPT consegue transformar a informação em texto para fazer a pesquisa na base de dados e, com o resultado, vai responder à pergunta também por meio de voz.

A versão do chatbot com voz vai estar disponível já nas próximas semanas, de acordo com a empresa, mas apenas para quem assina o plano ChatGPT Plus, que custa cerca de R$ 100 por mês. O serviço também não vai poder ser usado por meio do site em desktops, apenas dispositivos como celulares e tablets, com o app da empresa, poderão receber o recurso.

Corrida

A OpenAI acelerou o lançamento de suas ferramentas de IA nas últimas semanas. Este mês, ela revelou uma versão de seu gerador de imagens DALL-E e incorporou a ferramenta ao ChatGPT. Com a nova versão do bot, a OpenAI está indo além dos rivais diretos, como o Google Bard, ao mesmo tempo em que compete com tecnologias mais antigas, como Alexa e Siri.

Continua após a publicidade

Embora a interface de voz do ChatGPT seja uma reminiscência dos assistentes anteriores, a tecnologia é fundamentalmente diferente. O ChatGPT é orientado principalmente por um modelo de linguagem ampla (LLM, na sigla em inglês), que aprendeu a gerar linguagem instantaneamente, analisando grandes quantidades de texto retiradas da internet.

Os assistentes mais antigos, como Alexa e Siri, agiam como centros de comando e controle que podiam executar um número definido de tarefas ou dar respostas a uma lista finita de perguntas programadas em seus bancos de dados, como “Alexa, acenda as luzes” ou “Como está o tempo?”. A adição de novos comandos aos assistentes mais antigos pode levar semanas. O ChatGPT pode responder com autoridade a praticamente qualquer pergunta feita a ele em segundos, embora nem sempre esteja correto.

Enquanto a OpenAI está transformando o ChatGPT em algo mais parecido com a Alexa ou a Siri, empresas como a Amazon e a Apple estão transformando seus assistentes digitais em algo mais parecido com o ChatGPT.

Na semana passada, a Amazon apresentou uma prévia de um sistema atualizado para a Alexa que visa a uma conversa mais fluida sobre “qualquer assunto”. O sistema é parcialmente impulsionado por um novo LLM e conta com outras atualizações de ritmo e entonação para que a conversa soe mais natural, segundo a empresa.

A Apple, que não compartilhou publicamente seus planos para competir com o ChatGPT, está testando um protótipo de seu modelo de linguagem ampla para produtos futuros, de acordo com duas pessoas familiarizadas com o projeto disseram ao jornal americano The New York Times.

Imagens

Continua após a publicidade

Pela primeira vez, o ChatGPT também pode responder a imagens. As pessoas podem, por exemplo, carregar uma foto do interior de sua geladeira, e o chatbot pode fornecer uma lista de pratos que podem ser preparados com os ingredientes que possuem.

A OpenAI demonstrou a ferramenta de imagem pela primeira vez na primavera, mas a empresa disse que ela não seria compartilhada com o público até que os pesquisadores entendessem melhor como a tecnologia poderia ser usada indevidamente. Entre outras preocupações, eles temiam que a ferramenta pudesse se tornar um serviço de reconhecimento facial de fato, usado para identificar rapidamente pessoas em fotos.

A Microsoft introduziu esse tipo de ferramenta de pesquisa visual, com base na tecnologia da OpenAI, em seu chatbot do Bing durante o verão.

Sandhini Agarwal, um pesquisador da OpenAI que se concentra em segurança e política, disse que a nova versão do bot agora recusaria esforços para identificar rostos. Mas ele foi projetado para fornecer descrições extremamente detalhadas de outras fotos. Ao receber uma imagem do Telescópio Espacial Hubble, por exemplo, ele pode responder com parágrafos que detalham o conteúdo da foto./COM NYT