Gemini, IA do Google, fica mais poderosa para tentar bater ChatGPT; veja enxurrada de novidades

Sistema agora consegue ler 1,4 milhão de palavras e se ‘infiltrou’ em todos os produtos da companhia

PUBLICIDADE

Foto do author Bruna Arimathea
Foto do author Bruno Romani
Foto do author Guilherme Guerra
Foto do author Alice Labate
Por Bruna Arimathea , Bruno Romani , Guilherme Guerra e Alice Labate
Atualização:

MOUNTAIN VIEW E SÃO PAULO - A disputa entre Google e OpenAI para ver quem tem o domínio da inteligência artificial (IA) ganhou mais um capítulo nesta terça-feira, 14, durante o Google I/O, principal evento da empresa no ano - a expressão “inteligência artificial” foi falada 120 vezes durante as duas horas de apresentação.

PUBLICIDADE

O foco total foi na IA Gemini, que permeou todos os anúncios da tarde - o que acabou escanteando o Android 15, próxima geração do sistema operacional para celulares da companhia (os únicos anúncios para o sistema envolviam a IA da empresa). Entre as novidades, além do Gemini, a companhia ainda apresentou uma nova geração de sua IA assistente, que pode acompanhar o usuário com vídeo em tempo real.

Os lançamentos acontecem após a OpenAI mostrar como o ChatGPT pode estar mais próximo do filme ‘Ela’, graças a capacidade do sistema de compreender voz, imagens, texto e vídeo ao mesmo tempo. O evento da companhia de Sam Altman, que aconteceu um dia antes do Google I/O, acabou ofuscando a apresentação da gigante californiana.

Uma das maiores novidades do Google é a expansão de contexto do Gemini, IA generativa da empresa. Agora, o novo modelo tem suporte a até 2 milhões de tokens de compreensão, o que significa que a IA é capaz de “ler” livros inteiros de até 1,4 milhão de palavras aproximadamente. Antes do Gemini, a IA com a maior janela de contexto era o Claude, que tinha 200 mil tokens de contexto. Reveja a apresentação abaixo.

O recurso vai estar disponível, primeiramente, para desenvolvedores. Com isso, a versão anterior, com 1 milhão de tokens, vai ficar disponível para todos os usuários do Gemini 1.5 Pro nos Estados Unidos, com outros países sendo adicionados em breve. E está disponível em mais de 35 idiomas.

Além disso, o Google também incluiu uma nova versão do Gemini no seu portfólio: o Gemini 1.5 Flash. A ideia é que a IA seja mais rápida e menos pesada do que o modelo Pro.

“Sabemos, com base no feedback dos usuários, que alguns aplicativos precisam de menor latência e menor custo de atendimento. Isso nos inspirou a continuar inovando e, por isso, apresentamos hoje o Gemini 1.5 Flash: um modelo mais leve que o 1.5 Pro e projetado para ser rápido e eficiente para atender em escala”, afirmou Demis Hassabis, CEO do Google DeepMind, divisão da empresa que desenvolve produtos de IA.

Publicidade

Google realiza principal evento do ano e terá anúncios sobre IA  Foto: Josh Edelson / AFP

De acordo com a empresa, o Gemini 1.5 Flash é otimizado para tarefas de alto volume e alta frequência, mantendo um processamento leve mesmo com a janela de contexto longo.

“Embora seja um modelo mais leve que o 1.5 Pro, ele é altamente capaz de raciocínio multimodal em grandes quantidades de informações e oferece uma qualidade impressionante para seu tamanho. O 1.5 Flash é excelente em resumos, aplicativos de bate-papo, legendas de imagens e vídeos, extração de dados de documentos e tabelas longas e muito mais. Isso ocorre porque ele foi treinado pelo 1.5 Pro por meio de um processo chamado “destilação”, em que os conhecimentos e as habilidades mais essenciais de um modelo maior são transferidos para um modelo menor e mais eficiente”, afirmou Hassabis.

O Google I/O acontece um dia depois de um evento de última hora da OpenAI que anunciou o novo “cérebro” do ChatGPT: o GPT-4o. Em uma demonstração, a companhia de inteligência artificial ampliou a capacidade de processamento de texto, de compreensão de imagens e de conversas com voz para funcionar, simultaneamente, em tempo real.

Não é a primeira vez que as rivais tentam concorrer na divulgação de novos serviços: em fevereiro deste ano, as duas empresas anunciaram novidades em IA no mesmo dia. Na ocasião, a empresa de Sam Altman revelou a Sora, IA capaz de gerar vídeos a partir de comandos de texto, enquanto o Google mostrou sua nova IA de contexto longo Gemini 1.5 Pro.

Sundar Pichai apresenta novidades do Gemini  Foto: Reprodução/YouTube/Google

Projeto Astra

PUBLICIDADE

Depois de encerrar o Google Assistente, a empresa californiana tem novos planos para construir uma ferramenta para inaugurar a nova era de inteligência artificial como assistente pessoal.

Chamada Projeto Astra, a IA, incluída no Gemini, é um chatbot multimodal que reconhece comandos de texto, voz e vídeos, incluindo interações em tempo real durante gravações. De acordo com a empresa, o projeto, apresentado pela primeira vez no Google I/O do ano passado, ganhou evoluções.

Com isso, a IA ganhou uma plataforma para se comunicar com os usuários em texto e voz. No exemplo mostrado pelo Google, um usuário utiliza a câmera como em uma chamada de vídeo e pede para que a IA avise quando ver qualquer objeto capaz de fazer barulho. Ao se deparar com uma caixa de som, a IA avisa o que encontrou e responde perguntas relacionadas ao objeto.

Publicidade

O usuário ainda pergunta que outros objetos a plataforma consegue ver na cena e pede sugestões de nomes e ideias a partir dos elementos na tela.

“Para ser realmente útil, um agente precisa entender e reagir ao mundo complexo e dinâmico, assim como as pessoas fazem, e absorver e lembrar o que vê e ouve para entender o contexto e agir. Ele também precisa ser proativo, ensinável e pessoal, para que os usuários possam conversar com ele naturalmente e sem atrasos ou demoras”, afirmou Hassabis.

Um dos elementos mais surpreendentes foi a capacidade de memória visual do sistema. Ele foi capaz de lembrar o usuário onde seu óculos estava a partir de uma maçã que estava em cima da mesa - e que não havia sido mostrada pelo usuário antes.

Ainda nas novidades do Gemini, o Google anunciou que as conversas com a IA devem se tornar mais fluidas, simples e personalizadas diretas no Google Message, app de mensagens da empresa. Nos próximos meses, a ferramenta, chamada Gemini Live, vai funcionar como um chatbot de conversa, com interações mais “reais” segundo a empresa.

Em outras palavras, o Google quer que o usuário seja capaz de interromper a IA enquanto fala, acrescentar contextos e fazer comentários sem que o Gemini se perca na resposta ou “esqueça” o que estava falando - como uma conversação humana. A ferramenta se assemelha à ideia do GPT-4o, anunciado pela OpenAI nesta segunda.

Demis Hassabis apresenta o Projeto Astra  Foto: Jeff Chiu/AP

Agentes de IA

Uma das novidades do Google, é a integração de agentes de IA em plataformas da empresa, como o Google Workspace. Entre os exemplos no evento, os agentes de IA do Google pode ajudar o usuário a fazer uma compra e agendar a retirada, filtrar buscas, resumir reuniões e e-mails. “Estamos apenas no início da era dos agentes de IA”, diz Sundar Pichai, CEO do Google.

“Esse agente tem de ser proativo, ensinável e pessoal, para que usuários possum falar nturalmente sem atrasos ou erros”, declarou Hassabis.

Publicidade

IA generativa na Busca

O Gemini também apresentou novos recursos para a busca do Google. A inclusão da IA generativa nas pesquisas do site vai permitir com que os resultados de busca sejam acompanhados por resumos e imagens explicativas - a função foi batizada de AI Overviews. A ferramenta, que já estava disponível para desenvolvedores, vai ser lançada para todos os usuários nos EUA. A empresa afirmou que o recurso deve chegar em outros países em breve.

O AI Overview também vai poder ser personalizado para cada usuário e vai oferecer suporte para perguntas mais complexas, ou seja, com maiores detalhes sobre o que se deseja pesquisar.

O usuário poderá incluir informações sobre vários aspectos em uma mesma pesquisa. “Por exemplo, talvez você esteja procurando um novo estúdio de ioga ou pilates e queira um que seja popular entre os moradores locais, convenientemente localizado para o seu deslocamento e que também ofereça um desconto para novos membros. Em breve, com apenas uma pesquisa, você poderá perguntar algo como “encontre os melhores estúdios de ioga ou pilates em São Paulo e mostre detalhes sobre suas ofertas de introdução e tempo de caminhada”, explicou Liz Reid, chefe da divisão de pesquisa do Google Search.

Liz Reid apresenta novidades em Buscas Foto: Google/Reprodução

Gemini no Gmail e bot para reunião

Dentro do e-mail, será possível pedir para o Gemini organizar as mensagens por assunto e encontrar documentos específicos na caixa de entrada - com isso, os usuários poderão conectar outras ferramentas do Google diretamente com o resultado da busca. Por exemplo, será possível integrar planilhas com o Gmail. Assim, o usuário pode pedir para o Gemini procurar por e-mail que contenham recibos de compras e automaticamente organizá-los em uma planilha de gastos.

No exemplo dado pela empresa, será possível organizar as mensagens sobre notas fiscais de trabalhos freelancer, bem como a agenda do profissional. Ainda, o Gemini no Gmail poderá oferecer respostas automáticas mais inteligentes a mensagens.

O bot de IA funciona como um colega de trabalho “sabe-tudo”. Dentro dos projetos e conversas do Gmail, o AI Teammate pode pesquisar informações dentro de tudo o que já foi conversado pelo grupo, além dos documentos, para responder questões rapidamente sobre o assunto - a ferramenta pode ser bastante útil para aqueles momentos em que você precisa de uma confirmação mas seus colegas não estão online, por exemplo.

Vídeos e imagens com IA

O Veo é a nova ferramenta do Google de geração de vídeos por IA, capaz de criar arquivos com resolução de até 1.080p, a partir de comandos de texto dos usuários. O modelo é capaz de gerar vídeos a partir de diferentes perspectivas e câmeras, que podem ficar prontos em até 1 minuto, segundo a empresa.

Publicidade

A ferramenta também é semelhante ao Sora, da OpenAI, confirmando a rivalidade entre as duas empresas na busca pela liderança no desenvolvimento de IA generativa. O modelo foi lançado em fevereiro deste ano e não está disponível para o público geral.

O Veo ainda não está disponível para todos os usuários e vai passar por um processo de teste com profissionais e criadores de conteúdo dentro da plataforma VideoFX. O Google ainda informou que a intenção é que as configurações do Veo estejam disponíveis para os usuários do YouTube Shorts em breve.

Além dos vídeos, o Google também trouxe novas funções para a criação de imagens. A empresa lançou o Image 3, IA generativa que constrói imagens a partir de comandos escritos. A empresa afirmou que o modelo recebeu atualizações para entender melhor o contexto do comando, assim como para entender frases longas e mais específicas sobre as imagens.

Junto com o YouTube, a empresa lançou o Music AI Sandbox, uma ferramenta de música generativa criada em colaboração com compositores e produtores, que permite a mistura de gêneros musicais com IA.

Novo chip de IA

O Google anunciou, ainda, um novo processador para suas ferramentas de IA: o Trillium. A sexta geração da TPU (Tensor Processing Units) da empresa já tem suporte aos novos modelos de IA anunciados no Google I/O e é cerca de 4,7 vezes mais eficiente que a versão anterior.

O chip também é equipado com o SparseCore, um acelerador de processamento para modelos de IA. O processador está sendo usado como base para o desenvolvimento das suas novas IAs, afirmou a empresa.

“O Gemini 1.5 Pro é o maior e mais capaz modelo de IA do Google e foi treinado usando dezenas de milhares de aceleradores TPU. Nossa equipe está animada com o anúncio da sexta geração de TPUs e estamos ansiosos pelo aumento do desempenho e da eficiência do treinamento e da inferência em escala dos nossos modelos Gemini.”, explicou Jeff Dean, cientista-chefe do Google DeepMind e do Google Research.

Publicidade

O chip vai estar disponível ainda neste ano, segundo a empresa. Além disso, a companhia anucniou que oferecerá em 2025 serviços com os chips Blackwell, lançado recentemente pela gigante Nvidia.

Android 15

Para celulares Android, o Google quer que a inteligência artificial torne os “smartphones verdadeiramente inteligentes”, afirmou o executivo Sameer Samat no palco da empresa nesta terça-feira, 14.

Começando com o Pixel, o Google vai lançar o Gemini Nano em dispositivos Android. A IA vai ser processada localmente nos celulares, podendo ser utilizada mesmo sem acesso à internet. O recurso também reduz a latência de respostas, pois não recorre à nuvem, como faz o ChatGPT, da rival OpenAI.

Outra função apresentada pelo Gemini Nano é identificação de tentativas de golpe por ligações telefônicas. Em tempo real, a IA é capaz de captar instruções duvidosas passadas do outro lado da linha e enviar um alerta ao usuário sobre a ação suspeita. A funcionalidade pode impedir que golpes que solicitam senhas de banco ou cartão sejam executados através do telefone

Chamado “Circule para pesquisar”, o recurso permite que o usuário possa fazer uma pesquisa por imagem a partir de qualquer elemento de uma foto, print ou mesmo de imagem em tempo real pela câmera do celular.

Para acessar a busca, basta segurar o botão de home ou na área da parte de baixo do display em qualquer tela - pode ser para pesquisar um lugar desconhecido que você viu no Instagram ou para pesquisar o modelo de tênis da pessoa da sua frente na fila do caixa do supermercado. Ao pressionar a tela, a imagem congela e é possível circular ao redor do elemento que você deseja pesquisar.

A partir de então, uma busca no Google aparece na tela, com fotos, links e uma caixa de texto para personalizar a pesquisa. Conteúdos que não podem ser compartilhados, como mensagens de visualização única ou aplicativos de banco, não estão habilitados para a função. A ferramenta apareceu pela primeira vez em janeiro, quando a Samsung anunciou uma parceria com o Google para levar o recurso para os celulares da linha Galaxy S24.

Publicidade

Marca d’água para imagens de IA

O Google também anunciou o SynthID, uma ferramenta de marca d’água da empresa para indicar fotos geradas por IA, que será expandida para incluir textos e vídeos criados pela tecnologia.

Parcerias de educação

Ainda aconteceram dois anúncios voltados para educação. O primeiro é o Learning Coach, que funciona como um guia para facilitar e dinamizar os estudos com recursos em texto ou vídeo. No recurso usado para vídeos, a IA da Gemini interage com o usuário que assiste uma aula gravada pelo YouTube e sugere perguntas ou um quiz para testar os conhecimentos sobre o assunto estudado.

A empresa também destacou que tem parcerias firmadas com instituições de educação dos Estados Unidos, como a Columbia Teachers College, Arizona State University e a Khan Acadamy. Além disso, anunciou que desenvolverá junto ao Instituto de Tecnologia de Massachusetts, nos EUA, voltado para os educadores e como o setor pode entender e utilizar melhor as ferramentas de IA na educação dos jovens. /COLABORARAM HENRIQUE SAMPAIO E VINICIUS HARFUSH

A jornalista Bruna Arimathea viajou a convite do Google

Comentários

Os comentários são exclusivos para assinantes do Estadão.