Sua história de vida poderá ser contada por IA do Google Fotos

Apesar da tecnologia ainda estar em desenvolvimento, já é possível ter uma noção de seu potencial; confira

Após a apresentação do Gemini, o Google agora almeja aproveitar a sua nova tecnologia de grande modelo de linguagem (LLM, na sigla em inglês) para o desenvolvimento de outros produtos alimentados por inteligência artificial (IA). Um deles deverá englobar o Google Fotos e permitir que o aplicativo possa contar a história de vida do usuário.

Segundo a reportagem do jornal CNBC, a iniciativa recebeu o nome de “Project Ellmann” e terá como função principal a criação de um sistema capaz de utilizar fotos e buscas de um usuário para, por meio de um chatbot, contar a sua história.

Ainda segundo o jornal, o modelo baseado no Gemini capturaria resultados de pesquisas, buscaria entendê-los e responder perguntas sobre eles. Além disso, com base no conteúdo das pesquisas e nas imagens do internauta, seria possível identificar momentos significativos, como formatura, reencontro com amigos e familiares, nascimento do filho e muito mais.

A nova empreitada da gigante da tecnologia teria sido apresentada em uma cúpula interna realizada recentemente, por um gerente de produtos do Google Fotos, o que indicaria ser o app da companhia a abrigar o novo recurso.

Até o fechamento desta matéria, a iniciativa se encontrava em fase de desenvolvimento, sem muitos detalhes revelados pelo Google. A expectativa é de que novas informações a respeito da novidade sejam divulgadas dentro das próximas semanas ou meses.

Google Gemini

Na última quarta-feira (6), o Google apresentou o Gemini, seu novo LLM. O mecanismo promete ser o mais poderoso e versátil das buscas, trazendo versões otimizadas para diferentes cenários, englobando desde tarefas do dia a dia até pesquisas científicas.

A ferramenta foi desenvolvida do zero com fogo em multimodalidade. Por conta disso, ela é capaz de desempenhar inúmeras funções relacionadas a texto, imagem, vídeo, áudio e programação, tudo isso reunido em um só lugar. Dessa forma, não há necessidade de criar modelos separados para processar textos e gerar imagens, como é o caso do ChatGPT e DALL-E, da OpenAI.

Inclusive, o Gemini possui variantes otimizadas para diferentes tipos de plataforma, abrangendo até mesmo celulares e notebooks com IA nativa. A tecnologia em questão será disponibilizada em três “tamanhos” de modelo:

  • 1. Gemini Ultra: versão mais poderosa para tarefas complexas;
  • 2. Gemini Pro: versão intermediária para tarefas diversificadas;
  • 3. Gemini Nano: versão mais eficiente para processamento local em dispositivos de consumo, como celulares, notebooks e tablets.

De acordo com Demis Hassabis, CEO da DeepMind, companhia que pertence ao mesmo conglomerado empresarial do Google, vários testes foram realizados para verificar o desempenho do modelo, e os resultados apontam que o Gemini é a primeira IA capaz de superar humanos em Compreensão Massiva de Linguagem Multitarefa (MMLU, na sigla em inglês).

Para se ter uma ideia, ao ser submetido a um teste que combina 57 disciplinas, como matemática, física, história, direito, medicina e ética, o Google verificou que o Gemini Ultra obtém uma pontuação de 90,0%, enquanto um ser humano alcança, no máximo, 89,8%. O GPT-4, modelo criado pela OpenAI, registrou 86,4%.

Deixe uma resposta

Seu endereço de email não será publicado.