A inovação tecnológica trouxe uma revolução com o lançamento da nova funcionalidade do Gemini, permitindo que o sistema “enxergue” o mundo real por meio da câmera do celular. Esta atualização foi parte do pacote Project Astra e foi anunciada oficialmente durante a MWC 2025, com o lançamento confirmado para março. Essa funcionalidade está posicionada como um passo importante no avanço da inteligência artificial, ampliando as capacidades do Gemini, que já era conhecido por seu chatbot de voz em tempo real, o Gemini Live. Agora, com o poder da câmera, o Gemini poderá não apenas responder perguntas baseadas em textos, mas também entender e interagir com o ambiente visual.
Essa função de “visão” do Gemini permite que os usuários compartilhem a tela do celular ou até mesmo ativem a câmera para que a IA visualize o que está ao seu redor. A ideia é bastante inovadora, pois, além de realizar comandos de voz, o Gemini pode oferecer respostas sobre objetos visíveis, como identificá-los e descrever o ambiente. O botão “Share screen with Live” é utilizado para ativar essa funcionalidade, permitindo que o usuário compartilhe com a IA tudo o que está sendo exibido na tela, além de realizar interações dinâmicas com o mundo ao seu redor.
Ao ativar a câmera do celular, o Gemini usa a inteligência artificial para analisar imagens em tempo real. Isso significa que a IA pode identificar diferentes elementos que estão no campo de visão da câmera, como objetos e textos, e fornecer respostas ou informações detalhadas sobre esses itens. A ideia é que, com o auxílio da câmera, a IA possa ser mais útil em cenários do dia a dia, ajudando o usuário a resolver dúvidas visuais, como identificar produtos ou entender o que está ao seu redor.
Além da capacidade de ver e entender imagens, o Gemini pode ser usado para esclarecer dúvidas sobre imagens e documentos, o que amplia ainda mais suas possibilidades. A nova funcionalidade é um exemplo de como as inteligências artificiais estão se tornando cada vez mais sofisticadas e úteis para os usuários. A versatilidade da plataforma Gemini, agora com a função de “visão”, coloca o Google um passo à frente no desenvolvimento de IA multimodal, permitindo que o sistema responda de forma mais precisa e interaja com o mundo físico de maneira mais intuitiva.
Outro ponto relevante é que a ativação da câmera no Gemini é controlada pelo usuário. É possível alternar entre a câmera frontal e traseira a qualquer momento, além de poder interromper a transmissão a qualquer instante, garantindo a privacidade e a segurança do usuário. Isso permite que o sistema seja flexível e acessível, ajustando-se às necessidades do momento. A interação com o Gemini, portanto, se torna mais fluida e adaptável, com o usuário no controle total.
A implementação dessa nova função também traz implicações importantes para as futuras aplicações de IA em smartphones e dispositivos móveis. Se antes a inteligência artificial era limitada a interações baseadas apenas em texto ou comandos de voz, agora, com a função de “visão”, as possibilidades se expandem, e o Gemini passa a ser um assistente mais completo, capaz de lidar com uma variedade de situações cotidianas. Seja para identificar um objeto em sua casa ou ajudar com a leitura de um documento, o Gemini se torna uma ferramenta essencial.
A chegada dessa tecnologia abre um novo caminho para a utilização de IA em dispositivos móveis, especialmente em uma era em que as pessoas buscam soluções rápidas e eficientes para suas necessidades diárias. A função de “visão” do Gemini não apenas facilita a interação com o ambiente, mas também reforça o papel das tecnologias emergentes em nossa rotina. Essa atualização marca uma importante etapa na evolução do Gemini, que, ao incluir capacidades multimodais, redefine o que esperamos de assistentes virtuais.
Em resumo, o Gemini, com sua nova função de visão, não apenas transforma a forma como interagimos com assistentes virtuais, mas também eleva a inteligência artificial a um novo nível de utilidade prática. Ao permitir que a IA “veja” o mundo real, o Gemini abre portas para uma infinidade de novas possibilidades, tornando-se uma ferramenta poderosa para quem busca uma forma mais inteligente de interagir com a tecnologia no dia a dia. A inovação é apenas o começo de uma jornada que promete moldar o futuro da interação humano-tecnologia.
Autor: Velman Bachhuber
Fonte: Assessoria de Comunicação da Saftec Digital