Openai Video Voice

No sexto dos 12 dias de lançamentos da OpenAI, a empresa anunciou nesta quinta-feira, 12 de dezembro, avanços revolucionários no ChatGPT, que agora pode compreender informações em vídeo em tempo real e responder ao usuário por meio de áudio. Esses recursos começam a ser disponibilizados hoje para os usuários dos planos Plus e Pro, assim como para assinantes corporativos.

Interação Multimodal

Com a novidade, os usuários podem ativar a câmera do celular e interagir com o ChatGPT sobre o ambiente ao seu redor. A ferramenta é capaz de memorizar nomes e características de pessoas ou identificar objetos para oferecer sugestões. Segundo a OpenAI, o sistema integra áudio e vídeo, processando essas informações em tempo real para produzir respostas de áudio de maneira nativa. Este é mais um exemplo do conceito de multimodalidade, característica dos modelos atuais de inteligência artificial (IA), que conseguem lidar com dados em diferentes formatos simultaneamente.

Função de Assistente para o Celular

Outra funcionalidade revelada é a capacidade do ChatGPT de “enxergar” a tela do celular e interagir por voz com base nas informações exibidas. Por exemplo, o chatbot pode sugerir respostas para mensagens de texto ou reagir a figurinhas recebidas em aplicativos de bate-papo. Este recurso também está disponível a partir de hoje.

Modo Papai Noel

Para completar os lançamentos do dia, a OpenAI introduziu o “modo Papai Noel”. Nele, o ChatGPT assume uma personalidade inspirada no personagem natalino, com respostas em áudio que imitam o tom e o estilo do Papai Noel. Essa novidade, projetada para entreter crianças, está disponível exclusivamente em inglês.

Esses avanços representam um grande passo na interação humano-computador, ampliando as possibilidades de aplicação prática da inteligência artificial no dia a dia.