OpenAI revela GPT-4o: Flagship Omnimodal com áudio, vídeo e imagens

GPT-4

A OpenAI acaba de apresentar ao mundo o novo carro-chefe da empresa: o GPT-4o. Essa recente atualização é omnimodal e suporta uma variedade de mídias, incluindo áudios, vídeos e imagens. 

Esta versão permite respostas em tempo real a partir de imagens, busca na web, análise de dados e criação de tabelas. Além disso, o Voice Mode promove conversas naturais e fluidas com a IA – nessa função é possível pedir que a IA gagueje e/ou respire durante a conversa, deixando mais humanizado e real. 

Em testes, o GPT-4o agiu como uma assistente virtual, respondendo a perguntas com uma voz feminina e reconhecendo o humor através de imagens e voz. As respostas são incrivelmente rápidas, com uma média de 232 milissegundos.

Além disso, o novo carro-chefe da OpenAI consome menos recursos de API, sendo 50% mais eficiente em idiomas não ingleses. 

Essa nova atualização já está disponível?

Inicialmente, o GPT-4o está disponível apenas com ferramentas de texto e imagens – as vozes serão limitadas e sujeitas às políticas de segurança da OpenAI.

Isso porque, a empresa reconhece que os modelos de áudio apresentados podem trazer diversos riscos, e, durante os próximos meses, a OpenAI trabalhará na usabilidade pós-treinamento e segurança necessária para lançar a solução.

Para a OpenAI é importante que todos tenham acesso à sua tecnologia. Com isso, o GPT-4o ganhou uma versão para desktop e está liberado para os usuários que acessam a versão gratuita – com diferenças notáveis na velocidade e no Voice Mode em testes alpha. 

Para os desenvolvedores, o acesso também está liberado para as funções de texto e imagem e o suporte para áudio e vídeo será liberado durante as próximas semanas para um pequeno grupo de parceiros.

Curiosidades do evento de apresentação:

Durante o anúncio, a OpenAI apresentou o GPT-4o de uma forma bastante única. Primeiro, a revelação ocorreu um dia antes do evento Google I/O – destacando a vontade da empresa em estar na vanguarda desta inovação.

Além disso, chamou a atenção o fato de que todos os dispositivos utilizados durante a demonstração eram da Apple, mostrando uma parceria ou preferência estratégica da OpenAI pela tecnologia usada nesses smartphones. 

Outro ponto foi a revelação de que os modelos de IA foram treinados com GPUs da NVIDIA, ferramenta que contribuiu para o desenvolvimento dessas soluções avançadas. 

Imagem principal: YouTube/OpenAI

Siga-nos nas redes:

Instagram

LinkedIn

Voltar para o Blog

Veja mais no Blog

API

O que é API e como utilizar na sua empresa?

API, sigla para Application Programming Interface, que em português significa Interface de Programação de Aplicação, é um conjunto de definições e protocolos utilizados no desenvolvimento e na integração de software. Uma API

Chatbot

Chatbot: Métricas importantes

Todo mundo sabe que os Chatbots vieram para ficar e são super úteis para as empresas, não é mesmo? A automação de mensagens via Chatbot transformou o atendimento ao cliente,

Explore os
nossos materiais

Tenha acesso à uma fonte inesgotável de insights, guias e recursos sobre chatbot, inovação, atendimento e muito mais!

DEMONSTRAÇÃO GRÁTIS

Descubra o funcionamento prático da plataforma EZ Chat, esclareça suas dúvidas, explore exemplos reais de aplicação e aprenda a maximizar seus resultados.

Agende a data e o horário que melhor lhe convém 👇