Foi uma semana tumultuada para a OpenAI, cheia de saídas executivas e principais desenvolvimentos de arrecadação de fundosmas a startup está de volta, tentando convencer os desenvolvedores a construir ferramentas com seus modelos de IA em seu DevDay de 2024. A empresa anunciou várias novas ferramentas na terça-feira, incluindo uma versão beta pública de sua “Realtime API”, para criar aplicativos com respostas de voz geradas por IA de baixa latência. Não é exatamente o modo de voz avançado do ChatGPT, mas está próximo.
Em um briefing com repórteres antes do evento, o diretor de produtos da OpenAI, Kevin Weil, disse que as recentes saídas da diretora de tecnologia Mira Murati e do diretor de pesquisa Bob McGrew não afetariam o progresso da empresa.
“Vou começar dizendo que Bob e Mira têm sido líderes incríveis. Aprendi muito com eles e eles são uma grande parte para chegarmos onde estamos hoje”, disse Weil. “E também, não vamos desacelerar.”
À medida que a OpenAI passa por mais uma revisão do C-suite – um lembrete da turbulência após o DevDay do ano passado – a empresa está tentando convencer os desenvolvedores de que ainda oferece a melhor plataforma para construir aplicativos de IA. Os líderes dizem que a startup tem mais de 3 milhões de desenvolvedores construindo com seus modelos de IA, mas a OpenAI está operando em um espaço cada vez mais competitivo.
A OpenAI observou que cortou em 99% os custos para os desenvolvedores acessarem sua API nos últimos dois anos, embora provavelmente tenha sido forçada a fazê-lo por concorrentes como Meta e Google, que continuamente subcotaram seus preços.
Um dos novos recursos da OpenAI, apelidado de API em tempo real, dará aos desenvolvedores a oportunidade de criar experiências de fala para fala quase em tempo real em seus aplicativos, com a opção de usar seis vozes fornecidas pela OpenAI. Essas vozes são diferentes daquelas oferecidas para ChatGPT, e os desenvolvedores não podem usar vozes de terceiros, para evitar problemas de direitos autorais. (A voz ambiguamente baseada na de Scarlett Johansson não está disponível em lugar nenhum.)
Durante o briefing, o chefe de experiência de desenvolvedor da OpenAI, Romain Huet, compartilhou uma demonstração de um aplicativo de planejamento de viagens desenvolvido com a API Realtime. O aplicativo permitiu que os usuários falassem verbalmente com um assistente de IA sobre uma viagem a Londres e obtivessem respostas de baixa latência. A API Realtime também tem acesso a uma série de ferramentas, de modo que o aplicativo foi capaz de anotar um mapa com a localização dos restaurantes conforme respondia.
Em outro momento, Huet mostrou como a API Realtime poderia falar ao telefone com uma pessoa para perguntar sobre o pedido de comida para um evento. Ao contrário do infame Duo do Google, a API do OpenAI não pode ligar diretamente para restaurantes ou lojas; no entanto, ele pode ser integrado com APIs de chamada como Twilio para fazer isso. Notavelmente, OpenAI é não adicionando divulgações para que seus modelos de IA se identifiquem automaticamente em chamadas como essa, apesar do fato de essas vozes geradas por IA parecerem bastante realistas. Por enquanto, parece ser responsabilidade dos desenvolvedores adicionar esta divulgação, algo que poderia ser exigido por uma nova lei da Califórnia.
Como parte de seus anúncios do DevDay, a OpenAI também introduziu o ajuste de visão em sua API, que permitirá aos desenvolvedores usar imagens, bem como texto, para ajustar seus aplicativos de GPT-4o. Isso deveria, em teoria, ajudar os desenvolvedores a melhorar o desempenho do GPT-4o para tarefas que envolvem compreensão visual. O chefe de API de produto da OpenAI, Olivier Godement, disse ao TechCrunch que os desenvolvedores não poderão fazer upload de imagens protegidas por direitos autorais (como uma foto do Pato Donald), imagens que retratam violência ou outras imagens que violem as políticas de segurança da OpenAI.
A OpenAI está correndo para igualar o que seus concorrentes já oferecem no espaço de licenciamento de modelos de IA. Seu recurso de cache de prompt é semelhante ao recurso lançado pela Anthropic há vários meses, permitindo que os desenvolvedores armazenem em cache o contexto usado com frequência entre chamadas de API, reduzindo custos e melhorando a latência. OpenAI diz que os desenvolvedores podem economizar 50% usando esse recurso, enquanto Anthropic promete um desconto de 90% por isso.
Por último, a OpenAI oferece um recurso de destilação de modelo para permitir que os desenvolvedores usem modelos de IA maiores, como o1-preview e GPT-4o, para ajustar modelos menores, como o GPT-4o mini. A execução de modelos menores geralmente proporciona economia de custos em comparação com a execução de modelos maiores, mas esse recurso deve permitir que os desenvolvedores melhorem o desempenho desses pequenos modelos de IA. Como parte da destilação do modelo, a OpenAI está lançando uma ferramenta de avaliação beta para que os desenvolvedores possam medir o desempenho de seu ajuste fino na API da OpenAI.
O DevDay pode causar maior impacto pelo que não anunciou – por exemplo, não houve nenhuma notícia anunciada na GPT Store durante o DevDay do ano passado. Pela última vez que ouvimos, a OpenAI tem pilotado um programa de divisão de receitas com alguns dos criadores mais populares de GPTs, mas a empresa não anunciou muito desde então.
Além disso, a OpenAI afirma que não lançará nenhum novo modelo de IA durante o DevDay este ano. Os desenvolvedores que aguardam o OpenAI o1 (não a versão preview ou mini) ou o modelo de geração de vídeo da startup, Sora, terão que esperar um pouco mais.