Início Tech Runware usa hardware personalizado e orquestração avançada para inferência rápida de IA

Runware usa hardware personalizado e orquestração avançada para inferência rápida de IA

11
0


Às vezes, uma demonstração é tudo que você precisa para entender um produto. E esse é o caso do Runware. Se você for para Site da Runwareinsira um prompt e pressione Enter para gerar uma imagem, você ficará surpreso com a rapidez com que o Runware gera a imagem para você – leva menos de um segundo.

Runware é um novato no cenário de inicialização de inferência de IA, ou IA generativa. A empresa está construindo seus próprios servidores e otimizando a camada de software nesses servidores para remover gargalos e melhorar a velocidade de inferência para modelos de geração de imagens. A startup já garantiu US$ 3 milhões em financiamento da Speedrun da Andreessen Horowitz, Halo II da LakeStar e Lunar Ventures.

A empresa não quer reinventar a roda. Ele só quer fazê-lo girar mais rápido. Nos bastidores, a Runware fabrica seus próprios servidores com o máximo de GPUs possível na mesma placa-mãe. Possui sistema de refrigeração próprio e customizado e gerencia seus próprios data centers.

Quando se trata de executar modelos de IA em seus servidores, a Runware otimizou a camada de orquestração com BIOS e otimizações do sistema operacional para melhorar os tempos de inicialização a frio. Ela desenvolveu seus próprios algoritmos que alocam cargas de trabalho de interferência.

A demonstração é impressionante por si só. Agora, a empresa quer utilizar todo esse trabalho em pesquisa e desenvolvimento e transformá-lo em um negócio.

Ao contrário de muitas empresas de hospedagem de GPU, a Runware não alugará suas GPUs com base no tempo de GPU. Em vez disso, acredita que as empresas deveriam ser encorajadas a acelerar as cargas de trabalho. É por isso que a Runware está oferecendo uma API de geração de imagens com uma estrutura tradicional de taxas de custo por chamada de API. É baseado em modelos populares de IA da Flux e Stable Diffusion.

“Se você olhar para Together AI, Replicate, Hugging Face – todos eles – eles estão vendendo computação com base no tempo de GPU”, disse o cofundador e CEO Flaviu Radulescu ao TechCrunch. “Se você comparar a quantidade de tempo que levamos para fazer uma imagem com eles. E então você compara os preços e verá que somos muito mais baratos, muito mais rápidos.”

“Será impossível para eles igualar esse desempenho”, acrescentou. “Especialmente em um provedor de nuvem, você precisa operar em um ambiente virtualizado, o que acrescenta atrasos adicionais.”

Como a Runware está analisando todo o pipeline de inferência e otimizando hardware e software, a empresa espera poder usar GPUs de vários fornecedores em um futuro próximo. Este tem sido um esforço importante para várias startups, já que a Nvidia é a líder absoluta no espaço de GPU, o que significa que as GPUs da Nvidia tendem a ser bastante caras.

“No momento, usamos apenas GPUs Nvidia. Mas isso deveria ser uma abstração da camada de software”, disse Radulescu. “Podemos colocar e retirar um modelo da memória da GPU muito, muito rapidamente, o que nos permite colocar vários clientes nas mesmas GPUs.

“Portanto, não somos como nossos concorrentes. Eles apenas carregam um modelo na GPU e então a GPU executa um tipo de tarefa muito específico. No nosso caso, desenvolvemos esta solução de software, que nos permite alternar um modelo na memória da GPU à medida que fazemos inferências.”

Se a AMD e outros fornecedores de GPU puderem criar camadas de compatibilidade que funcionem com cargas de trabalho típicas de IA, a Runware estará bem posicionada para construir uma nuvem híbrida que dependeria de GPUs de vários fornecedores. E isso certamente ajudará se quiser permanecer mais barato que os concorrentes na inferência de IA.



Source link