TensorWave arrecada US$ 43 milhões para embalar seu datacenter com aceleradores AMD
A TensorWave garantiu na terça-feira US$ 43 milhões em novos financiamentos para encher seu datacenter com aceleradores Instinct da AMD e trazer uma nova plataforma de inferência ao mercado.
Fundada no final de 2023, a startup com sede em Las Vegas é um dos vários provedores de nuvem que surgiram em meio ao boom generativo da IA, buscando replicar os sucessos do CoreWeave e do Lambda. Mas, em vez de ficar com os aceleradores Nvidia, os fundadores da TensorWave estão apostando tudo nos aceleradores Instinct da AMD, equipados com HBM.
A TensorWave começou a acumular sistemas baseados em MI300X nesta primavera. A startup agora pretende adicionar “milhares” de aceleradores e ampliar sua equipe para apoiar o lançamento de uma nova plataforma de inferência chamada Manifest no quarto trimestre.
O MI300X da AMD foi amplamente adotado por vários provedores de nuvem desde seu lançar dezembro passado. Além do TensorWave, a Microsoft agora está executando o GPT-4 Turbo da OpenAI e muitos de seus serviços Copilot nos chips, e a Oracle também implantou um cluster de 16.384 aceleradores MI300X. Como resultado, a AMD agora espera que os aceleradores Instinct impulsionem US$ 4,5 bilhões em receitas em 2024.
No papel, há muito o que gostar nos chips, que não apenas oferecem desempenho de ponto flutuante substancialmente maior, mas também mais que o dobro da memória do cobiçado H100 da Nvidia com 192 GB em comparação com 80 GB.
A capacidade de memória é particularmente valiosa para aqueles que executam modelos maiores com precisão total de 16 bits. Com 1.536 GB por nó, um sistema baseado em MI300X pode facilmente caber no Llama 3.1 405B da Meta em resolução total, embora precisaria ser dividido entre vários sistemas H100 ou compactado usando quantização de 8 bits para caber. Embora seja possível comprimir o modelo descompactado em um único nó H200, isso não deixa muito espaço sobrando para a janela de contexto maior suportada pelo modelo.
Com o lançamento de sua próxima geração MI325X aceleradores ainda este ano, a AMD ampliará ainda mais essa liderança, aumentando a capacidade do acelerador para 288 GB, mais de três vezes a do H100 e 50 por cento mais do que as próximas peças Blackwell da Nvidia.
A TensorWave pretende começar a implantar os chips em seu datacenter assim que chegarem ao mercado, potencialmente antes do final do ano.
Juntamente com o novo hardware, a startup prepara-se para lançar um serviço de inferência no quarto trimestre, que dará aos clientes uma alternativa ao aluguer de sistemas inteiros e à gestão da sua própria pilha de software.
TensorWave ainda não disse muito sobre o serviço, mas uma ênfase em grandes janelas de contexto e menor latência sugere que eles podem estar contando com a capacidade de memória e largura de banda do MI300X para suportar casos de uso de geração aumentada de recuperação (RAG). Nós já explorado RAG em detalhes, mas em poucas palavras funciona como um banco de dados externo do qual grandes modelos de linguagem podem recuperar dados.
A TensorWave está longe de ser a primeira empresa a lançar um serviço de inferência gerenciado. SambaNova, Cerebras, Groq, sem mencionar muitos dos construtores de modelos, lançaram ofertas semelhantes, que cobram por token em vez de horas de GPU.
Mas embora US$ 43 milhões não sejam uma mudança estúpida, ainda é minúsculo em comparação com as centenas de milhões e até bilhões em financiamento que Lambda, CoreWeave e outros têm gerenciou para convencer seus patrocinadores de VC.
Quando durarmos falou Segundo os fundadores da TensorWave em abril, a startup pretendia ter 20.000 aceleradores Instinct operacionais até o final de 2024. Mas, pelo que entendemos, esses planos dependiam em parte do financiamento de dívidas.
Entramos em contato com o TensorWave para obter mais informações sobre como as coisas estão indo; avisaremos você se tivermos alguma resposta. ®