News

Os chips Blackhole da Tenstorrent ostentam 768 núcleos RISC-V e quase o mesmo número de FLOPS

Batatas Fritas A Tenstorrent, campeã do RISC-V, ofereceu a visão mais detalhada até agora de seus próximos aceleradores de IA Blackhole na Hot Chips esta semana, que, segundo eles, podem superar um Nvidia A100 em computação bruta e escalabilidade.

Cada chip Blackhole possui 745 teraFLOPS de desempenho FP8 (372 teraFLOPS em FP16), 32 GB de memória GDDR6 e uma interconexão baseada em Ethernet capaz de 1 TBps de largura de banda total em seus 10 links de 400 Gbps.

Os 140 núcleos Tensix do acelerador prometem até 745 teraFLOPS de desempenho FP8. – Clique para ampliar

A Tenstorrent mostra como seu chip mais recente pode oferecer uma vantagem modesta em desempenho sobre uma GPU Nvidia A100, embora fique para trás tanto em capacidade de memória quanto em largura de banda.

No entanto, assim como o A100, o Blackhole da Tenstorrent foi projetado para ser implantado como parte de um sistema de expansão. A startup de chip de IA planeja amontoar 32 aceleradores Blackhole conectados em uma malha 4×8 em um único nó, que ela chama de Blackhole Galaxy.

Os sistemas Blackhole Galaxy da Tenstorrent combinarão 32 aceleradores Blackhole para quase 24 petaFLOPS de desempenho FP8.

Os sistemas Blackhole Galaxy da Tenstorrent irão unir 32 aceleradores Blackhole para quase 24 petaFLOPS de desempenho FP8. – Clique para ampliar

No total, um único Blackhole Galaxy promete 23,8 petaFLOPS de FP8 ou 11,9 petaFLOPS em FP16, junto com 1 TB de memória capaz de 16 TBps de largura de banda bruta. Além disso, a Tenstorrent diz que a arquitetura de núcleo denso do chip — vamos nos aprofundar nisso em breve — significa que cada um desses sistemas pode funcionar como um nó de computação ou memória ou como um switch AI de alta largura de banda de 11,2 TBps.

“Você pode criar um cluster de treinamento inteiro usando isso apenas como um Lego”, disse Davor Capalija, pesquisador sênior de software e arquitetura de IA na Tenstorrent.

A Tenstorrent afirma que um cluster de treinamento inteiro pode ser construído usando apenas sistemas Blackhole Galaxy.

A Tenstorrent afirma que um cluster de treinamento inteiro pode ser construído usando nada além dos sistemas Blackhole Galaxy como “blocos de Lego”. – Clique para ampliar

Em comparação, os sistemas HGX/DGX A100 mais densos da Nvidia chegam a oito GPUs por caixa, e gerenciar pouco menos de 2,5 petaFLOPS de desempenho denso de FP16, tornando o Blackhole Galaxy quase 4,8x mais rápido. Na verdade, no nível do sistema, o Blackhole Galaxy deve ser competitivo com os sistemas HGX/DGX H100 e H200 da Nvidia, que gerenciam aproximadamente 15,8 petaFLOPS de FP8 denso.

O uso de Ethernet onboard pela Tenstorrent significa que ela evita o desafio associado a fazer malabarismos com múltiplas tecnologias de interconexão para redes chip-a-chip e nó-a-nó, como a Nvidia tem que fazer com NVLink e InfiniBand/Ethernet. A esse respeito, a estratégia de expansão da Tenstorrent é bem similar à da Intel Plataforma de Gaudíque também usa Ethernet como sua interconexão primária.

Considerando quantos aceleradores Blackhole a Tenstorrent planeja colocar em uma caixa, sem falar em um cluster de treinamento, será interessante ver como eles lidam com falhas de hardware.

O bebê RISC-V encontra o grande RISC-V

Diferentemente de suas partes anteriores Greyskull e Wormhole, que foram implantadas como aceleradores baseados em PCIe, o Blackhole da Tenstorrent — que não deve ser confundido com a arquitetura Blackwell da Nvidia, de nome semelhante — foi projetado para funcionar como um computador de IA autônomo.

Isso, de acordo com Jasmina Vasiljevic, pesquisadora sênior de frameworks de ML e modelos de programação na Tenstorrent, é possível graças à inclusão de 16 núcleos de CPU “Big RISC-V” de 64 bits, dual-issue, em ordem, organizados em quatro clusters. Criticamente, esses núcleos são robustos o suficiente para servir como um host no dispositivo executando Linux. Esses núcleos de CPU são pareados com 752 núcleos “Baby RISC-V”, que são responsáveis ​​pelo gerenciamento de memória, comunicações off-die e processamento de dados.

O acelerador Blackhole é equipado com 16 núcleos Big RISC-V e 752 Baby RISC-V.

O acelerador Blackhole é embalado com 16 núcleos Big RISC-V e 752 Baby RISC-V. – Clique para ampliar

A computação real, no entanto, é manipulada por 140 núcleos Tensix do Tenstorrent, cada um dos quais é composto por cinco núcleos “Baby RISC-V”, um par de roteadores, um complexo de computação e algum cache L1.

O complexo de computação consiste em um mecanismo matemático de blocos projetado para acelerar cargas de trabalho de matriz e um mecanismo matemático vetorial. O primeiro suportará Int8, TF32, BF/FP16, FP8, bem como tipos de dados de ponto flutuante de bloco variando de dois a oito bits, enquanto o mecanismo vetorial tem como alvo FP32, Int16 e Int32.

Cada um dos núcleos Tensix da Blackholes possui cinco núcleos baby RISC-V, dois roteadores, cache L1 e mecanismos de matriz e vetor.

Cada um dos núcleos Tensix da Blackholes apresenta cinco núcleos baby RISC-V, dois roteadores, cache L1 e mecanismos de matriz e vetor. – Clique para ampliar

De acordo com Capalija, essa configuração significa que o chip pode suportar uma variedade de padrões de dados comuns em aplicações de IA e HPC, incluindo multiplicação de matrizes, convoluções e layouts de dados fragmentados.

Os núcleos bebês do Blackhole podem ser programados para suportar uma variedade de padrões de movimentação de dados.

Os núcleos de bebê do Blackhole podem ser programados para suportar uma variedade de padrões de movimentação de dados. – Clique para ampliar

No total, os núcleos Tensix da Blackhole respondem por 700 dos 752 chamados núcleos baby RISC-V a bordo. Os restantes são responsáveis ​​pelo gerenciamento de memória (“D” para DRAM), comunicações off-chip (“E” para Ethernet), gerenciamento de sistema (“A”) e PCIe (“P”).

Construindo um ecossistema de software

Junto com o novo chip, a Tenstorrent também divulgou seu modelo de programação de baixo nível TT-Metalium para seus aceleradores.

Como qualquer um que esteja familiarizado com a plataforma CUDA da Nvidia sabe, o software pode fazer ou quebrar o sucesso até mesmo do hardware de mais alto desempenho. Na verdade, o TT-Metalium lembra um pouco os modelos de programação de GPU como CUDA ou OpenCL, pois é heterogêneo, mas difere porque foi construído do zero para IA e escalonamento horizontal”, explicou Capalija.

Uma dessas diferenças é que os kernels em si são C++ simples com APIs. “Não vimos necessidade de uma linguagem kernel especial”, ele explicou.

O Tenstorrent visa oferecer suporte a muitos tempos de execução de modelos padrão, como TensorFlow, PyTorch, ONNX, Jax e vLLM

O Tenstorrent visa oferecer suporte a muitos tempos de execução de modelos padrão, como TensorFlow, PyTorch, ONNX, Jax e vLLM – Clique para ampliar

Combinado com suas outras bibliotecas de software, incluindo TT-NN, TT-MLIR e TT-Forge, o Tenstorrent visa oferecer suporte à execução de qualquer modelo de IA em seus aceleradores usando tempos de execução comumente usados, como PyTorch, ONNX, JAX, TensorFlow e vLLM.

O suporte para esses modelos de programação de alto nível deve ajudar a abstrair a complexidade da implantação de cargas de trabalho nesses aceleradores, semelhante ao que vimos com os aceleradores AMD e Intel. ®

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button