వార్తలు

A SiFive muda de núcleos RISC-V para chips de IA para projetar seu próprio acelerador completo

A SiFive, que projetou núcleos de CPU RISC-V para vários chips de IA, agora está se oferecendo para licenciar os projetos para seu próprio acelerador de aprendizado de máquina completo e desenvolvido internamente.

Anunciado esta semana, o SiFive’s Inteligência XM clusters de série prometem um bloco de construção escalável para desenvolver chips de IA grandes e pequenos. A ideia é que outros possam licenciar os designs baseados em RISC-V para integrar em processadores e sistemas em chips – para serem colocados em produtos de equipamentos de ponta e IoT a servidores de datacenter – e, esperançosamente, promover mais competição entre arquiteturas.

Fabless SiFive não é estranho à arena da IA. Como já dissemos relatadopelo menos algumas das unidades de processamento tensorial do Google já estão usando os núcleos de CPU X280 RISC-V da SiFive para gerenciar os aceleradores de aprendizado de máquina e manter suas unidades de multiplicação de matrizes (MXUs) alimentadas com trabalho e dados.

Da mesma forma, John Ronco, vice-presidente sênior e gerente geral da SiFive UK, disse O Registro que os designs RISC-V da SiFive também sustentam os núcleos de CPU encontrados no acelerador Blackhole recentemente divulgado pela Tenstorrent, que nós olhou para em detalhes no Hot Chips do mês passado.

E em um declaração enlatadaO CEO da SiFive, Patrick Little, afirmou que a empresa sediada nos EUA agora está fornecendo designs de chips baseados em RISC-V para cinco das “7 magníficas” empresas – Microsoft, Apple, Nvidia, Alphabet, Amazon, Meta e Tesla – embora suspeitemos que nem todo esse silício envolva necessariamente IA.

O que diferencia a série Intelligence XM da SiFive de compromissos anteriores com empresas como Google ou Tenstorrent é que, em vez de ter seus núcleos de CPU conectados a um mecanismo matemático de matriz de terceiros, todos empacotados no mesmo chip, a SiFive está trazendo seu próprio design completo de acelerador de IA para os clientes licenciarem e colocarem em silício. Isso não é voltado para players de semicondutores capazes de criar seus próprios aceleradores, como Google e Tenstorrent — é voltado para organizações que querem pegar um design pronto para uso, personalizá-lo e enviá-lo para a fábrica.

“Para alguns clientes, ainda será correto que eles façam seu próprio hardware”, disse Ronco. “Mas, para alguns clientes, eles queriam mais um balcão único da SiFive.”

Nesse sentido, esses clusters XM são um pouco como os designs do Compute Subsystem (CSS) da Arm, pois oferecem aos clientes um bloco de construção mais abrangente para projetar silício personalizado. Mas, em vez de processadores de aplicativos gerais, o SiFive está mirando aqueles que querem fazer seus próprios aceleradores de IA.

Um olhar mais atento ao Cluster XM

O cluster XM base do SiFive é construído em torno de quatro núcleos de CPU Intelligence X RISC-V do SiFive que são conectados a um mecanismo matemático de matriz interno especificamente para alimentar cálculos de rede neural em hardware. Se você não estiver familiarizado, nós já explorado Os designs principais da série X280 e X390 mais recentes da SiFive, sendo que este último pode ser configurado com um par de 1.024 unidades lógicas aritméticas vetoriais.

O cluster XM base é composto por quatro núcleos Intelligence X vinculados a um mecanismo de matriz

O cluster XM base compreende quatro núcleos de CPU Intelligence X RISC-V vinculados a um mecanismo de matriz – Clique para ampliar. Fonte: SiFive

Cada um desses clusters oferece suporte para até 1 TB/s de largura de banda de memória por meio de uma interface de hub coerente e espera-se que forneça até 16 TOPS (tera-operações por segundo) de INT8 ou 8 teraFLOPS de desempenho BF16 por gigahertz.

TeraFLOPS por gigahertz pode parecer uma métrica estranha, mas é importante lembrar que este não é um chip completo e o desempenho será determinado em grande parte por quantos clusters o cliente coloca em seu componente, como tudo é conectado internamente, o que mais está no chip, qual é a situação de energia e resfriamento e quão rápido ele é sincronizado.

À primeira vista, esses clusters XM podem não parecer tão poderosos – especialmente quando você considera que a SiFive espera que a maioria dos chips baseados no design opere em torno de 1 GHz. No entanto, junte alguns e seu potencial de desempenho aumenta rapidamente.

Ronco espera que a maioria dos chips baseados no design utilizem entre quatro e oito clusters XM, o que, em teoria, permitiria entre 4 e 8 TB/s de largura de banda de memória de pico e até 32 a 64 teraFLOPS de desempenho BF16 — e isso assumindo um clock operacional de 1 GHz.

Isso ainda é muito mais lento do que algo como um Nvidia H100, que pode produzir quase um petaFLOPS de desempenho denso de BF16. Mas, como mencionamos anteriormente, FLOPS não são tudo — especialmente quando se trata de cargas de trabalho com restrição de largura de banda, como inferência de IA. Há considerações como preço, potência, nó de processo e tudo mais.

Por esse motivo, Ronco espera que os clusters XM da SiFive provavelmente não sejam usados ​​tão amplamente para treinamento de IA. Dito isso, o design não se limita a oito clusters.

Ronco hesitou em dizer até onde o design pode ser escalado – parte disso provavelmente se deve à tecnologia de processo e à área de matriz. No entanto, o slide deck de produtos da empresa sugere que os clusters 512 XM estão dentro do reino das possibilidades. Novamente, caberá ao cliente decidir o que é apropriado para sua aplicação específica.

O SiFive sugere que até 512 clusters XM podem ser agrupados para atingir 4 petaFLOPS de desempenho de IA

O SiFive sugere que até 512 clusters XM podem ser agrupados para atingir 4 petaFLOPS de desempenho de IA – Clique para ampliar

Supondo que o cliente final possa realmente manter uma velocidade de clock de 1 GHz sem incorrer em limitações térmicas ou de energia, os clusters 512 XM rivalizariam com os próximos aceleradores Blackwell da Nvidia, ostentando aproximadamente quatro petaFLOPS de computação de matriz BF16. Para efeito de comparação, as GPUs Blackwell de especificações mais altas da Nvidia ostentam 2,5 petaFLOPS de desempenho BF16.

Junto com seus novos clusters XM, a SiFive diz que também oferecerá uma implementação de referência de código aberto de seu Biblioteca do Kernel SiFive para reduzir as barreiras à adoção de arquiteturas RISC-V. ®

PS: Braço esta semana anunciado está adicionando seu Biblioteca Kleidi para PyTorch e ExecuTorch, permitindo que aplicativos que usam essas estruturas usem os núcleos Arm do host de um dispositivo para acelerar o trabalho de IA. Essa é uma aceleração usando instruções especializadas nas CPUs, em vez de um acelerador dedicado.

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button