వార్తలు

IBM revela os próximos chips para alimentar IA em larga escala em big iron de próxima geração

A IBM revelou um processador mais potente para seus famosos sistemas de mainframe, prometendo aceleração aprimorada de IA no chip para inferência, além de unidade de processamento de dados (DPU) integrada para impulsionar o manuseio de E/S.

Há também um acelerador de IA separado, destinado a dar suporte à inferência em maior escala.

Anunciado no Batatas Fritas 2024 conferência em Palo Alto, a Processador Arma II deve trazer melhorias significativas de desempenho para o mainframe, de acordo com a Big Blue. A empresa também deu uma prévia do Spyre AI Accelerator e disse que espera que ambos os chips estejam disponíveis com os sistemas IBM Z de próxima geração, chegando no primeiro semestre de 2025.

Se acreditarmos na IBM, cerca de 70% de todas as transações do mundo, em valor, passam por seus mainframes, e a empresa disse que os desenvolvimentos que está apresentando na Hot Chips permitirão que ela leve IA generativa para essas cargas de trabalho de missão crítica.

O Telum II será um chip de oito núcleos como seu antecessor, mas no novo silício, eles rodam a uma velocidade de clock maior de 5,5 GHz. Há dez caches de 36 MB Nível-2; um para cada núcleo, um para a DPU e o décimo como cache geral do chip. Com o L3 virtual e o L4 virtual crescendo para 360 MB e 2,88 GB respectivamente, isso representa um aumento de 40 por cento no tamanho do cache, disse a IBM.

O primeiro processador Telum trouxe inferência de IA integrada ao z16 quando foi lançado em 2022. Ele é capaz de executar verificações de detecção de fraudes em tempo real em transações financeiras enquanto elas estão sendo processadas.

A Big Blue diz que melhorou significativamente os recursos do acelerador de IA no processador Telum II, atingindo 24 trilhões de operações por segundo (TOPS). Mas, como O Registro tem explicado antesTOPS pode ser uma métrica enganosa. O suporte para INT8 como um tipo de dado foi adicionado, mas o Telum II em si é projetado para permitir que os tempos de execução do modelo operem lado a lado com as cargas de trabalho empresariais mais exigentes.

O DPU no chip foi adicionado para ajudar a atender às crescentes demandas de cargas de trabalho, especialmente com vistas às futuras cargas de trabalho de IA e ao futuro Spyre Accelerator para os sistemas Z.

De acordo com a Armonk outfit, cada DPU inclui quatro clusters de processamento, cada um com oito microcontroladores programáveis ​​e um acelerador de IO que gerencia esses clusters de processamento, além do subsistema de IO para dois domínios de gaveta de IO. A DPU também apresenta um cache L1 separado e um gerenciador de solicitações para rastrear solicitações pendentes.

A DPU fica entre a malha do processador principal e a malha PCIe. O objetivo de anexá-la diretamente à malha dessa forma é reduzir muito a sobrecarga para transferências de dados, ao mesmo tempo em que melhora o rendimento e a eficiência energética.

A IBM disse que, como configuração máxima, os futuros sistemas Z podem ter até 32 processadores Telum II e 12 compartimentos de E/S, onde cada compartimento tem até 16 slots PCIe, permitindo que o sistema suporte um total de até 192 placas PCIe, expandindo significativamente a capacidade de E/S.

O Acelerador Spyre conterá 32 núcleos com uma arquitetura similar ao acelerador de IA integrado ao próprio chip Telum II. Um IBM Z poderia ser configurado com múltiplos Spyre Accelerators para serem instalados via PCIe para escalar a aceleração de IA conforme necessário. Um cluster de oito placas adicionaria 256 núcleos aceleradores a um único sistema IBM Z, por exemplo.

Tanto o Telum II quanto o Spyre Accelerator foram projetados para oferecer suporte ao que a IBM chama de IA de conjunto, que ela descreve como o uso de múltiplos modelos de IA para melhorar o desempenho e a precisão das previsões em comparação com modelos individuais.

“O processador Telum II e o acelerador Spyre foram projetados para oferecer soluções de computação empresarial de alto desempenho, seguras e com maior eficiência energética”, disse Tina Tarquinio, vice-presidente de gerenciamento de produtos da Big Blue para IBM Z e LinuxONE, em um comentário fornecido.

“Após anos em desenvolvimento, essas inovações serão introduzidas em nossa plataforma IBM Z de próxima geração para que os clientes possam aproveitar LLMs e IA generativa em escala”, acrescentou ela.

A Big Blue está buscando ir além da inferência para executar ajustes finos e até mesmo treinamento potencial de modelos em seus mainframes também. Isso permitiria que clientes como bancos e outras empresas que desejam manter dados seguramente mantidos em suas próprias instalações, treinassem e implantassem modelos inteiramente dentro de sua organização, disse.

Tanto o Telum II quanto o Spyre Accelerator serão fabricados para a IBM pela Samsung usando um nó de processo de 5 nm. ®

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button