News

Victor Peng da AMD: A sede de poder da IA ​​ressalta a necessidade de silício eficiente

Batatas Fritas Falando na Hot Chips esta semana, o presidente da AMD, Victor Peng, abordou um dos maiores desafios enfrentados pela indústria de semicondutores enquanto ela lida com a crescente demanda por modelos de IA cada vez maiores: energia.

“Se você olhar para essas grandes implantações em nível macro, estamos falando de não encontrar fontes de energia suficientes e estar preocupado com as redes e a distribuição”, observou ele.

A sede aparentemente insaciável de poder da IA ​​ganhou considerável atenção no ano passado – tanto que alguns operadores começaram montar uma loja ao lado de usinas nucleares. E o problema não vai ficar mais fácil.

“Acontece que … se você jogar [in] mais computação, você aumenta o tamanho do modelo, obtém melhor desempenho, precisão, níveis de inteligência, como você quiser pensar sobre isso”, ele argumentou. Ele observou que esses modelos passaram muito rapidamente de exigir centenas de megawatts-hora para treinar para centenas de gigawatt horas.

Para enfrentar esse desafio, Peng argumenta que a indústria de semicondutores precisa concentrar mais atenção em tornar a infraestrutura não apenas mais eficiente, mas também mais eficiente.

“Seja qual for o orçamento de energia que você acha que está limitado, se você obtiver maior desempenho, poderá treinar modelos maiores e obter inteligência mais rapidamente, ou poderá atendê-los de forma mais econômica”, explicou ele.

Infelizmente, parece que muitos dos botões e alavancas em que os fabricantes de chips e designers confiaram para continuar a escalar a computação estão ficando sem força. As melhorias na tecnologia de processo estão se tornando menores, enquanto o tempo entre cada geração subsequente está ficando mais longo e mais custoso.

A razão pela qual as pessoas na indústria afirmam que a Lei de Moore está viva e bem, Pend opinou, é porque muitos desses desafios podem ser superados mudando para arquiteturas de chiplet e empacotamento avançado. Esta é uma área em que a AMD tem sido líder – voltando ao lançar de seus processadores Epyc de primeira geração em 2017.

De acordo com dados da AMD, o empilhamento de silício 3D, embora mais complexo, é 50 vezes mais eficiente do que sair do pacote

De acordo com dados da AMD, o empilhamento de silício 3D, embora mais complexo, é 50 vezes mais eficiente do que sair do pacote – Clique para ampliar

Ao migrar para o silício empilhado em 3D – como vimos com o AMD Epycs da série X e processadores Ryzen, bem como em sua série MI300 GPUs e APUs – Peng afirma que é possível atingir 50 vezes mais bits por joule de energia em comparação com o pacote off.

Isso se torna especialmente relevante quando você começa a tentar dimensionar a computação para cima e para baixo, algo que é incrivelmente comum no treinamento de IA e na inferência de grandes modelos em data centers hoje em dia.

Comparado a manter tudo no chip, sistemas de escalabilidade vertical – pense em redes de GPUs baseadas em NVLink ou Infinity Fabric – exigem 1.600 vezes mais energia, de acordo com dados da AMD. Para escalar essa computação em vários nós, é preciso ainda mais energia – em parte por causa das ineficiências dessas interconexões mais lentas, mas também da energia necessária para executar todos os switches, NICs e ópticas que os compõem.

O custo de sair do die é imenso, mesmo com tecidos de interconexão rápida como o Infinity Fabric

O custo de sair do die é imenso, mesmo com tecidos de interconexão rápida como o Infinity Fabric – Clique para ampliar

A rede, diz Peng, continua sendo uma oportunidade quando se trata de aumentar a eficiência do datacenter. Enquanto a computação responde pela maior parte do consumo de energia, a rede é responsável por sugar cerca de 20 por cento dela.

Aqui, ele sugeriu que as malhas de rede em escala podem ajudar, apontando para a Infinity Fabric usada para unir oito GPUs em sistemas baseados em MI300X da AMD. A rival Nvidia já demonstrou sistemas que usam NVLink para unir até 32 GPUs, com planos para configurações mais densas de 36 e 72 GPUs em andamento.

No entanto, o problema de energia da IA ​​não se limita ao datacenter. Ele também se estende a aplicações de IA no cliente e espaços incorporados – só que em vez de dezenas de quilowatts, você está falando de dezenas de watts ou menos. Além do mais, cada um desses segmentos tem requisitos diferentes além da energia – como latência – que precisam ser levados em consideração.

Nesses regimes, Peng argumenta que a aplicação cuidadosa de computação heterogênea oferece um caminho a seguir. Após a aquisição da Xilinx e da Pensando pela AMD em 2022, a linha de hardware da AMD abrangeu CPUs, GPUs, DPUs, FPGAs e NPUs. Mais recentemente, começamos a ver essa tecnologia integrada em chips móveis para tornar o processamento de IA menos intensivo em energia.

O exemplo mais recente disso são os processadores Strix Point Ryzen série 300 da AMD, que apresentam uma NPU XDNA 2 capaz de 50 TOPS de desempenho INT8 e Block FP16. Os rivais Intel, Qualcomm e Apple também adotaram NPUs por esse motivo.

Outra área que Peng abordou que é relevante – independentemente de você estar implantando modelos de IA no datacenter ou na borda – é a quantização. Abordamos o tópico em profundidade em nosso recente mãos na massamas, em poucas palavras, a quantização é uma técnica de compressão usada para reduzir os pesos do modelo para menor precisão em troca de alguma perda de qualidade.

Se você aguentar a perda de precisão, a quantização oferece alguns ganhos de eficiência bastante substanciais

Se você puder suportar a perda de precisão, a quantização oferece alguns ganhos de eficiência bastante substanciais – Clique para ampliar

A AMD já adotou o FP8 com o MI300X e planeja se juntar à Nvidia no suporte a tipos de dados de ponto flutuante de 4 bits no ano que vem com o lançamento do MI350X. Como a palestra de Peng destacou, essa troca em precisão geralmente vale a pena em troca do maior desempenho por watt que pode ser alcançado ao usá-los.

Enquanto isso, no espaço embarcado, Peng sugere que pode valer a pena mapear modelos diretamente para o silício para otimizar o fluxo de dados. Em um teste interno, os especialistas da AMD conseguiram atingir uma redução de 4.500X em energia por inferência em comparação com a computação INT8 padrão.

Por fim, Peng abordou a importância da otimização de software e co-design e colaboração para desbloquear o desempenho total do hardware. Este é um assunto em que Peng desempenhou um papel significativo na melhoria antes de sua decisão de aposentar no final do mês. ®

Source

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button