Uma visita exclusiva ao lab Trainium da Amazon, o chip que conquistou a Anthropic, OpenAI e até a Apple.

Robson Caitano22 de março de 202601 vizualizações

Anúncio da Investida da Amazon na Tecnologia de Chips

Logo após o CEO da Amazon, Andy Jassy, anunciar um acordo de investimento inovador de 50 bilhões de dólares da AWS com a OpenAI, a Amazon me convidou para uma visita particular ao laboratório de desenvolvimento de chips, que está no cerne do acordo, com custo majoritariamente coberto pela empresa.

Expectativa da Indústria

Especialistas do setor estão atentos ao chip Trainium da Amazon, desenvolvido nesse laboratório, em virtude de suas implicações para uma inferência de IA a custo reduzido e, potencialmente, um impacto na quase monopolização da Nvidia.

Início da Tour

Diante do interesse, decidi aceitar o convite para a visita.

Os guias da visita foram o diretor do laboratório, Kristopher King, e o diretor de engenharia, Mark Carroll, além do responsável pela comunicação da equipe, Doron Aronson, que organizou a visita.

Relação da AWS com a Anthropic

A AWS tem sido a principal plataforma de nuvem da Anthropic desde os primeiros dias do laboratório de IA, uma relação significativa o suficiente para sobreviver à adição posterior da Microsoft como parceira de nuvem, bem como à crescente parceria da Amazon com a OpenAI.

O acordo com a OpenAI torna a AWS a fornecedora exclusiva do novo construtor de agentes de IA da OpenAI, chamado Frontier, que pode se tornar uma parte importante do negócio da OpenAI, se os agentes se tornarem tão grandes quanto o Vale do Silício acredita que irão. A validade dessa exclusividade ainda deverá ser confirmada. O Financial Times relatou esta semana que a Microsoft pode acreditar que o acordo da OpenAI com a Amazon viola seu próprio acordo com a OpenAI, que prevê que Redmond tenha acesso a todos os modelos e tecnologias da OpenAI.

Atrações da AWS para a OpenAI

O que torna a AWS tão atraente para a OpenAI? Como parte deste acordo, o gigante da nuvem concordou em fornecer à OpenAI uma capacidade de computação de 2 gigawatts de Trainium. Este é um compromisso significativo, considerando que a Anthropic e o próprio serviço Bedrock da Amazon já estão consumindo chips Trainium mais rapidamente do que a Amazon consegue produzi-los.

Estão atualmente em operação 1,4 milhão de chips Trainium distribuídos por todas as três gerações. A Anthropic informou que o Claude, seu modelo, opera em mais de 1 milhão de chips Trainium2.

Vale ressaltar que, enquanto o Trainium foi originalmente projetado para treinamento de modelos mais rápido e barato, atualmente também está ajustado e utilizado para inferência. A inferência — o processo de realmente executar um modelo de IA para gerar respostas — é, atualmente, o maior gargalo de desempenho do setor.

Aplicações Práticas do Trainium

Um exemplo significativo é que o Trainium2 lida com a maior parte do tráfego de inferência do serviço Bedrock da Amazon, que suporta a construção de aplicações de IA para muitos clientes empresariais da Amazon e permite que os aplicativos utilizem múltiplos modelos.

“Nossa base de clientes está se expandindo tão rápido quanto conseguimos disponibilizar capacidade”, afirmou King. “O Bedrock poderia ser tão grande quanto o EC2 um dia”, referindo-se ao gigante serviço de computação da AWS.

Comparação com a Nvidia

Para além de oferecer uma alternativa às GPUs da Nvidia, que estão com a produção sobrecarregada e são difíceis de adquirir, a Amazon afirma que seus novos chips, que operam em seus novos UltraServers Trn3, custam até 50% menos para operar em desempenho comparável ao de servidores em nuvem tradicionais.

Com o lançamento do Trainium3 em dezembro, essa equipe da AWS também desenvolveu novos switches Neuron, e Carroll afirmou que essa combinação é transformadora.

“O que isso nos proporciona é algo enorme”, ressaltou Carroll. Os switches permitem que cada chip Trainium3 se comunique com todos os outros chips em uma configuração de malha, reduzindo a latência. “É por isso que o Trainium3 está quebrando recordes de ‘preço por potência’”, concluiu.

Quando trilhões de tokens por dia estão envolvidos, tais melhorias se acumulam.

Na verdade, a equipe de chips da Amazon foi elogiada pela Apple em 2024. Em um momento raro de abertura, o diretor de IA da Apple descreveu publicamente como eles usaram outro chip da equipe — o Graviton, um CPU de servidor de baixo consumo, e o primeiro chip de destaque que essa equipe projetou. A Apple também elogiou o Inferentia — um chip projetado especificamente para inferência — e fez referências ao Trainium, que era novo na época.

Desafios de Mudança

Esses chips representam o típico plano da Amazon: observar o que as pessoas desejam comprar e, em seguida, construir uma alternativa interna que concorra em preço.

O desafio para os chips, historicamente, tem sido os custos de mudança. Aplicações escritas para chips da Nvidia precisam ser reestruturadas para funcionarem com outros — um processo que consome tempo e desestimula os desenvolvedores a mudar.

No entanto, a equipe de chips da AWS se orgulha em informar que o Trainium agora suporta PyTorch, uma popular estrutura de código aberto para a criação de modelos de IA. Isso incluiu muitos dos que estão hospedados na Hugging Face, uma vasta biblioteca onde os desenvolvedores compartilham modelos de código aberto.

A transição, contou Carroll, requer “basicamente uma mudança de uma linha, depois recompilar e rodar no Trainium.” Em outras palavras, a Amazon está tentando diminuir a dominância de mercado da Nvidia sempre que possível.

Além disso, a AWS anunciou, neste mês, uma parceria com a Cerebras Systems, integrando o chip de inferência dessa empresa em servidores que operam com Trainium, prometendo um desempenho de IA superpotente e de baixa latência.

Design de Servidores para Chips

Mas as ambições da Amazon vão além dos próprios chips. A empresa também projeta o servidor que hospeda os chips. Além dos componentes de rede, essa equipe desenvolveu o “Nitro”, uma combinação de hardware e software que oferece tecnologia de virtualização (que permite que muitas instâncias de software operem separadamente no mesmo servidor); nova tecnologia de refrigeração líquida de ponta; e os “sleds” que hospedam esse equipamento.

Tudo isso visa controlar custos e desempenho.

O Processo de “Bring-Up”

A unidade de design de chips personalizada da Amazon nasceu quando a gigante da nuvem adquiriu a designer de chips israelense Annapurna Labs em janeiro de 2015 por cerca de 350 milhões de dólares. Assim, essa equipe já possui mais de 10 anos de experiência no design de chips para a AWS. A unidade manteve suas raízes na Annapurna e seu nome — seu logotipo está por toda parte no escritório.

Esse laboratório de chips está localizado em um elegante edifício de janelas cromadas no sofisticado distrito “The Domain”, em Austin, uma área recheada de lojas e restaurantes que às vezes é chamada de Vale do Silício de Austin.

Os escritórios têm uma típica vibração corporativa de tecnologia: mesas em cubículos, espaços de encontro e salas de conferência. Mas escondido no fundo de um andar alto do edifício, está o laboratório real, com vistas panorâmicas da cidade.

O laboratório, repleto de prateleiras, possui aproximadamente o tamanho de duas grandes salas de conferência e é um espaço industrial barulhento, devido aos ventiladores dos equipamentos. A aparência lembra uma aula de oficina de escola secundária em combinação com um set de Hollywood para um laboratório de alto padrão, exceto que os engenheiros estão vestidos com jeans, e não de jalecos brancos.

O Que É a “Bring-Up”?

É importante notar que este não é o local onde os chips são fabricados, portanto, não foram necessários trajes de proteção. O Trainium3 é um chip de última geração de 3 nanômetros, produzido pela TSMC, considerada a líder na fabricação de chips de 3 nanômetros, com outros chips produzidos pela Marvell.

Porém, essa é a sala onde a mágica da “bring-up” ocorre. “Uma ‘bring-up’ de silício é quando você recebe o chip pela primeira vez, e é como uma grande festa de noite inteira. Você fica aqui, como se estivesse em um lock-in”, explica King. Após 18 meses de trabalho, o chip é ativado pela primeira vez para verificar se funciona conforme o planejado. A equipe chegou a filmar uma parte do processo de ‘bring-up’ do Trainium3 e postou no YouTube.

Aviso: Nunca é um processo sem problemas.

Para o Trainium3, o chip protótipo era originalmente resfriado a ar, assim como versões anteriores. O chip atual é agora resfriado a líquido, o que oferece vantagens energéticas e foi um feito considerável de engenharia.

Durante a “bring-up”, as medidas que indicam como o chip se conectava ao dissipador de calor de ar estavam incorretas, impossibilitando a ativação do chip.

Despreocupada, a equipe “imediatamente pegou uma lixadeira e simplesmente começou a lixar o metal”, disse King. Para que o barulho não perturbe a atmosfera festiva da “bring-up”, eles se esgueiraram e fizeram a lixação em uma sala de conferência.

Ficar acordado a noite toda e resolver problemas “é sobre isso que se trata a ‘bring-up’ de silício”, disse King.

O laboratório possui até uma estação de soldagem, onde o engenheiro de laboratório e mestre em soldagem, Isaac Guevara, demonstrou a soldagem de pequenos componentes integrados através de um microscópio. Este é um trabalho extremamente difícil que, segundo o líder sênior Carroll, ele não conseguiria realizar, provocando risadas de Guevara e dos outros engenheiros presentes.

Equipamentos de Teste e Análise

O laboratório também contém tanto ferramentas personalizadas quanto comerciais para testar e analisar problemas com os chips. Aqui, o engenheiro de sinal Arvind Srinivasan demonstra como o laboratório testa cada pequeno componente do chip.

As “Sleds” como Destaque no Laboratório

Contudo, a estrela do laboratório é uma fileira inteira que destaca cada geração dos “sleds” projetados pela equipe.

Os “sleds” são as bandejas que abrigam os chips de IA Trainium, os chips CPU Graviton e as placas e componentes de suporte. Empilhá-los em um rack com o componente de rede, também projetado sob medida por esta equipe, resulta nos sistemas que estão no coração do sucesso do Anthropic Claude.

Durante a conferência re:Invent da AWS em dezembro, o “sled” foi mostrado.

Comprovação pelo Trabalho com a Anthropic e a OpenAI

Eu esperava que meus guias se gabassem sobre o acordo com a OpenAI durante a visita. No entanto, não o fizeram.

A reticência pode estar relacionada à mencionada incerteza legal que pode pairar sobre o acordo. Entretanto, a impressão que tive foi de que esses engenheiros, envolvidos no design da próxima versão, o Trainium4, ainda não tiveram muita chance de trabalhar com a OpenAI. Seu trabalho cotidiano, até agora, tem sido voltado para as necessidades da Anthropic e da Amazon.

Atualmente, a maior parte dos chips Trainium2 está implantada no Projeto Rainier — um dos maiores clusters de computação em IA do mundo — que entrou em operação no final de 2025 com 500 mil chips, sendo utilizado pela Anthropic.

No entanto, havia um monitor de parede no escritório principal exibindo uma citação sobre como a OpenAI irá utilizar o Trainium. O orgulho estava presente, embora de maneira sutil.

Além do laboratório, a equipe também possui seu próprio data center privado com a finalidade de qualidade e testes. A uma curta distância de carro, ele não executa cargas de trabalho de clientes, portanto, está situado em uma instalação de co-localização, não em um data center da AWS.

A segurança é rigorosa: existem protocolos estritos para entrar no edifício e acessar a área da Amazon dentro dele.

O sistema de refrigeração do data center é tão barulhento que protetores auriculares são obrigatórios, e o ar está impregnado com o cheiro acre de metal aquecido. Não é um lugar agradável para a maioria das pessoas permanecer por muito tempo.

Dentro deste data center, há fileiras e fileiras de servidores repletos de sleds que integram todos os mais novos chips personalizados da Amazon: CPU Graviton, Trainium3 refrigerados a líquido, Amazon Nitro, todos operando de forma otimizada. O líquido opera em um sistema fechado, o que significa que é reutilizado e deve também ajudar a reduzir o impacto ambiental, segundo os engenheiros.

Perspectivas sobre o Futuro

Uma imagem atual de um servidor Trn3 UltraServer foi apresentada: múltiplos sleds estão posicionados superior e inferiormente, com os switches Neuron no meio. O engenheiro de desenvolvimento de hardware, David Martinez-Darrow, foi visto realizando manutenção em um sled.

Embora a atenção sobre a equipe sempre tenha sido alta, a supervisão realmente aumentou nos últimos tempos.

O CEO da Amazon, Andy Jassy, acompanha de perto este laboratório, gabando-se publicamente sobre seus produtos, como um pai orgulhoso. Em dezembro, ele afirmou que o Trainium já representava um negócio bilionário para a AWS e o chamou de uma das tecnologias da AWS que mais o entusiasma. Ele também fez questão de mencionar o chip ao anunciar o acordo com a OpenAI.

A equipe também sente a pressão. Os engenheiros trabalham 24 horas por dia, durante três a quatro semanas em cada evento de ‘bring-up’ para corrigir quaisquer problemas, a fim de que os chips possam ser produzidos em massa e inseridos nos data centers.

“É muito importante que consigamos o mais rápido possível provar que realmente vai funcionar”, afirmou Carroll. “Até agora, estamos indo muito bem.”

*Divulgação: A Amazon forneceu passagens aéreas e cobriu o custo de uma noite em um hotel local. Em homenagem ao seu Princípio de Liderança de Frugalidade, esta foi uma poltrona do fundo do avião e um quarto modesto. A TechCrunch arcou com os demais custos de viagem relacionados, como Ubers e taxas de bagagem. (Sim, eu despachei uma bagagem para uma viagem de uma noite. Sou assim exigente.)