IA de Elon Musk usa apenas 11% das 550 mil GPUs adquiridas

A xAI de Elon Musk tem 550 mil GPUs NVIDIA (H100/H200), mas utiliza apenas 11% de MFU (Model FLOPs Utilization) nas últimas semanas.
Em termos práticos, cerca de 60 mil GPUs trabalham; 490 mil ficam ociosas, o que representa um custo elevado em hardware ocioso.
Meta atinge aproximadamente 43% de utilização com frota de mais de 600 mil aceleradores H100, enquanto Google chega a 46% com GPUs NVIDIA e TPUs internos.
O problema não é apenas o hardware: há gargalos de memória de alta largura de banda, rede de interconexão entre nós e um stack de software distribuído ainda em amadurecimento.
A xAI mira elevar a MFU para perto de 50%, com foco em melhorar software, pipeline de dados e contratação de engenheiros; também avalia alugar capacidade ociosa e seguir com o projeto Terafab de chips próprios em Austin.

A xAI, braço de IA de Elon Musk, opera com 550 mil GPUs NVIDIA instaladas, usadas para treinar o chatbot Grok. Memória interna divulgada pelo The Information aponta aproveitamento efetivo de apenas 11%, bem abaixo do esperado. Meta e Google superam os 40% de MFU.

Os 550 mil aceleradores, entre H100 e H200 da geração Hopper, ficam distribuídos entre Memphis e o supercluster Colossus. O valor de investimento em silício fica entre 16 e 22 bilhões de dólares, sem contar impostos e taxas.

A discrepância entre o instalado e o ativo mostra um gargalo estrutural: apenas cerca de 60 mil GPUs produzem trabalho útil, enquanto 490 mil ficam ociosas em parte do ciclo de treinamento. A ociosidade impõe custos bilionários com hardware.

A métrica MFU mede o que a máquina entrega frente ao teto teórico do chip. Em ambientes com centenas de milhares de placas, a eficiência tende a ser mais sensível. Paralelamente, Meta utiliza 43% e Google chega a 46% com ecossistema próprio de software.

Desempenho frente aos pares

A comparação indica que a diferença de maturidade entre as empresas é o principal fator de eficiência. Meta opera mais de 600 mil aceleradores H100 com MFU de cerca de 43%. Google mescla GPUs NVIDIA e TPUs, chegando a 46%.

Embora o hardware seja similar em escala, o avanço está no software: orquestração, escalonamento e bibliotecas otimizadas, desenvolvidos ao longo de anos em operações de larga escala.

Além do hardware

Há relatos de incentivos internos para rodar experimentos sem necessidade, inflando artificialmente a MFU. Esse efeito distorce a percepção de eficiência e dificulta a realocação de GPUs ociosas.

A meta da xAI é elevar a MFU para próximo de 50%, buscando maturar o stack de software, reorganizar a pipeline de dados e ampliar a equipe de otimização de clusters. Outra hipótese é alugar capacidade ociosa para terceiros enquanto melhora a operação.

Estratégia paralela de silício próprio

Paralelamente aos ajustes, Musk mira reduzir a dependência da NVIDIA. O projeto Terafab, em parceria com SpaceX e Tesla, prevê fábrica própria em Austin, com custo entre 20 e 25 bilhões de dólares. O foco inicial inclui chips de inferência para carros e robôs, além de componentes para satélites.

A xAI também é considerada candidata a consumir parte dessa produção futura em seus clusters. Os próximos passos dependem do avanço do stack distribuído e da disponibilidade de silício de alto desempenho.

O relatório aponta que o gargalo está no software entre o silício e o modelo. Em vez de apenas aumentar o número de GPUs, a prioridade real é aperfeiçoar a infraestrutura de treinamento distribuído para reduzir a ociosidade.