- A xAI de Elon Musk tem 550 mil GPUs NVIDIA (H100/H200), mas utiliza apenas 11% de MFU (Model FLOPs Utilization) nas últimas semanas.
- Em termos práticos, cerca de 60 mil GPUs trabalham; 490 mil ficam ociosas, o que representa um custo elevado em hardware ocioso.
- Meta atinge aproximadamente 43% de utilização com frota de mais de 600 mil aceleradores H100, enquanto Google chega a 46% com GPUs NVIDIA e TPUs internos.
- O problema não é apenas o hardware: há gargalos de memória de alta largura de banda, rede de interconexão entre nós e um stack de software distribuído ainda em amadurecimento.
- A xAI mira elevar a MFU para perto de 50%, com foco em melhorar software, pipeline de dados e contratação de engenheiros; também avalia alugar capacidade ociosa e seguir com o projeto Terafab de chips próprios em Austin.
A xAI, braço de IA de Elon Musk, opera com 550 mil GPUs NVIDIA instaladas, usadas para treinar o chatbot Grok. Memória interna divulgada pelo The Information aponta aproveitamento efetivo de apenas 11%, bem abaixo do esperado. Meta e Google superam os 40% de MFU.
Os 550 mil aceleradores, entre H100 e H200 da geração Hopper, ficam distribuídos entre Memphis e o supercluster Colossus. O valor de investimento em silício fica entre 16 e 22 bilhões de dólares, sem contar impostos e taxas.
A discrepância entre o instalado e o ativo mostra um gargalo estrutural: apenas cerca de 60 mil GPUs produzem trabalho útil, enquanto 490 mil ficam ociosas em parte do ciclo de treinamento. A ociosidade impõe custos bilionários com hardware.
A métrica MFU mede o que a máquina entrega frente ao teto teórico do chip. Em ambientes com centenas de milhares de placas, a eficiência tende a ser mais sensível. Paralelamente, Meta utiliza 43% e Google chega a 46% com ecossistema próprio de software.
Desempenho frente aos pares
A comparação indica que a diferença de maturidade entre as empresas é o principal fator de eficiência. Meta opera mais de 600 mil aceleradores H100 com MFU de cerca de 43%. Google mescla GPUs NVIDIA e TPUs, chegando a 46%.
Embora o hardware seja similar em escala, o avanço está no software: orquestração, escalonamento e bibliotecas otimizadas, desenvolvidos ao longo de anos em operações de larga escala.
Além do hardware
Há relatos de incentivos internos para rodar experimentos sem necessidade, inflando artificialmente a MFU. Esse efeito distorce a percepção de eficiência e dificulta a realocação de GPUs ociosas.
A meta da xAI é elevar a MFU para próximo de 50%, buscando maturar o stack de software, reorganizar a pipeline de dados e ampliar a equipe de otimização de clusters. Outra hipótese é alugar capacidade ociosa para terceiros enquanto melhora a operação.
Estratégia paralela de silício próprio
Paralelamente aos ajustes, Musk mira reduzir a dependência da NVIDIA. O projeto Terafab, em parceria com SpaceX e Tesla, prevê fábrica própria em Austin, com custo entre 20 e 25 bilhões de dólares. O foco inicial inclui chips de inferência para carros e robôs, além de componentes para satélites.
A xAI também é considerada candidata a consumir parte dessa produção futura em seus clusters. Os próximos passos dependem do avanço do stack distribuído e da disponibilidade de silício de alto desempenho.
O relatório aponta que o gargalo está no software entre o silício e o modelo. Em vez de apenas aumentar o número de GPUs, a prioridade real é aperfeiçoar a infraestrutura de treinamento distribuído para reduzir a ociosidade.
Entre na conversa da comunidade