- A Microsoft passou a permitir que APIs locais de modelo de linguagem do Windows 11 rodem em GPUs GeForce RTX, dispensando a NPU para o Copilot+ (fase experimental).
- Suporte disponível para GPUs GeForce RTX da série 30 ou mais recentes, com pelo menos 6 GB de VRAM; requer Canal Experimental do Windows Insider e Ativação do Modo de Desenvolvedor.
- As APIs locais de texto rodam com o Phi Silica, baixado pelo Windows Update, processando formatação de texto, respostas e tarefas de IA localmente.
- O conjunto completo do Copilot+ (Recall, Cocreator e Windows Studio) continua dependente de uma NPU de 40+ TOPS; a abertura via GPU não inclui esse pacote completo.
- A mudança usa DirectML (camada de aceleração de aprendizado de máquina no DirectX) e não implica fim da NPU, que mantém utilidade em dispositivos finos e tarefas de IA sempre ativas.
A Microsoft abriu uma possibilidade antes apenas teórica: as APIs locais de modelo de linguagem do Windows 11 passam a rodar em placas GeForce RTX, sem depender de NPUs. A mudança foi anunciada em atualização de documentação para desenvolvedores e em um post no GitHub, notada pelo Windows Latest. O suporte vale para GPUs GeForce RTX da série 30 ou mais novas, com pelo menos 6 GB de VRAM.
Por ora, o recurso está restrito a desenvolvedores. Para ativar a inferência local sem NPU é necessário estar no Canal Experimental do Windows Insider e ligar o Modo de Desenvolvedor. A Microsoft descreve as APIs de modelo de linguagem como locais, não incluindo o Copilot da nuvem nem o pacote Copilot+ completo.
O que muda na prática
As APIs locais de texto passam a rodar em PCs com GPU compatível, com o aplicativo acionando o Windows Update para baixar o modelo Phi Silica e executá-lo na placa de vídeo. As funções disponíveis incluem formatação de texto por IA, geração de respostas e tarefas de assistente, tudo processado localmente.
Recursos de consumo do Copilot+ como Recall, Cocreator e Windows Studio continuam dependentes de NPUs de 40 TOPS. A nova abertura para GPU não traz, neste momento, esse conjunto completo de recursos.
Contexto técnico
A opção faz uso do DirectML, a camada de aceleração de aprendizado de máquina do DirectX. O requisito mínimo de 6 GB de VRAM se justifica pela natureza do Phi Silica, que tem cerca de 3,3 bilhões de parâmetros. A escolha evita depender exclusivamente de NPUs para IA local.
Ainda que a NPU preserve utilidade em tarefas sempre ativas e em notebooks ultrafinos, a GPU oferece vantagem de desempenho em muitos cenários. Em 2024, GPUs GeForce RTX 40 já alcançavam até 1.300 TOPS em IA, frente a cerca de 45-50 TOPS de NPUs de concorrentes na época.
Quem está envolvido e por quê
A mudança envolve a Microsoft e a equipe de desenvolvimento do Windows 11, com foco em ampliar a IA local para além dos notebooks Copilot+. A adoção visa ampliar a base de usuários e diferenciar o Windows 11 num momento de pressão competitiva com macOS e Linux.
Para usuários comuns, não houve alteração hoje. A ativação ocorre apenas no ambiente de desenvolvimento, não havendo disponibilidade de apps com uso estável dessas APIs ainda. Em versões futuras, a disponibilidade pode evoluir conforme a estabilidade do recurso.
Clarificações futuras
A Microsoft classifica a camada como experimental e avisa que APIs podem mudar ou sumir em versões futuras do Windows App SDK. Analistas apontam que esse pode ser o primeiro passo para tornar a IA local mais ampla, ainda que o Copilot+ permaneça com oferta restrita a NPUs.
Entre na conversa da comunidade