- Vulnerabilidade Bleeding Llama afeta o Ollama, registrada como CVE-2026-7482, com gravidade de 9,3 e descoberta pela Cyera, envolvendo cerca de 300 mil instâncias expostas sem autenticação.
- O flaw permite extrair prompts, chaves de API e variáveis de ambiente de instâncias acessíveis na internet, com apenas três chamadas à API sem credenciais.
- A falha usa arquivos GGUF maliciosos e provoca leitura fora dos limites da memória (heap out-of-bounds read) durante o processamento de modelos.
- A correção está disponível na versão 0.17.1; recomenda-se atualizar imediatamente, além de usar proxy de autenticação, firewall e isolamento de Ollama em rede sem exposição direta.
- A Cyera orienta auditar instâncias em funcionamento e rotacionar credenciais, pois dados sensíveis podem estar expostos, especialmente quando o Ollama se conecta a ferramentas externas.
Bleeding Llama: falha no Ollama expõe dados de cerca de 300 mil servidores, segundo a Cyera. A vulnerabilidade permite extrair prompts, chaves de API e variáveis de ambiente sem credenciais, com apenas três chamadas à API. A falha recebeu CVE-2026-7482 e nota 9.3/10 na gravidade.
O Ollama é uma plataforma de código aberto que permite rodar modelos de linguagem em servidores próprios, sem depender de grandes provedores. Empresas usam a ferramenta para hospedar modelos internamente, mantend o controle dos dados. A Cyera detalha como a falha funciona.
A falha ocorre porque o Ollama não exige autenticação por padrão e escuta em todas as interfaces da máquina, deixando instâncias acessíveis pela internet expostas. O problema está na forma como o sistema lê arquivos GGUF, usados para armazenar pesos de modelos.
Para entender o ataque, a Cyera explica que o Ollama não valida o tamanho real dos dados ao processar GGUF. Um atacante pode declarar um tensor com tamanho maior que a memória efetiva, levando a leituras fora dos limites. Dados sensíveis chegam à saída sem descarte.
O ataque completo se aproveita de três chamadas à API sem autenticação: enviar o GGUF malicioso, criar um modelo com esse arquivo e enviar o modelo para um servidor externo via push. O nome do modelo pode ser uma URL controlada pelo atacante.
Entre os dados expostos estariam prompts de usuários, system prompts de outros modelos e variáveis de ambiente da máquina hospedeira, incluindo chaves de API e tokens de configuração. Em ambientes corporativos, o impacto pode incluir contratos e código proprietário.
Correção disponível e medidas
A correção foi lançada na versão 0.17.1 do Ollama. A orientação é atualizar todas as instâncias o quanto antes, além de colocar um proxy de autenticação na frente do servidor e restringir o acesso por firewall. Isolamento de rede também é recomendado.
A Cyera orienta auditar instâncias ativas para identificar exposições externas. Qualquer servidor acessível pela internet deve ser tratado como potencialmente comprometido, com rotacionamento de credenciais caso tenham passado pelo Ollama.
Entre na conversa da comunidade