OpenAI amplia o modelo de geração de imagens do ChatGPT

OpenAI lançou o ChatGPT Images 2.0, que consegue gerar imagens com mais detalhes e renderizar textos com mais precisão, especialmente em inglês.
O modelo pode buscar informações recentes na internet e produzir mais de uma imagem por prompt, ampliando a geração com passos adicionais.
A precisão de conhecimento vai até dezembro de 2025, e há maior granularidade nas outputs, como infográficos com dados climáticos e elementos visuais representativos de locais.
O Images 2.0 permite ajustar melhor os formatos de imagem, com razões de aspecto que vão de 3:1 a 1:3, além de permitir definir o tamanho na prompt.
Em testes, houve boa performance com textos em inglês, mas incerteza sobre funcionamento em outros idiomas; exemplos mostraram traduções com falhas e texto artificial em colagens, sugerindo variações de desempenho entre idiomas.

OpenAI apresentou a versão 2.0 do modelo de geração de imagens do ChatGPT, chamada Images 2.0. O lançamento amplia as capacidades de criação de imagens, com maior detalhamento e capacidade de renderizar texto com mais fidelidade. O modelo também tem acesso às capacidades de raciocínio do ChatGPT para buscar informações recentes na web e gerar mais de uma imagem por prompt.

Segundo a empresa, Images 2.0 pode executar passos adicionais para produzir gerações mais completas a partir de um único prompt. O modelo atualizou a data de corte de conhecimento para dezembro de 2025, o que permite incorporar informações mais recentes. Além disso, as saídas tornaram-se mais granulares, com uso de dados como previsões climáticas e representações visuais de pontos turísticos.

Outra melhoria é a personalização de formatos. O Images 2.0 permite criar imagens em diferentes proporções, de 3:1 até 1:3, com ajuste de tamanho incluído no prompt. Em testes, a renderização de textos em inglês mostrou avanços significativos em termos de legibilidade e precisão de caracteres, em comparação com as gerações anteriores.

Entretanto, a avaliação inicial aponta limitações quando o uso ocorre em idiomas diferentes do inglês. Em uma experiência, o modelo gerou um collage temático com Timothée Chalamet em estilo chinês, incluindo textos em várias linhas que não foram fielmente traduzidos. O sistema indicou que parte do texto era falso ou sem sentido, com fragmentos misturados a caracteres japoneses ou iks de memes.

O pesquisador testou traduções para verificar a qualidade do texto gerado. O resultado mostrou criticidade interna do próprio modelo sobre a exatidão de trechos em outra língua, destacando áreas que pareciam bem representadas e outras que estavam incorretas ou confusas. A avaliação sugere que o desempenho pode variar conforme o idioma utilizado.

No conjunto das primeiras avaliações, o desempenho em inglês foi considerado promissor, especialmente na renderização de texto. Ainda assim, permanece incerta a consistência de resultados para usuários que desejam trabalhar com línguas diversas ao redor do mundo. A OpenAI não detalhou planos de melhoria específicos para idiomas além do inglês, mas sinalizou avanços contínuos.

Fontes familiarizadas com o tema indicam que a empresa planeja evoluir ainda mais as capacidades de texto nas imagens, mantendo o foco em precisão e autenticidade visual. A evolução de modelos de imagem com texto é parte de uma tendência de aperfeiçoamento de saídas visuais em AI, acompanhando avanços de concorrentes no setor.

A empresa não informou prazos exatos de disponibilização pública ou de atualizações futuras, mantendo o anúncio como parte de uma iteração de pesquisa e desenvolvimento. A avaliação completa depende de testes realizados por usuários em diferentes idiomas e contextos.

Fonte: cobertura inicial sobre o anúncio de Images 2.0 produzido pela redação.