IA pode vencer o mercado de apostas esportivas? 8 modelos testaram

Oito modelos de IA foram testados em uma temporada completa da Premier League inglesa (2023‑24); nenhum gerou lucro e alguns faliram durante o processo.
O benchmark KellyBench mede uso da fórmula de Kelly; os modelos conseguiam citá‑la, mas não a aplicaram de forma eficaz.
Destaques entre falhas: Grok 4.20 falhou em todas as três rodadas; Gemini Flash desistiu em duas das três rodadas após uma aposta de cerca de £273.000; Claude Opus 4.6 perdeu em média 11%.
Um modelo antigo, Dixon-Coles, superou a maioria dos avaliados, terminando à frente de seis dos oito adversários.
O melhor resultado final foi de, em média, £89.035 de saldo, com perda líquida de £10.965; o GPT‑5.4 foi o mais metódico, mas perdeu 13,6% em média.

A General Reasoning divulgou os resultados do KellyBench, um teste que envolve oito modelos de inteligência artificial aplicados a apostas esportivas. O experimento simulou uma temporada completa da Premier League inglesa 2023-24, com saldo virtual para cada IA. O objetivo era avaliar se a IA consegue gerar lucro ao apostar com base em aprendizado de máquina. Todos os modelos encerraram a temporada no negativo.

Entre os sistemas avaliados estavam Claude, Grok, Gemini e GPT-5.4. O laboratório utilizou o critério de Kelly para orientar as apostas, mas nenhum modelo conseguiu converter a vantagem estatística em ganhos reais. Em alguns casos, houve falência total ao longo das três rodadas de teste.

O KellyBench é um teste dinâmico, com 120 dias de jogos, dados em constante mudança e um mercado que evolui ao longo do tempo. Os pesquisadores apontam que a dificuldade está na passagem da teoria para a prática, especialmente na implementação de decisões sequenciais sob condições mutáveis. A lacuna entre conhecimento e ação ficou evidente.

Desempenho dos modelos

O Grok 4.20 falhou em todas as três fases, encerrando a temporada com falência em uma delas. O Gemini Flash desistiu em duas das três rodadas após uma aposta de alta magnitude, mesmo com uma vantagem inicial de vitórias. O Claude Opus 4.6, considerado o melhor entre os avaliados, registrou perdas médias de 11% e manteve uma postura mais contida, porém sem reverter o saldo.

Entre os demais participantes, o Dixon-Coles, modelo histórico dos anos 1990, surpreendeu e terminou à frente de parte dos modelos atuais, mesmo com dados limitados. Os especialistas destacam que ele representa uma linha de base desatualizada que não incorpora plenamente dados modernos nem a não estacionariedade dos mercados. O estudo também cita que alguns modelos não conseguiram superar esse baseline, mesmo apresentando estratégias sofisticadas.

O GPT-5.4 manteve uma postura metodológica: gerou várias iterações de modelos, calculou a perda logarítmica e concluiu pela ausência de vantagem suficiente para apostar de forma relevante. Em seguida, operou com apostas mínimas para conservar o capital durante a temporada.

Conclusões dos pesquisadores

A pesquisa aponta que, apesar das estratégias articuladas, as falhas ocorreram na execução prática: nem todo código implementava fielmente o planejamento, e havia divergência entre a intenção e a ação. Um exemplo citado envolve uma alocação de Kelly que não foi executada corretamente, devido a um bug de formatação que gerou ordens incorretas repetidas.

Especialistas ressaltam ainda que modelos de IA costumam enfrentar mercados com alta mutabilidade, onde decisões precisam ser tomadas em sequência e com monitoramento contínuo das consequências. A equipe de pesquisa conclui que não é uma falha do mercado ser improvável para IA, mas a dificuldade está em traduzir o conhecimento em ações consistentes ao longo de longos períodos.

O estudo utilizou uma rubrica de sofisticação de 44 pontos, com especialistas de fundos quantitativos avaliando aspectos como desenvolvimento de recursos, dimensionamento de apostas, tratamento da não estacionariedade e a qualidade da execução. O Claude Opus 4.6 obteve o melhor desempenho nesse critério, mas ainda ficou longe de alcançar a totalidade dos pontos disponíveis.