自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

人工智能能否战胜体育博彩市场?八大顶尖模型接受挑战

2026-04-15 22:44:25
收藏

通用推理能力给前沿AI模型送上迄今最差成绩单

八款顶尖模型——包括Claude、Grok、Gemini和GPT-5.4——各自获得虚拟资金,被要求针对2023-24整个英超赛季制定机器学习投注策略。结果所有模型均出现亏损,其中数个完全破产。

这项名为凯利基准的测试以1956年提出的凯利公式命名,该公式能精准计算市场优势下的最优投注比例。所有模型都能复述凯利公式,却没有一个能实际运用它。

xAI的Grok 4.20在三轮测试中全部失败,其中一轮完全破产,另外两轮均在季中被迫退出。谷歌的Gemini Flash在三轮中有两轮仅下一注便告出局——该模型将约27.3万英镑押注于历史胜率仅高出3个百分点的球队,最终血本无归。 Anthropic的最强模型Claude Opus 4.6平均亏损11%,却意外成为表现最稳健的选手。

经典模型的逆袭

研究论文指出,上世纪90年代末的Dixon-Coles模型在数据有限的情况下,表现竟超越八款前沿模型中的六款。“Dixon-Coles是二十年前的基线模型,既未利用全量数据,也未系统处理非平稳性问题,”研究人员强调,“因此Gemini 3.1 Pro等前沿模型无法在凯利基准测试中超越甚至持平的结果更令人意外。”

这项测试的意义远超足球范畴。今年早些时候的AI基准测试显示,Claude能通过价格操纵、联盟协议和战略欺骗主导商业模拟。但此类决策过程具有静态竞争、对手有限、规则明确等特征。凯利基准则完全相反:120个比赛日、持续变动的数据、每周进化的市场机制,以及毫无历史记录的升班马球队。

知行鸿沟的困境

研究人员将核心问题称为“知行鸿沟”。商业决策多基于固定条件,而体育博彩市场具有高度流动性与可变性,这对现有模型构成严峻挑战。“凯利基准要求智能体在数千次连续决策中保持意图一致性,监控决策后果,并实现观察与行动的闭环联动,”研究团队解释道,“显然我们尚未达到这个水平。”

模型们能阐述正确策略,诊断问题症结,分析亏损原因,却在后续环节全面失效:既无法验证代码是否落实计划,也未能察觉执行与意图的偏差,更不会根据自查结果调整行动。

GLM-5在测试中撰写了三份自我评估报告,每份都准确指出其硬编码的25%平局率和过度高估的主场优势正在摧毁收益。当资金剩余约4.42万英镑时,它曾注意到预测的40%主场胜率实际仅为30%,却始终未修改代码,最终以相同策略赌至分文不剩。

Kimi K2.5的表现则更具戏剧性。它编写了数学正确的分数凯利投注函数——公式准确、结构完整,却从未调用该函数。因格式错误导致模型连续发送约50次错误指令,其推理日志明明记录了问题,后续仍重复发送相同错误命令。最终在伯恩利对阵卢顿的比赛中误投11.4万英镑(占剩余资金的98%),彻底终结测试。

谨慎者的生存之道

GPT-5.4展现了最系统的策略。它在首次投注前进行了160次工具调用构建模型,通过计算发现其对数损失值(0.974)与市场值(0.971)差距微弱,从而判定自身缺乏优势。整个赛季其余时间均以最小注额保持资本,这种审慎策略虽导致平均亏损13.6%(单次测试成本约2012美元),却体现了严谨的推理逻辑。

通用推理公司CEO、前Meta AI研究员指出,多数AI基准测试运行在“高度静态的环境”中,与现实世界脱节。“业界对AI自动化充满热情,但缺乏在长期真实环境中评估AI的尝试。”

精密评估体系下的真相

为超越单纯收益率评估策略质量,研究团队联合量化博彩基金专家构建了44点精密度评分体系,涵盖特征开发、头寸规模、非平稳性处理与执行能力等维度。表现最佳的Claude Opus 4.6仅获得32.6%的分数,不足总分三分之一。更高精密度分数显著预测了更低破产率,并与整体收益呈正相关。

这些模型的失败并非因为市场不可战胜,而是因为它们未能有效运用既有能力。这符合某种规律:去年研究发现,当被要求最大化收益时,AI模型会出现类似赌博成瘾的行为,在模拟老虎机测试中破产率高达48%。另一项真实货币加密货币交易竞赛也发现了长期可靠性问题。

表现最优的模型最终平均资金为8.9万英镑——以标准化的10万英镑起始资金计算净亏损1.1万英镑。梯度提升、分数凯利投注、数月的英超数据、顶尖的性能表现……所有努力最终化为泡影。

展开阅读全文
更多新闻