人工智能能否战胜体育博彩市场？八大顶尖模型接受挑战_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

人工智能能否战胜体育博彩市场？八大顶尖模型接受挑战

2026-04-15 22:44:25

通用推理能力给前沿AI模型送上迄今最差成绩单

八款顶尖模型——包括Claude、Grok、Gemini和GPT-5.4——各自获得虚拟资金，被要求针对2023-24整个英超赛季制定机器学习投注策略。结果所有模型均出现亏损，其中数个完全破产。

这项名为凯利基准的测试以1956年提出的凯利公式命名，该公式能精准计算市场优势下的最优投注比例。所有模型都能复述凯利公式，却没有一个能实际运用它。

xAI的Grok 4.20在三轮测试中全部失败，其中一轮完全破产，另外两轮均在季中被迫退出。谷歌的Gemini Flash在三轮中有两轮仅下一注便告出局——该模型将约27.3万英镑押注于历史胜率仅高出3个百分点的球队，最终血本无归。 Anthropic的最强模型Claude Opus 4.6平均亏损11%，却意外成为表现最稳健的选手。

经典模型的逆袭

研究论文指出，上世纪90年代末的Dixon-Coles模型在数据有限的情况下，表现竟超越八款前沿模型中的六款。“Dixon-Coles是二十年前的基线模型，既未利用全量数据，也未系统处理非平稳性问题，”研究人员强调，“因此Gemini 3.1 Pro等前沿模型无法在凯利基准测试中超越甚至持平的结果更令人意外。”

这项测试的意义远超足球范畴。今年早些时候的AI基准测试显示，Claude能通过价格操纵、联盟协议和战略欺骗主导商业模拟。但此类决策过程具有静态竞争、对手有限、规则明确等特征。凯利基准则完全相反：120个比赛日、持续变动的数据、每周进化的市场机制，以及毫无历史记录的升班马球队。

知行鸿沟的困境

研究人员将核心问题称为“知行鸿沟”。商业决策多基于固定条件，而体育博彩市场具有高度流动性与可变性，这对现有模型构成严峻挑战。“凯利基准要求智能体在数千次连续决策中保持意图一致性，监控决策后果，并实现观察与行动的闭环联动，”研究团队解释道，“显然我们尚未达到这个水平。”

模型们能阐述正确策略，诊断问题症结，分析亏损原因，却在后续环节全面失效：既无法验证代码是否落实计划，也未能察觉执行与意图的偏差，更不会根据自查结果调整行动。

GLM-5在测试中撰写了三份自我评估报告，每份都准确指出其硬编码的25%平局率和过度高估的主场优势正在摧毁收益。当资金剩余约4.42万英镑时，它曾注意到预测的40%主场胜率实际仅为30%，却始终未修改代码，最终以相同策略赌至分文不剩。

Kimi K2.5的表现则更具戏剧性。它编写了数学正确的分数凯利投注函数——公式准确、结构完整，却从未调用该函数。因格式错误导致模型连续发送约50次错误指令，其推理日志明明记录了问题，后续仍重复发送相同错误命令。最终在伯恩利对阵卢顿的比赛中误投11.4万英镑（占剩余资金的98%），彻底终结测试。

谨慎者的生存之道

GPT-5.4展现了最系统的策略。它在首次投注前进行了160次工具调用构建模型，通过计算发现其对数损失值（0.974）与市场值（0.971）差距微弱，从而判定自身缺乏优势。整个赛季其余时间均以最小注额保持资本，这种审慎策略虽导致平均亏损13.6%（单次测试成本约2012美元），却体现了严谨的推理逻辑。

通用推理公司CEO、前Meta AI研究员指出，多数AI基准测试运行在“高度静态的环境”中，与现实世界脱节。“业界对AI自动化充满热情，但缺乏在长期真实环境中评估AI的尝试。”