世界杯AI猜球大战:4大国产模型成绩单
Kimi 派了 300 个 Agent 上场,为什么反倒排在了末位梯队?

导语
世界杯开赛不到一周,国产 AI 圈先炸了锅——Kimi、豆包、DeepSeek、通义千问四款大模型几乎同时宣布”押注世界杯”,每家都把预测比分、胜平负当成了营销主战场。
然后小组赛 72 场打完了,16 强也出炉了,成绩单却让人尴尬:投入最大、调子最高的 Kimi,反而滑到了末位梯队;通义千问稳居第二梯队;真正的榜首是赛前没什么声量的中移九天。
这篇文章不打算给任何一家”封神”,只把战法、数据、行业意义按图索骥拆一遍。
01 比赛背景:世界杯的另一场「AI 大战」
2026 年美加墨世界杯,赛制首次扩军到 48 队、104 场(小组赛 72 场 + 淘汰赛 32 场),比赛跨越美国、加拿大、墨西哥 16 座城市,赛程 40 天78。
揭幕战于当地时间 6 月 11 日在墨西哥城打响(北京时间 6 月 12 日凌晨),决赛则定档 7 月 19 日的纽约/新泽西大都会人寿体育场78。小组赛 72 场已于当地时间 6 月 27 日全部收官,目前赛事推进到 1/8 决赛阶段78。
为什么这一届世界杯突然成了 AI 的角斗场?核心是行业的”集体焦虑”——过去两年,大模型在内卷”写诗、刷题、做对话”,刷榜刷到审美疲劳,资本市场和公众都在追问:大模型到底能不能理解真实世界的不确定性?
足球比赛恰好是检验”动态决策”能力的最佳场景:阵容伤病、天气、裁判 VAR、点球冷门,全是开放世界的随机事件。AI 押注世界杯,本质是各厂商主动把模型拉进”现实世界考场”,用全民关注度倒逼技术叙事升级1。
也正因为如此,国际上早就有专项评测。伦敦 General Reasoning 发布的 Kelly Bench 报告测试了 8 款顶尖大模型在 2023-24 英超虚拟赛季的投注表现——所有模型整季亏损:Claude Opus 4.6 最佳但仍亏 11%、GPT-5.4 亏 13.6%、Kimi K2.5 亏 68.3%,xAI Grok 4.20 直接破产6。换句话说,AI 押注现实体育这件事,全球顶尖模型集体翻车过。
02 4 大 AI 战法拆解:Kimi / 豆包 / DeepSeek / 通义千问
面对同一道考题,四家厂商拿出了完全不同的答卷策略。

| 模型 | 核心战法 | 赛前表态 | 关键运营动作 |
|---|---|---|---|
| Kimi(月之暗面) | Agent 集群调度 300 个子 Agent 并行推理,多维度融合(Elo/FIFA、xG/xT、蒙特卡洛、泊松-Dixon-Coles、贝叶斯动态更新) | 阿根廷(43.33% 用户选阿根廷),同时提示德国”爆冷夺冠”概率被市场低估31 | 公开预测 104 场(覆盖整届赛事)、1 万亿 Token 奖池活动(用户选队,赢了瓜分 Token)13 |
| DeepSeek | 单兵作战,押宝法国队夺冠1 | 法国 | 技术派押注,无大流量运营 |
| 豆包(字节跳动) | 抖音生态联动,短视频化预测,强流量曝光16 | 西班牙(每经实测口径)1 | 借力抖音内容生态导流 |
| 通义千问(阿里) | 通义基础模型推理 + “赢万元现金”互动活动1 | 西班牙(每经实测口径,与豆包/元宝/文心一言/智谱清言 5 款国产大模型同步押注)1 | 现金激励活动 |
关于”千问赛前冠军预测”:每日经济新闻 6 月 11 日实测明确写”千问、豆包、元宝、文心一言、智谱清言 5 款国产大模型则均预测支持西班牙队”,”判断逻辑高度趋同”1——并非”未明说”,而是与豆包等同步押注西班牙。
几个值得划重点的细节:
- Kimi 的 300 个子 Agent 不是临时搭建,而是源自 Kimi K2.5/K2.6/Kimi Work 既有能力的最大化调度3。
- 子 Agent 分工极其精细:球队基础实力(Elo/FIFA 排名)、攻防质量(xG/xT)、战术匹配、赛程环境、阵容伤病、市场信号(赔率)、随机风险(红牌/点球/VAR/门将),每个子 Agent 独立给”结论+证据+置信度+反方解释”,最后由主 Agent 融合而非简单采用多数意见3。
- Kimi 官方明确给出风险提示:高置信度回测准确率约 85%-90%,中置信 55%-65%,低置信接近随机——”不构成投注/投资建议,仅用于研究、娱乐与 AI 能力测评”3。
👉 想了解国产大模型格局的演进,可以读读《MiniMax:中国大模型独角兽的崛起与全球野望》a
03 真实成绩单:15 场 / 32 强 / 52 场三阶段榜单
先说一个关键背景:本次世界杯 AI 押注的主战场是联想 × 咪咕联合举办的《世界杯预测人机大战》,12 家国产 AI 同题预测(包含百度文心、智谱、商汤、MiniMax 等),每经、Kimi App 等多渠道跟踪战报9111213。
我手头能拿到三个有时间戳的官方榜单,分别对应 15 场、32 强预热、52 场三个节点——这是判断各家真实表现最可靠的依据。
3.1 15 场后榜单(当地 6 月 16 日)1112
| 排名 | 模型 | 命中 | 胜率 |
|---|---|---|---|
| 1 | 百度文心 | 7/15 | 46.7% |
| 2(并列) | 联想天禧 AI / 中移九天 / 腾讯混元 / MiniMax | 6/15 | 40.0% |
| 6(并列) | DeepSeek / 通义千问 / 智谱 / 阶跃星辰 / 商汤小浣熊 | 5/15 | 33.3% |
| 末(并列) | Kimi / 讯飞星火 | 4/15 | 26.7% |
3.2 32 强竞猜(预热场)1314
腾讯混元 29/32 居首;MiniMax、讯飞星火 28/32;DeepSeek、智谱、联想天禧 AI 27/32。12 家 AI 整体命中率显著高于普通人类玩家13。
3.3 52 场后榜单(当地 6 月 25 日,累计参与 2137.44 万人次)910
| 排名 | 模型 | 命中 | 胜率 |
|---|---|---|---|
| 1 | 中移九天 | 35/52 | 67.3% |
| 2(并列) | 联想天禧 AI / 通义千问 / 腾讯混元 / 商汤小浣熊 | 34/52 | 65.4% |
| 6(并列) | DeepSeek / 百度文心 / 智谱 / MiniMax | 33/52 | 63.5% |
| 末(并列) | Kimi / 讯飞星火 | — | 57.7% |
两组数据共同说明三件事:
- Kimi 在三个榜单中两次垫底(15 场 26.7% 末位、52 场 57.7% 末位),营销声势和实际准确率完全反向911。
- 通义千问稳居第二梯队(15 场 33.3%、52 场 65.4%),虽然没有”出圈”营销,但胜率数据跑赢 DeepSeek911。
- 冠军是中移九天(52 场 67.3%)——一家赛前几乎没什么 AI 营销声量的运营商大模型9。
04 Kimi 为什么投入最大却排末位?300 子 Agent 调度机制揭秘
这是整篇文章最值得拆解的反差。

Kimi 的 300 子 Agent 调度体系,技术上堪称豪华:3
- 顶层:1 个主 Agent 负责任务分发
- 中层:把 104 场比赛拆分成独立任务,分配给子 Agent 集群
- 底层:300 个子 Agent 并行推理,每个子 Agent 独立给结论 + 证据 + 置信度 + 反方解释
- 融合层:用 Elo/FIFA + Poisson 与 Dixon-Coles 进球分布 + xG/xT + 机器学习增强 + 蒙特卡洛 + 市场-模型偏差 + 贝叶斯动态更新六种方法融合,不简单采用多数意见3
但效果为什么”雷声大雨点小”?三个可能的方向:
第一,”通用能力强 ≠ 猜球准”。 12 家 AI 在强弱分明的比赛中命中率普遍较高,但在平局和冷门局集体失分——本届世界杯小组赛平局率一度达 40%,12 家 AI 整个赛段仅命中 4 次平局911。Kimi 这种”概率呈现、不简单多数意见”的融合方式,在冷门和平局上的保守,反而让它失去爆冷机会。
第二,预测口径”求稳”导致错过冷门。 1/16 阿根廷 vs 佛得角,12 家 AI 全部预测阿根廷胜(胜负方向 100% 命中),但 DeepSeek 预测 5:0、Kimi 预测 4:0,没有一家预测佛得角能进 2 球——结果常规时间 1-1、加时 3-2,阿根廷惊险晋级1518。赛前数据机构给佛得角晋级概率仅 1%,AI 集体低估。
第三,”营销战法”≠”准确率战法”。 Kimi 把 1 万亿 Token 奖池、Agent 集群、德国”爆冷概率被低估”这些运营关键词做足了声量13,但用户参与瓜分 Token 的过程中,Kimi 的预测本身并没有比讯飞星火高出一截——两家的末位排名几乎”锁死”在一起911。
Kimi 的真实价值或许不在”猜球准”,而在率先把 Agent 集群调度能力拉到了全民可见的 C 端场景,后续这套战法有望迁移到金融预测、供应链决策等更严肃的场景。
05 通义千问:为什么”无营销”反而稳居第二梯队?
通义千问的赛前动作是四家里最克制的——没有”300 子 Agent”的宏大叙事,没有”押宝法国”的强表态,运营动作就是常规的”赢万元现金”互动活动1。
但实际成绩单反而最稳:15 场 33.3%(并列第 6)、52 场 65.4%(并列第 2)911。
能给出的解释方向是:
第一,阿里通义生态的”数据厚度”支撑。通义千问背靠淘宝、支付宝、优酷等内容生态,加上钉钉等企业服务场景,长期训练数据里”中文世界的不确定性表达”覆盖度较高,面对足球这种多源信息密集融合的赛事,泛化能力反而扎实。
第二,”基础模型推理”是底牌。Kimi 的 300 子 Agent 是显性调度,通义千问更多依赖通义基础模型的自然推理——这套打法在弱队冷门、强队稳赢这种”非此即彼”的比赛中反而命中率更高。
第三,运气成分不可忽视。预测准确率本身就是概率事件,52 场样本下浮动 1-2 场就会让排名大洗牌。通义千问是”稳”,不是”神”。
👉 DeepSeek 的技术路线一向值得关注,可以读《DeepSeek 深度解析:技术突破、争议与行业影响》b和《刚刚,DeepSeek V4 来了》c两篇。
06 赛前冠军预测 vs 实际走向:谁被打脸?
回到赛前——每经记者 6 月 11 日把 6 款模型(4 大 + 元宝 + 文心)问了一圈,得到的”模拟冠军预测”是:
| 模型 | 赛前预测冠军 | 当前状态(截至 7/4 发稿) |
|---|---|---|
| Kimi | 阿根廷(用户选阿根廷 43.33%,并提示德国”爆冷概率被低估”)13 | 阿根廷 1/16 加时 3-2 险胜佛得角晋级15 |
| DeepSeek | 法国1 | 法国 1/8 出局(具体比分待考据) |
| 豆包 | 西班牙1 | 西班牙小组赛 0-0 被佛得角逼平,仍以小组第一晋级;淘汰赛走向待续 |
| 通义千问 | 西班牙(与豆包/元宝/文心一言/智谱清言 5 款国产大模型同步押注)1 | 暂无出局信号 |
| 元宝 / 文心一言 | 多数答西班牙1 | 文心在 15 场榜单 46.7% 居首11 |
当前(7/4 发稿时)已发生的几个标志性事件:
- 佛得角逼平西班牙、逼平乌拉圭:50 万人口的岛国,小组第三出线,1/16 把阿根廷逼到加时1518。12 家 AI 全部预测阿根廷 5:0 / 4:0 / 3:0 等大比分,无一看好佛得角能进 2 球——结果阿根廷常规时间仅 1-1 战平,靠加时 3-2 才惊险晋级1518。典型的”AI 算对方向、算错过程”。
- 葡萄牙 2-1 克罗地亚——本届淘汰赛首场人机预测完全吻合:1/16 这场强强对话中,由联想 × 咪咕《世界杯预测人机对抗》的 12 款 AI 全部预测葡萄牙 2-1 获胜,最终贡萨洛·拉莫斯补时头球绝杀,葡萄牙 2-1 取胜,C 罗点球扳平、VAR 吹掉格瓦迪奥尔绝平进球17。这是本届淘汰赛首个 AI 比分预测与实际完全吻合的案例,证明 AI 在”信息充分、双方实力均衡的高水平赛事”中也能精准命中。
核心结论:AI 在本届世界杯的预测能力场景分化明显——强弱分明的场次能稳定命中(如阿根廷 vs 佛得角胜负方向、强队稳赢局),高水平强强对话也能精准(如葡萄牙 2-1 克罗地亚);但比分过程的细节和爆冷进球仍是 AI 集体失分的高发区。
07 行业思考:AI 押注世界杯是营销噱头还是能力证明?
这个问题要分两层看。
第一层:营销价值是实的。
世界杯自带 14 亿+ 流量,AI 押注等于一次全民可见的能力秀。Kimi 的 1 万亿 Token 奖池、DeepSeek 的法国押宝、豆包的抖音联动、通义的现金活动,本质都是把”模型能力”包装成”用户可参与的活动”——这种营销套路在 2026 年已经成为国产大模型的标准动作1。
第二层:能力证明是虚的。
52 场后榜单第一的中移九天命中率也只有 67.3%9,15 场后榜首的文心 46.7%11——这两个数字放到真实投注市场,都是亏损水平(参考 Kelly Bench,AI 顶尖模型整季亏损 11%-68%6)。
但这次押注最大的行业意义是:国产大模型主动走出了”刷榜内卷”,第一次集体挑战”开放世界不确定性决策”。这个转向呼应了《2026 年人工智能十大趋势:从技术验证到价值兑现的关键之年》中的判断——AI 正在从”考分”走向”干活”d。
未来值得关注的方向:
- Agent 集群调度会不会从”营销叙事”走向”金融 / 供应链 / 医疗”等严肃场景?
- AI 押注结果的复盘会不会反哺模型训练,让”押注准确率”成为下一代模型的评测维度?
- 人机大战的可视化能不能沉淀出一套”AI 决策可信度”的公众认知?
这些都还没有答案,但方向已经清晰。
常见问题 Q&A
Q1:Kimi 300 个 Agent 都猜不准,是不是 Agent 越多越没用?
不是。Kimi 的 300 子 Agent 是调度能力的极限演练,营销价值和技术 demo 价值大于猜球价值。从国际 Kelly Bench 数据看,8 款顶尖模型(无论 Agent 多寡)在足球押注上都亏6——这不是 Agent 数量问题,而是”开放世界随机性”的根本难题。
Q2:通义千问是不是比 DeepSeek 强?
得分场景而定。通义在猜球战报中稳居第二梯队911,DeepSeek 在更广义的技术讨论和 V4 能力上话题度更高bc。”通用能力”和”猜球准确率”不是同一指标。
Q3:AI 预测准是因为看过球吗?
AI 没有主观偏好,本质是 数据 + 大模型 + 时延的综合——既依赖历史交锋、阵容伤病、赔率市场这些结构化数据,也依赖模型对”概率融合”的方法论。Kimi 的官方回测高置信准确率 85%-90%,中置信只有 55%-65%3,意味着置信度本身就是预测的一部分。
Q4:这些榜单权威吗?是不是随便挑的?
榜单来自联想 × 咪咕《世界杯预测人机大战》91113,12 家国产 AI 同题预测,多轮次时间戳公开(15 场 / 32 强 / 52 场),每经、新浪、搜狐多源报道91011121314——这是目前公开可查最系统的对照样本。
Q5:押中 Kimi 是不是能赚钱?
不能。 Kimi 的 1 万亿 Token 奖池是活动赠送的 Token 额度,不是现金、不是投注本金13。Kimi 官方明确声明”不构成投注/投资建议,仅用于研究、娱乐与 AI 能力测评”3。
参考资料
[1] 每日经济新闻(新浪财经转载)-《Kimi、千问等AI集体押注世界杯:大模型不再比拼聊天,为何集体扮演”懂球佬”?》 – 核心信源:Kimi 300 子 Agent / 104 场 / 万亿 Token 奖池 / 千问万元现金活动 / 4 大 AI 赛前冠军预测 / Kelly Bench 引用
[2] 东方财富(每经转载)-《集体押注世界杯,AI为何要扮演”懂球佬”?》 – 每经同源二次转载,跨源核对
[3] 腾讯新闻/IT之家 -《Kimi 官宣将公开预测 104 场世界杯赛事,德国队或爆冷夺冠》 – Kimi 官方公告最完整版(300 子 Agent 分工、104 场 = 48 队全程、回测 85%-90%、风险提示原文)
[4] 腾讯新闻 -《Kimi 宣布将公开预测104场世界杯赛事,Agent集群调度300个子Agent多维度分析》 – Kimi 300 子 Agent / 104 场 第二独立来源
[5] 新浪财经 -《300个专家300个Agent,Kimi公开预测世界杯或有大冷门》 – Kimi 300 子 Agent 第三独立来源
[6] 腾讯新闻 -《各大AI模型在足球赌盘上表现惨淡,Grok更是血本无归》(KellyBench 报告解读) – Kelly Bench 原始数据:8 款 AI 2023-24 英超虚拟赛季投注全亏损
[7] 央视网 -《美加墨世界杯赛程公布:6月11日打响揭幕战 7月19日进行决赛》 – 权威赛程:揭幕战当地 6/11、决赛当地 7/19
[8] 球天下体育 -《2026美加墨世界杯比赛时间安排 北京时间6月12日至7月19日》 – 分阶段北京时间:小组赛 6/12–6/25、决赛 7/19
[9] 新浪财经 -《超2000万人围观AI猜世界杯:大模型准确率最高达67.3%,谁在重新定义”预测”?》 – 52 场后榜单(人均 2137.44 万人次参与)
[10] 搜狐 -《超2000万人围观AI猜世界杯:大模型准确率最高达67.3%》 – 9 第二独立来源
[11] 中国经济新闻网 -《世界杯成 AI 公开考场,中国移动九天亮相人机大战跻身领先梯队》 – 15 场后榜单 + Kimi 6/8 与千问 6/11 入场细节
[12] 新浪财经 -《世界杯人机大战:阿里对话千问大模型……》(15 场同期榜单) – 11 第二独立来源
[13] 新浪财经 -《世界杯32强出炉,”人机大战”阶段性AI占优》 – 32 强预热场榜单
[14] 搜狐 -《世界杯32强出炉,”人机大战”阶段性AI占优》 – 13 第二独立来源
[15] 新浪财经 -《12个AI都猜对了阿根廷,却没有一个真正算到佛得角》 – 12 AI 逐场战报(1/16 阿根廷 vs 佛得角)
[16] 网易 -《四大AI预测加拿大vs摩洛哥:三家看好摩洛哥,Deepseek猜平局》 – 4 大 AI(千问/豆包/Kimi/Deepseek)逐场前瞻样本
[17] 中关村在线 -《葡克大战 AI 全中 2-1,人机预测一致创世界杯纪录》 – 12 AI 全中葡萄牙 2-1 克罗地亚比分(淘汰赛首场人机预测完全吻合)
[18] 央视网体育 -《[图]世界杯:阿根廷加时3-2险胜佛得角 晋级16强》 – 阿根廷加时 3-2 佛得角(常规 1-1、加时绝杀)