研究方法 · 预注册现场实验

把一届世界杯,当成一次受控实验。

我们不发明新的足球估计器——单场预测用学界标准范式。创新在实验设计:赛前冻结预测与判据、赛中按真实赛果更新、赛后照预注册规则结算,全程留痕、严防未来函数(look-ahead bias)。可信度来自边界清楚,而不是视觉更响。

三个可证伪命题(开赛前冻结)

我们到底要回答什么。

H1 · 实时更新有无增量

实时更新版(M-live)在“更新后开球的比赛”上是否显著优于赛前冻结版(M-frozen)。

判据:平均排序概率得分(RPS)更小,配对自助法(bootstrap)95% 置信区间不跨零。若证伪——“赛中信息在场级粒度无可检出增量”——本身就是有价值的负结果。

H2 · 校准是否合格

概率经得起校准检验:说 70% 的事约 70% 发生。

判据:期望校准误差(ECE,10 桶)≤ 0.05。附加观察:48 队新赛制是否让校准系统性走样、是否高估南美预选赛刷分队。

H3 · LLM vs 1997 统计模型

读伤病新闻给出有界修正的 M-llm,对上纯统计 M-live;以及 Kimi 的 AI 多智能体报告对上我们。

这是本项目最值钱的一刀——不是足球研究,是“AI 推理 vs 经典统计”的评估研究。

非命题 · 跑赢市场

博彩/Polymarket 含阵容、伤病、内幕,信息集严格大于我们。我们预期跑不赢,只对照不立判据——把“跑赢市场”设成目标会诱导过拟合。

模型主线

标准范式,不发明新估计器。

自建 Elo(国际赛全史,1872 至今)→ 泊松广义线性模型把 Elo 差映射为进球期望 λ → Dixon-Coles 双泊松给出单场胜平负 → 10 万次蒙特卡洛模拟整届锦标赛(含小组排名细则 + FIFA 第三名 495 组合对位表 + 淘汰赛树)。

三个模型版本:M-frozen 赛前冻结·纯统计;M-live 实时更新·纯统计;M-llm 在 M-live 之上叠加 LLM 读伤病新闻产生的有界 Elo 修正(±50),与 M-live 只差“软信息”一个变量,干净归因。

对照基线

每个信号都要打得过零模型。

B0 · 均匀零模型

单场 1/3-1/3-1/3,冠军 1/48。RPS 的最低参照。

B1 · FIFA 排名朴素

FIFA 积分差经逻辑映射,无更新。

B2 · 市场(Polymarket)

冠军赔率快照,只对照不评判。

B4 · Klement 经济学家模型

社会经济回归 + 确定性 bracket(押荷兰夺冠)。作者自承 tongue-in-cheek。

B5 · Kimi AI 多智能体报告

八源加权 + 蒙特卡洛,给球队层冠军/四强/八强概率。注:其表含 10 支未进决赛圈的幽灵队。

方法论纪律

诚实结算的几条铁律。

未来函数控制(第一纪律)

每日快照只消费 ≤ 当日数据;M-llm 新闻只喂当日北京时间 06:00 前发布的;快照写入即只读、禁回填;回测滚动前推(walk-forward);评估脚本内置自检,校验每个快照引用的最大数据时间戳 ≤ 快照日期。因为预测逐日封存、赛后无法偷偷回填,研究结果才可信。

预注册冻结

评分指标、对照集、判据在揭幕战前写入并 git commit,之后只增不改,不事后改口径。

禁止赛中调参

开赛后模型代码、超参、M-llm 的 prompt 全部冻结,只允许数据流入。

诚实结算

单届 N=1、样本量小,效应量优先于 p 值;统计功效局限写明,不靠 p<0.05 包装。

数据来源

历史国际赛:martj42/international_results(1872 至今)。2026 赛程/分组:openfootball。实时赛果:football-data.org(赛中),手填 CSV 兜底。M-llm 软信息:ESPN 伤病追踪器 + RotoWire 预测首发(带时间戳存档)。市场:Polymarket。

已锁简化(赛后不翻案)

加时 = 进球率 × 1/3 时长;点球 50/50。小组排名用 积分→净胜→进球→随机(略相互战绩与公平竞赛分)。第三名 495 对位用二分图匹配 + 固定优先级(穷举验证无同组对阵),是 FIFA Annex C 的结构近似。环境协变量(高温/海拔/旅行)v1 不入模。

结算时点

小组赛结束(72 场)出中期报告;决赛次日出终局裁决(H1/H2/H3)+ 全基线对比 + 复盘。