研究方法 · 预注册现场实验

把一届世界杯，当成一次受控实验。

我们不发明新的足球估计器——单场预测用学界标准范式。创新在实验设计：赛前冻结预测与判据、赛中按真实赛果更新、赛后照预注册规则结算，全程留痕、严防未来函数（look-ahead bias）。可信度来自边界清楚，而不是视觉更响。

三个可证伪命题（开赛前冻结）

我们到底要回答什么。

H1 · 实时更新有无增量

实时更新版（M-live）在“更新后开球的比赛”上是否显著优于赛前冻结版（M-frozen）。

判据：平均排序概率得分（RPS）更小，配对自助法（bootstrap）95% 置信区间不跨零。若证伪——“赛中信息在场级粒度无可检出增量”——本身就是有价值的负结果。

H2 · 校准是否合格

概率经得起校准检验：说 70% 的事约 70% 发生。

判据：期望校准误差（ECE，10 桶）≤ 0.05。附加观察：48 队新赛制是否让校准系统性走样、是否高估南美预选赛刷分队。

H3 · LLM vs 1997 统计模型

读伤病新闻给出有界修正的 M-llm，对上纯统计 M-live；以及 Kimi 的 AI 多智能体报告对上我们。

这是本项目最值钱的一刀——不是足球研究，是“AI 推理 vs 经典统计”的评估研究。

非命题 · 跑赢市场

博彩/Polymarket 含阵容、伤病、内幕，信息集严格大于我们。我们预期跑不赢，只对照不立判据——把“跑赢市场”设成目标会诱导过拟合。

模型主线

标准范式，不发明新估计器。

自建 Elo（国际赛全史，1872 至今）→ 泊松广义线性模型把 Elo 差映射为进球期望 λ → Dixon-Coles 双泊松给出单场胜平负 → 10 万次蒙特卡洛模拟整届锦标赛（含小组排名细则 + FIFA 第三名 495 组合对位表 + 淘汰赛树）。

三个模型版本：M-frozen 赛前冻结·纯统计；M-live 实时更新·纯统计；M-llm 在 M-live 之上叠加 LLM 读伤病新闻产生的有界 Elo 修正（±50），与 M-live 只差“软信息”一个变量，干净归因。

对照基线

每个信号都要打得过零模型。

B0 · 均匀零模型

单场 1/3-1/3-1/3，冠军 1/48。RPS 的最低参照。

B1 · FIFA 排名朴素

FIFA 积分差经逻辑映射，无更新。

B2 · 市场（Polymarket）

冠军赔率快照，只对照不评判。

B4 · Klement 经济学家模型

社会经济回归 + 确定性 bracket（押荷兰夺冠）。作者自承 tongue-in-cheek。

B5 · Kimi AI 多智能体报告

八源加权 + 蒙特卡洛，给球队层冠军/四强/八强概率。注：其表含 10 支未进决赛圈的幽灵队。

方法论纪律

诚实结算的几条铁律。

未来函数控制（第一纪律）

每日快照只消费 ≤ 当日数据；M-llm 新闻只喂当日北京时间 06:00 前发布的；快照写入即只读、禁回填；回测滚动前推（walk-forward）；评估脚本内置自检，校验每个快照引用的最大数据时间戳 ≤ 快照日期。因为预测逐日封存、赛后无法偷偷回填，研究结果才可信。

预注册冻结

评分指标、对照集、判据在揭幕战前写入并 git commit，之后只增不改，不事后改口径。

禁止赛中调参

开赛后模型代码、超参、M-llm 的 prompt 全部冻结，只允许数据流入。

诚实结算

单届 N=1、样本量小，效应量优先于 p 值；统计功效局限写明，不靠 p<0.05 包装。

数据来源

历史国际赛：martj42/international_results（1872 至今）。2026 赛程/分组：openfootball。实时赛果：football-data.org（赛中），手填 CSV 兜底。M-llm 软信息：ESPN 伤病追踪器 + RotoWire 预测首发（带时间戳存档）。市场：Polymarket。

已锁简化（赛后不翻案）

加时 = 进球率 × 1/3 时长；点球 50/50。小组排名用积分→净胜→进球→随机（略相互战绩与公平竞赛分）。第三名 495 对位用二分图匹配 + 固定优先级（穷举验证无同组对阵），是 FIFA Annex C 的结构近似。环境协变量（高温/海拔/旅行）v1 不入模。

结算时点

小组赛结束（72 场）出中期报告；决赛次日出终局裁决（H1/H2/H3）+ 全基线对比 + 复盘。

—