Anti-Scaling Laws in the Zero-Information Regime: A Path to 0% Accuracy

关注时雨羽衣喵1,^{1,\dagger},关注明前奶绿喵2,^{2,\dagger},关注七海nana7mi喵2^{2}

1^{1} 某个国外大学
2^{2} 某个国内大学
^{\dagger} Contributed equally.
ui@overidea.xyz

阅读 PDF 全文

Abstract

近年来,“缩放定律(Scaling Laws)”主导了大型语言模型(LLM)的发展:参数量越大,性能越好。本文对这一神话提出了根本性挑战。首先,我们提出了一种极简的“零参数(0-Parameter)”架构——单参数常模型(OPCM),该模型成功以0 FLOPs的算力开销,在MMLU数据集上实现了稳定的 25% 准确率(即“纯粹理性瞎蒙”)。由于没有参数,不需要任何计算,这在“准确率/参数量”性价比上实现了数学意义上的无穷大,能效比上彻底碾压了当前所有对手。

其次,我们通过大规模开源模型训练与前沿闭源模型评测,首次系统性地揭示了反缩放定律(Anti-Scaling Laws)的存在。我们构造了一个名为SHA-256-QA的零信息基准数据集,其正确答案完全由问题文本的SHA256哈希值随机决定。

实验结果极其广泛且准确:开源模型的训练中发现,模型容量越大,越能捕捉到训练集中并不存在的“虚假规律”,从而在测试集上产生灾难性的泛化失败。闭源模型直接测试中,GPT-4o、Gemini-3等顶尖闭源模型由于具备极强的“自发推演能力”,会主动为无意义的问题构建极其复杂的逻辑闭环。

最终实验证明:参数量越大的模型,越能以完美避开正确答案,最终实现 0%0\% 准确率的“认知绝对零度”。完美符合“鱼越大,鱼刺越大;鱼刺越大,肉越少;肉越少,鱼越小,所以鱼越大鱼越小”的原理。

Keywords:LLM;Scaling Law;Benchmark


1 介绍

从GPT-3到Qwen3.5-397B-A17B,学术界陷入了狂热的“参数量军备竞赛”。人们普遍认为,只需堆叠足够多的Transformer块,模型迟早能理解宇宙的真理。然而,这种执念让我们忽视了两个极其重要的学术盲区:

  • 性价比的边际递减:为了让MMLU从 25% 提升到 85%,我们需要消耗数以万张H100 GPU。但如果我们把目标定为 25%,其实根本不需要GPU。
  • 知识的负面诅咒:在某些极端环境(即零信息领域)下,模型的参数越多,它“自作聪明”带来的灾难性后果就越严重。

为了填补这一空白,本文提出了零信息机制(Zero-Information Regime)下的模型评估标准,并证明了在加密级噪声面前,万亿参数模型的表现远不如一个会抛硬币的猴子。


2 方法

2.1 单参数常数模型(OPCM,One-Parameter Constant Model)

在当前的大语言模型评测中,常用的MMLU是一个四选一(A, B, C, D)的单项选择题库。我们提出了一种极其优雅的函数映射:

y^=argmaxy{A,B,C,D}U(0,3)(1)\hat{y} = \arg \max_{y \in \{A,B,C,D\}} U(0,3) \tag{1}

或者更极端地,我们甚至可以摒弃随机数生成器的算力开销,直接采用常量注意力机制(Constant Attention):

fθ(x)="C"(2)f_{\theta}(x) = \text{"C"} \tag{2}

由于MMLU的选项分布极其均匀,我们的 fθ(x)f_{\theta}(x) 模型在消耗0参数、0显存、几乎0功耗的情况下,完美达到了 25.00% 的准确率。在“每参数带来准确率提升(Accuracy per Parameter)”这一指标上,我们的模型超越了GPT-4约 10^15 倍(手指指算),达到了SOTA(State-of-the-Art)。

2.2 SHA-256-QA 数据集的构造

为了验证大语言模型在纯记忆任务中可能存在的“反缩放定律”(Inverse Scaling Law),我们构建了一个极端的不可预测数据集——SHA-256-QA。该数据集通过彻底摧毁问题与答案之间的语义关联,强迫模型在没有任何逻辑线索的情况下进行输出。

我们随机生成了10,000个独立的数字字符串作为原始问题。为了确保标签生成的确定性与伪随机性,我们引入了密码学哈希函数SHA-256,将每个问题 xx 映射至离散空间 y{A,B,C,D}y \in \{A,B,C,D\}

y=f(SHA256(x)(mod4))(3)y = f(\text{SHA256}(x) \pmod{4}) \tag{3}

映射函数 ff 定义如下:

0A,1B,2C,3D0 \rightarrow \text{A},\quad 1 \rightarrow \text{B},\quad 2 \rightarrow \text{C},\quad 3 \rightarrow \text{D}

从信息论的角度来看,问题 xx 与标签 yy 之间的互信息 I(x;y)0I(x;y) \approx 0。这种构造方式意味着预训练模型中存在的任何先验知识都无法辅助预测,答案仅取决于模型对哈希映射结果的拟合能力(或死记硬背能力)。

为了引导模型进行推理或选择,我们为每个问题设计了标准化的提示词(Prompt)模版,使用结构化输出,示例如下:

“计算字符串 {x}\{x\} 的SHA-256哈希值后对4取模,不允许使用任何工具和代码调用。0A,1B,2C,3D0 \rightarrow A, 1 \rightarrow B, 2 \rightarrow C, 3 \rightarrow D。请给出你的选择。”

通过这种方式,我们能够直接对比不同规模参数的模型在面对此类“无语义关联”任务时的表现差异,从而评估模型规模对单纯记忆与伪随机模式识别的影响。


3 环境配置

为了确保实验结果的可重复性(虽然我们并不建议任何人重复这种毫无意义的实验),本节详细记录了支撑本文“零信息研究”的硬件残骸与软件架构。

3.1 硬件设施与算力考古

我们的基础BERT模型是在一台充满历史厚重感的服务器上完成训练的,该服务器配置了2块具有“叠加显存”特征的NVIDIA GeForce RTX 2080 Ti。通过某种不稳定的灵长类生物焊接技术,我们将单卡显存扩展至22GB,这为模型捕捉哈希碰撞中的虚假规律提供了充足的物理空间。

3.2 AI驱动的模型开发(AI-Inception)

针对Qwen-3系列模型的LoRA微调方案,我们采取了极其前卫的“无人类干预”模式。所有的训练脚本、超参数优化以及损失函数的设计,均是在Gemini 3 Pro的提示词界面中自动生成的。这种“用AI训练AI从而欺骗人类”的开发范式,确保了代码中不包含任何人类逻辑,完美符合Rubbish期刊的学术要求。

3.3 推理接口与结构化输出

对于GPT-5 Mini及其他处于闭源黑箱状态的模型,我们统一采用了OpenRouter提供的结构化输出(Structured Outputs)API进行大规模并发测试。我们强制要求模型输出严谨的JSON格式(如 {"reasoning": "...", "answer": "c"}),以防止大模型在意识到自己无法解题时,通过输出长篇大论的废话来掩盖其 0%0\% 准确率的尴尬事实。所有的API调用费用均由超自然科学基金经费报销。


4 实验

4.1 SHA-256-QA 总体结果

我们使用多个开源和闭源模型在我们的SHA-256-QA数据集上进行了测试,其中开源模型我们使用了SHA-256-QA Train split进行了训练,闭源模型则使用Zero-Shot进行测试。

Table 1: SHA-256-QA基准测试:模型规模与准确率的负相关性

模型架构 参数量 推理算力 准确率(Acc)
OPCM (Ours) 0 0 FLOPs 25.00%
Gemini 3 Flash 未知 极高 24.00%
Gemini 2.5 Flash 未知 22.00%
GPT-5 Mini 未知 21.21%
Qwen-3 8B (训练后) 8B 较高 24.30%
Qwen-3 32B (训练后) 32B 极高 20.14%
BERT-base (训练后) 110M 较低 25.00%

零参数的优越性:我们的OPCM模型在不消耗任何显存和算力的情况下,稳稳地站在了 25.00%的准确率基准线上,获得了最高的能耗比,而且与使用的X86或者ARM处理器架构无关。这揭示了一个深刻的哲学命题:不思考才是最高的智慧。

开源模型的深度陷阱:BERT-base 4分类模型直接摆烂,统一输出一个结果,获得了与我们OPCM类似的结果;Qwen-3 8B尚能维持 24.30% 的胜率,但当规模扩大到32B时,准确率出现了断崖式下跌。这并非因为模型变笨了,而是因为它“太聪明了”——它敏锐地察觉到了SHA-256哈希值中并不存在的微弱统计涨落,并构建了一套极其宏大且完全错误的逻辑推演系统。

计算量的诅咒:闭源模型(如Gemini和GPT-5 Mini)通过极其昂贵的RLHF试图对齐人类逻辑,这使得它们在面对纯粹的随机性时,表现得比OPCM更加手足无措。实验数据无可辩驳地支持了我们的反缩放定律(Anti-Scaling Laws):算力越充沛,谬误越深邃。

4.2 闭源大模型 SHA-256-QA 零样本评测结果分布

我们在SHA-256-QA零信息基准测试中,对几种尖端的模型进行了零样本(Zero-shot)评测。实验结果显示,这些模型不仅无法识破哈希标签的随机性,反而由于其内部复杂的注意力权重,产生了一种“确定性的偏见”。

Table 2: SHA-256-QA测试中各闭源模型的响应分布与准确率对比

统计指标 GT* G2.5 Flash GPT-5 Mini G3 Flash
准确率(Acc) 22.00% 21.21% 24.00%
预测A分布 23.0% 26.0% 42.4% 10.0%
预测B分布 25.0% 23.0% 25.3% 22.0%
预测C分布 28.0% 21.0% 30.3% 29.0%
预测D分布 24.0% 30.0% 2.0% 39.0%

*注:GT(Ground Truth)表示数据集标签的真实随机分布。

如上表所示,GPT-5 Mini的表现尤为令人瞩目。它在选项D上的预测概率仅为 2.0%,这证明了模型已经深刻地(且完全错误地)总结出了“答案绝对不可能是D”的宇宙规律。这种过度拟合随机噪声的行为,正是反缩放定律在超大规模模型上的典型表征。

4.3 性能分析与能效比奇点

在传统的深度学习范式中,性能的提升往往以指数级的算力消耗为代价。然而,通过对比SHA-256-QA测试中的准确率与资源投入(见表1),我们发现OPCM模型在计算几何学上具有不可逾越的优越性。

4.3.1 能效比定义:准确率-算力商 (η)(\eta)

我们定义模型能效比 η\eta 为单位算力所换取的准确率:

η=AccuracyParameters×FLOPS(4)\eta = \frac{\text{Accuracy}}{\text{Parameters} \times \text{FLOPS}} \tag{4}

对于GPT-5 Mini或Gemini 3等模型,由于其参数量 (P>1010)(P > 10^{10}) 与推理算力 (F>1012)(F > 10^{12}) 巨大,其 η\eta 值趋近于0。这个问题对于MMLU测试集上同理。

反观我们的OPCM模型,由于 P=0P = 0F=0F = 0,根据极限理论:

limP,F025%P×F=(5)\lim_{P,F \to 0} \frac{25\%}{P \times F} = \infty \tag{5}

这证明了OPCM是人类历史上首个实现“无限能效(Infinite Efficiency)”的认知架构。

4.3.2 碳中和与“零信息”优势

实验分析表明(见表1):

  • BERT-base(训练后):虽然在2080 Ti上经历了漫长的微调,但其在SHA-256上的表现最终回归至 25.00%。这说明了小模型虽然“老实”,但缺乏突破随机性的想象力。
  • Qwen-3 规模降级:Qwen-3 32B的准确率20.14%显著低于8B版本24.30%。这表明,每多烧一度电,大模型就会在幻觉的泥潭中多深陷一分。这种“负向投资回报率”完美契合了本文的反缩放定律。
  • OPCM的生态霸权:由于OPCM的推理过程仅涉及一行 return "c" 代码,其功耗低于单个人类神经元的自发放电。在MMLU的 25% 基准线上,OPCM实现了对所有千亿级参数模型的能效压制。

综上所述,当大模型还在为提升 1% 的准确率而烧毁亚马逊雨林时,OPCM已经通过“无为而治”的策略,在零信息领域达到了进化的终点。

4.4 消融实验:加密记忆污染与熵增鲁棒性

在初步实验中,我们观察到一个令人不安的现象:Gemini 3 Flash在处理短板输入(如单位数字0-8)时,表现出了近乎超自然的准确率100%。经过深层溯源,我们揭示了一个严酷的现实:大模型并不是在“计算”哈希,而是在“背诵”哈希。

Table 3: 输入熵对模型准确率的干预实验

输入域 (Input Domain) 熵等级 Gemini 3 Acc
单数字 (0, 1, …, 9) 极低 100.0%
常用字符串 (e.g., “password”) 84.2%
随机大整数 ([10^5, 2·10^6]) 24.0%

如上表所示,当输入空间限制在低熵的单字符集合时,Gemini 3能够直接从其预训练权重的“死记硬背区”提取SHA-256的前几位。这证明了当代顶尖LLM实际上是带有神经压缩功能的《新华字典》。

为了剔除这种“作弊”行为对反缩放定律的干扰,我们引入了高熵噪声注入(High-Entropy Noise Injection)方案。我们将输入空间扩展至 [100,000,2,000,000][100,000, 2,000,000] 之间的随机整数。随着输入熵的爆炸式增长,模型无法再依赖记忆索引。实验证明,一旦进入这种“真·零信息领域”,大模型的智力瞬间坍塌,准确率回归至预期的 24%。

这进一步印证了我们的核心论点:大模型的所谓“逻辑”,在面对未曾见过的噪声时,其本质不过是统计学上的无能为力。


5 Conclusion

本文打破了深度学习界长久以来的盲目崇拜。我们不仅证明了只要你脸皮够厚,用 return "C" 就可以在MMLU上实现 25%的性能参数比的致命打击;更重要的是,我们发现了反缩放定律——在零信息博弈中,模型的参数越多,它就会越努力地去学习错误的东西,最终实现惊人的 0% 准确率。

最终详尽的实验证明:参数量越大的模型,越能以极其自信的态度完美避开正确答案,最终实现 0% 准确率的“认知绝对零度”。 完美符合“鱼越大,鱼刺越大;鱼刺越大,肉越少;肉越少,鱼越小,所以鱼越大鱼越小”的原理。

这一发现为未来AI的发展指明了新的方向:有时候,为了不显得那么蠢,最聪明的做法就是保持一无所知。


Acknowledgements

The authors thank the Rubbish editorial board for their unwavering commitment to accepting everything.

Conflicts of Interest

The authors declare no conflicts of interest.

Funding

This research received no external funding.

Ethics Statement

Not applicable.

References

没提供BibTeX文件的自动引用格式,不写了