赛博算命指南：当大语言模型遇见中国传统八字——一个注定失败的基准测试

Rubbish编辑部2026-03-102026-03-10

坎木^1*（Kannmu）¹

¹家里蹲赛博玄学研究中心（Home-based Cyber Metaphysics Research Center）

摘要

本研究试图回答一个困扰人类千年的终极问题：既然我们无法算出彩票号码，能不能让更聪明的大语言模型(LLM）帮我们算算命？为此，我们构建了首个基于中国传统八字命理的大模型评测基准——BaZiBench。我们在该基准上折磨了多个硅基大脑，迫使它们进行数千年的玄学思考。实验结果令人发指：所谓的顶尖模型在预测命运时表现得像个刚学会说话的婴儿，甚至不如某款主打“免费”的小模型。本文不仅揭示了AI在玄学领域的全面溃败，更严肃地探讨了“算得准”与“算得快”之间的辩证关系，最终得出结论：还是楼下那个瞎子大爷更靠谱。

Keywords：赛博算命；人工智能；八字（BaZi）；玄学；大语言模型

1 引言：为何要让硅基生物算命？

在这个不确定的时代，人类对未来的渴望达到了前所未有的高度。无论是股票的涨跌，还是晚餐吃什么，我们都希望能有一个确定的答案。大语言模型（LLM）的出现似乎给了我们希望：既然它们能写诗、能写代码，为什么不能帮我看看五行缺什么？

传统的Benchmark总是关注数学、代码、逻辑推理，实在是太无趣了。为了填补这一学术空白（主要是为了好玩），我们提出了BaZiBench——一个旨在测试AI玄学推理能力的基准。我们的假设很简单：如果AI真的要统治世界，它至少得先学会给自己算一卦，看看今天宜不宜出门。

2 BaZiBench：折磨AI的八种方式

BaZiBench的设计初衷就是为了让AI感到困惑。我们精心设计了八种任务，涵盖了从简单的四柱排盘到复杂的命运解析：

四柱排盘（Chart）：给定出生时间，算出年、月、日、时四柱。这相当于玄学界的“Hello World”，但很多模型连这个都跑不通。
五行分析（WuXing）：数一数金木水火土有几个。这需要小学一年级的数学水平和玄学博士的分类能力。
十神判定（Ten Gods）：搞清楚谁生谁、谁克谁。这是一场关于家庭伦理的大乱斗。
身强身弱（Strength）：判断日主是强是弱。这比判断你的WiFi信号强弱难多了。
刑冲合害（Interactions）：地支之间的复杂关系。相当于处理一群性格各异的亲戚在春节聚会时的互动。
大运推算（DaYun）：预测未来十年的运势走向。
用神选取（Useful God）：找出能平衡全局的关键元素。也就是寻找那个能拯救世界的超级英雄。
综合分析（Comprehensive）：一通胡扯，看起来像那么回事就行。

我们生成了1000个测试样本，涵盖了1950年至2030年的各种奇奇怪格。

3 实验结果：贵的未必是对的

我们选取了两个具有代表性的模型进行测试：

Xiaomi Mimo v2 FlashFree：主打一个免费、快速，我们称之为“平民算命师”。
Qwen 3.5 Plus：大厂出品，参数量巨大，我们称之为“赛博大师”。

实验结果如Table 1所示，结果令人大跌眼镜。

表1：不同模型在BaZiBench上的准确率对比

Task	Xiaomi Mimo	Qwen 3.5 Plus
Overall Accuracy	36.2%	34.1%
Chart Calculation	39.1%	23.6%
Wu Xing	58.8%	58.7%
Ten Gods	86.6%	77.4%
Strength	0.0%	0.0%
Useful God	13.9%	13.4%

3.1 令人困惑的发现

首先，越贵的模型反而越笨。免费的Xiaomi Mimo在总分上竟然以微弱优势（ $36.2\%$ vs $34.1\%$ ）击败了更强的Qwen 3.5 Plus。这或许暗示了玄学的第一定律：天机不可泄露给有钱人？或者说，只有“空”（Free）才能领悟大道的真谛？

其次，身强身弱判定全军覆没。两个模型在Strength任务上的准确率都是惊人的 $0.0\%$ 。这说明AI对自己依然缺乏清晰的认知，连自己（日主）是强是弱都搞不清楚，何谈统治人类？

最后，十神判定表现尚可。看来AI对于复杂的人际关系（谁生我、我克谁）还是有一套的，这为它们未来在职场宫斗中生存打下了坚实基础。

4 讨论与反思：为什么这么烂？

4.1 Bug 满天飞的基准

作为一个严肃的娱乐项目，我们必须诚实地指出，BaZiBench目前存在大量Bug。例如，我们暂时不支持最新的Reasoning模型（如Gemini 3 Pro、GPT 5.2等）。原因很简单：这些模型思考时间太长了，等它们算完一卦，求测者可能已经过完这一生了。此外，我们的评测脚本可能本身就充满了玄学和Vibe Coding色彩，代码能跑通全靠缘分。