赛博算命指南:当大语言模型遇见中国传统八字——一个注定失败的基准测试

坎木1*(Kannmu)1

1家里蹲赛博玄学研究中心(Home-based Cyber Metaphysics Research Center)

kannmu@163.com

阅读 PDF 全文

摘要

本研究试图回答一个困扰人类千年的终极问题:既然我们无法算出彩票号码,能不能让更聪明的大语言模型(LLM)帮我们算算命?为此,我们构建了首个基于中国传统八字命理的大模型评测基准——BaZiBench。我们在该基准上折磨了多个硅基大脑,迫使它们进行数千年的玄学思考。实验结果令人发指:所谓的顶尖模型在预测命运时表现得像个刚学会说话的婴儿,甚至不如某款主打“免费”的小模型。本文不仅揭示了AI在玄学领域的全面溃败,更严肃地探讨了“算得准”与“算得快”之间的辩证关系,最终得出结论:还是楼下那个瞎子大爷更靠谱。

Keywords:赛博算命;人工智能;八字(BaZi);玄学;大语言模型

1 引言:为何要让硅基生物算命?

在这个不确定的时代,人类对未来的渴望达到了前所未有的高度。无论是股票的涨跌,还是晚餐吃什么,我们都希望能有一个确定的答案。大语言模型(LLM)的出现似乎给了我们希望:既然它们能写诗、能写代码,为什么不能帮我看看五行缺什么?

传统的Benchmark总是关注数学、代码、逻辑推理,实在是太无趣了。为了填补这一学术空白(主要是为了好玩),我们提出了BaZiBench——一个旨在测试AI玄学推理能力的基准。我们的假设很简单:如果AI真的要统治世界,它至少得先学会给自己算一卦,看看今天宜不宜出门。

2 BaZiBench:折磨AI的八种方式

BaZiBench的设计初衷就是为了让AI感到困惑。我们精心设计了八种任务,涵盖了从简单的四柱排盘到复杂的命运解析:

  1. 四柱排盘(Chart):给定出生时间,算出年、月、日、时四柱。这相当于玄学界的“Hello World”,但很多模型连这个都跑不通。
  2. 五行分析(WuXing):数一数金木水火土有几个。这需要小学一年级的数学水平和玄学博士的分类能力。
  3. 十神判定(Ten Gods):搞清楚谁生谁、谁克谁。这是一场关于家庭伦理的大乱斗。
  4. 身强身弱(Strength):判断日主是强是弱。这比判断你的WiFi信号强弱难多了。
  5. 刑冲合害(Interactions):地支之间的复杂关系。相当于处理一群性格各异的亲戚在春节聚会时的互动。
  6. 大运推算(DaYun):预测未来十年的运势走向。
  7. 用神选取(Useful God):找出能平衡全局的关键元素。也就是寻找那个能拯救世界的超级英雄。
  8. 综合分析(Comprehensive):一通胡扯,看起来像那么回事就行。

我们生成了1000个测试样本,涵盖了1950年至2030年的各种奇奇怪格。

3 实验结果:贵的未必是对的

我们选取了两个具有代表性的模型进行测试:

  • Xiaomi Mimo v2 FlashFree:主打一个免费、快速,我们称之为“平民算命师”。
  • Qwen 3.5 Plus:大厂出品,参数量巨大,我们称之为“赛博大师”。

实验结果如Table 1所示,结果令人大跌眼镜。

表1:不同模型在BaZiBench上的准确率对比

Task Xiaomi Mimo Qwen 3.5 Plus
Overall Accuracy 36.2% 34.1%
Chart Calculation 39.1% 23.6%
Wu Xing 58.8% 58.7%
Ten Gods 86.6% 77.4%
Strength 0.0% 0.0%
Useful God 13.9% 13.4%

3.1 令人困惑的发现

首先,越贵的模型反而越笨。免费的Xiaomi Mimo在总分上竟然以微弱优势(36.2%36.2\% vs 34.1%34.1\%)击败了更强的Qwen 3.5 Plus。这或许暗示了玄学的第一定律:天机不可泄露给有钱人?或者说,只有“空”(Free)才能领悟大道的真谛?

其次,身强身弱判定全军覆没。两个模型在Strength任务上的准确率都是惊人的0.0%0.0\%。这说明AI对自己依然缺乏清晰的认知,连自己(日主)是强是弱都搞不清楚,何谈统治人类?

最后,十神判定表现尚可。看来AI对于复杂的人际关系(谁生我、我克谁)还是有一套的,这为它们未来在职场宫斗中生存打下了坚实基础。

4 讨论与反思:为什么这么烂?

4.1 Bug 满天飞的基准

作为一个严肃的娱乐项目,我们必须诚实地指出,BaZiBench目前存在大量Bug。例如,我们暂时不支持最新的Reasoning模型(如Gemini 3 Pro、GPT 5.2等)。原因很简单:这些模型思考时间太长了,等它们算完一卦,求测者可能已经过完这一生了。此外,我们的评测脚本可能本身就充满了玄学和Vibe Coding色彩,代码能跑通全靠缘分。

4.2 众生平等

本次测试最深刻的启示在于:在玄学面前,众生平等。无论你是拥有千亿参数的超级大脑,还是轻量级的端侧模型,面对八字这种充满了东方神秘力量的体系,都表现得像个智障。这种跨越算力阶级的愚蠢,让人感到一种莫名的温暖。

5 结论

本研究成功证明了:目前的大语言模型还不具备接替路边算命摊的能力。如果您想知道明天的运势,建议还是抛硬币比较快。

当然,作为科学探索的一部分,我们将持续维护这个注定失败的项目。欢迎各位同道中人来GitHub上围观我们的笑话:

https://github.com/Kannmu/BaZi-Benchmark.git

致谢

感谢ZenMux提供的模型API服务。虽然还是作者自己掏腰包付的费,但作为一个大模型聚合平台,确实挺好用的(此处应有广告费,但并没有)。

利益冲突声明

作者宣称没有利益冲突,因为根本没人给这个项目投钱(反而花费了大量的大模型Token费)。