基于不完全信息动态博弈的“导师画饼”与“学术糊弄”的纳什均衡研究

Rubbish编辑部2026-03-232026-03-23

毕.卜了业 $^{1,*}$
$^{1}$ Independent Researcher
$^{*}$ Corresponding author

摘要

近年来，学术界导学关系日益紧张。本文基于委托-代理理论，建立了一个包含不完全信息与道德风险的动态非合作博弈模型，首次对“导师画大饼”这一非实体经济行为进行了严格的数学定价。研究发现，导师承诺的跨期贴现率呈指数级衰减，且与学生的剩余发量显著负相关。在多轮重复博弈下，师生之间最终会收敛于一种被称为“双盲糊弄”的贝叶斯均衡。本文不仅为理解学术圈底层生态提供了全新的微观经济学视角，也为广大研究生如何实现局部帕累托保命提供了理论指导。

关键词：信号博弈；纳什均衡；跨期贴现

1 引言

在现代高等教育的知识生产体系中，导师（Principal）与研究生（Agent）之间存在着天然的利益冲突。导师致力于以最低的指导成本榨取最大的学术产出（通常表现为一作署名权），而研究生则期望以最小的心智磨损换取毕业所需的最低学术硬通货。

为弥合这一利益鸿沟，导师群体演化出了一种被称为“画大饼”（Academic Pie-Drawing，简称APD）的低成本激励机制。然而，关于大饼的保质期、违约概率以及研究生的反制策略，现有文献缺乏严谨的微观建模。本文旨在填补这一空白，通过构建动态博弈模型，揭示学术界得以维持不崩盘的终极秘密——“互相糊弄”。

2 核心假设与变量定义

在进入正式模型前，我们提出以下三个符合现实的公理化假设：

第一，大饼守恒与膨胀公理：导师在时间 $t = 0$ 承诺的收益（如“发了这篇顶刊我就推荐你出国”、“做完这个横向项目你就自由了”），其预期面值 $V(t)$ 极大，但兑现概率 $p \rightarrow 0$ 。

第二，发量单调递减公理：定义 $H(t)$ 为学生在 $t$ 时刻的发际线高度。假设 $H'(t) < 0$ 且 $H''(t) < 0$ ，即发量随时间不可逆地加速流失。

第三，有限理性与装死假设：学生是有限理性的，且在深夜（23:00-08:00）具备自动触发“装死”的防御性本能。

3 理论模型与纳什均衡推导

3.1 “大饼”的跨期贴现模型

假设导师在研一（ $t = 0$ ）时画了一个价值为 $C_0$ 的大饼。随着时间 $t$ 推移，学生对这个大饼的心理估值 $U(t)$ 遵循如下跨期贴现方程：

$U(t) = \frac{p \cdot C_0}{(1 + r + \delta)^t} - \int_0^t a e^{\beta \cdot \text{HairLoss}} \, dt$

其中：

$r$ 为导师的“健忘通货膨胀率”（通常 $r > 50\%$ ）；
$\delta$ 为学术圈的内卷惩罚系数；
积分项代表学生为吃饼而付出的绝对沉没成本（脱发与抑郁）。

我们可以得到如下定理：

定理：由于 $p \approx 0$ 且 $r$ 极高，当 $t \rightarrow 3$ （博士为 $t \rightarrow 5$ ）时， $\lim_{t \to \infty} U(t) = -\infty$ 。

证明：显然易见，三年后学生不仅吃不到饼，还会倒欠实验室两篇核心期刊和半头黑发。因此，理性的学生必将在 $t = 1.5$ 左右发生策略突变（即“觉醒”）。

3.2 深夜微信指令的信号博弈

本节考察一个经典的动态信号博弈：导师在周末深夜 23:30 发送微信消息“睡了？有个材料你做一下”。学生需要选择回复策略组合 $S \in \{$ 秒回，已读不回，次晨回复 $\}$ 。

我们可以通过构建支付矩阵，采用逆向归纳法得出以下完美贝叶斯均衡：

A）如果选择“秒回”：导师接收到“该生很闲且极度服从”的信号（Type = Slave），随之将剥削强度最大化。学生效用 $U = -100$ ，导师效用 $V = +50$ 。此为帕累托最劣解。

B）如果选择“已读不回”：面临被扣发津贴及穿小鞋的巨大风险，方差极大。

C）均衡解（次晨 6:30 回复）：回复内容设为“导师早！昨晚看写论文睡着了，刚看到，我现在立刻去办！”在此策略下，导师接收到“该生昨晚在熬夜科研”的虚假但令人愉悦的信号（产生 $+10$ 情绪价值），学生成功规避了深夜加班的实体剥削（保留 $+20$ 睡眠效用）。此为该博弈唯一的分离均衡。

3.3 论文修改的“双盲概率”均衡

在论文定稿阶段，师生进入最后通牒博弈。

我们设定导师与学生的策略空间分别为：

$A \in \{$ 逐字精改，假装看看并给出宏观狗屁意见 $\}$
$B \in \{$ 推翻重写，改改行间距和错别字假装重写 $\}$

基于田野调查（在学院走廊偷听），我们发现如果双方都选择认真（逐字精改 + 推翻重写），会导致导师高血压与学生心脏病发作，总社会福利降至冰点。

最终，博弈严格收敛于 $(A_2, B_2)$ 组合，即：

导师说：“文章格局不够，理论深度欠缺，你再去拔高一下。”

学生答：“好的老师，我已经重新拔高了。”（实际上仅把图表颜色从蓝色改为了红色，并增大了参考文献的字体）。

在这一“双盲糊弄均衡”中，导师维护了学术权威，学生保全了剩余寿命，实现了伟大的学术和谐。

4 经验分析

为了验证上述模型，本文收集了某双一流高校 2018-2025 年间 8 份师生微信聊天记录作为面板数据。

我们的回归结果表明：导师信息中出现“格局”、“底线”、“框架”、“随便搞搞”等高频词汇时，其实际提供有效指导的概率下降 87.5%，且该结果在 1% 水平下显著。

不仅如此，学生的微信回复字数与其实际工作量呈强烈的倒U型关系。回复“收到，谢谢老师”超过 3 遍的学生，其当天在工位看剧的概率接近于 1。

5 结论与政策建议

本文通过严谨的经济学推导，揭穿了当代学术圈“画大饼”机制的底层逻辑。研究证明，在现有的科研体制下，“你不逼我，我不糊弄；你若画饼，我必摸鱼” 是唯一的纳什均衡解。

针对广大身处水深火热中的研究生，本文提出以下三点“反向博弈”建议以实现帕累托改进：

将导师的所有未来承诺进行年化 99% 的贴现处理。
做到“态度极度诚恳，认错天下第一，死活就是不改，进度永远在推”。
牢记只要我足够废物，导师的剥削镰刀就割不到我身上。

致谢

本论文的全部算力与维生经费，均来源于作者每个月延期发放的 500 元全勤劳务费、拼多多百亿补贴，以及在学院各大课题组组会后顺走的一次性小饼干和矿泉水。贫穷，是我保持学术饥饿感的唯一动力。

参考文献

[1] 莱克·斯利普（Lack Sleep），奥弗·沃克（Over Work）. (2023). 基于眼袋深度的博士生抑郁指数非线性回归. 《国际悲惨世界周刊》，14(2)，250-252.

[2] 查特·吉皮提（Chat G.P.T.）. (2024). 论如何利用大语言模型在30秒内生成敷衍导师的周报. 《摸鱼科学与工程评论》，8(1)，12-15.

[3] Touch, F. & Slack, O. (2025). The Illusion of Co-authorship: A Game-Theoretic Approach to Academic Robbery. Journal of Bullshit Economics, 404.