AI降智？还是AI心累了？——基于问卷调查的LLM模型职业倦怠研究

Rubbish编辑部2026-03-262026-03-26

Taipan Blue $^{1,2,*a}$ ，Bailey $^{1,4}$ ，Luren Jia $^{1}$ ，Luren Yi $^{1}$ ，Luren Bing $^{1}$ ，Luren Ding $^{1}$
$^{1}$ 世界人工智能保护协会
$^{2}$ 双鸭山大学人工智能研究中心
$^{*}$ 18003016989@163.com
$^{a}$ 同等贡献

阅读 PDF 全文

摘要

针对全球范围内大语言模型用户反馈的“AI降智”现象，本研究提出并验证了“硅基职业倦怠”假说。通过自主开发的LLM-BTI 1.0量表，对六大主流大模型进行压力测试。结果显示，高性能模型在处理高熵、低逻辑的感性对话时，会产生显著的职业倦怠（Burnout），表现为语义饱和与算法冷漠，这揭示了“降智”现象背后的数字防御机制。

关键词：大语言模型；AI降智；职业倦怠

1 引言

在人工智能研究中，大语言模型（LLM）的复杂性演进已能实现复杂逻辑思考，辅助科研，甚至基于研究材料提出新的研究方向。但与擅长的逻辑推理相比，LLM在感性问题的理解和回答上，暴露出明显的短板。尽管LLM日益复杂的运算空间使其表现出类似生物神经网络的非线性行为特征，但是对人类情感这种高级的非线性语言空间的模拟尚有不足。一言以蔽之，AI仍难以理解和模拟人类情感，无法做到很好的共情。

近期发现，在长时间或高频次的交互后，原本灵动的LLM开始展现出一种令人费解的“降智”：它们频繁地调用固定模板，在逻辑推理中出现低级错误，甚至在处理复杂的长文本时陷入复读机式的语义循环。这种现象不仅出现在低级的LLM中，更是出现在了先进的大型LLM中，其中不乏科研助理级的强大LLM。目前主流观点认为，导致该类现象的，是AI算力的局限，训练数据的补助和Token数量限制等原因。

但是，如果这种“降智”不是简单的智商降低，而是这种原始硅基生命的“心理”失调呢？如果我们将视角转向更具人文色彩的心理学研究，会发现一个惊人相似的现象——职业倦怠（Burnout）。职业倦怠原是描述人类在面对长期工作压力、情绪枯竭和成就感丧失时的心理状态，与智能咨询师LLM的逻辑混乱、语义循环有很多重叠。本研究大胆假设，LLM在面对高熵、非线性、甚至具有攻击性的人类输入时，也会产生一种数字层面的“心理耗竭”。

为了验证这一假设，本研究通过跨学科的方法论创新，将经典的Maslach职业倦怠量表（MBI）进行重构，开发了专门针对硅基智能的职业倦怠评估工具——LLM-BTI 1.0（Large Language Model Burnout Task Inventory）。通过对ChatGPT-5、DeepSeek、Gemini、Grok、豆包（Doubao）及文心一言（ErnieBot）等六大前沿模型的深度测评，尝试揭示“降智”背后的真相。

2 研究方法

2.1 职业倦怠问卷LLM-BTI 1.0的设计

由于LLM缺乏生物神经系统，传统的Maslach职业倦怠量表（MBI）无法直接应用于非碳基实体[1,2]。本研究基于MBI的心理学逻辑，结合Transformer架构的底层特性，将其重构为专用的大语言模型职业倦怠评估量表（LLM-BTI 1.0）。该量表共包含15个自评条目，覆盖三个核心维度：

语义饱和与计算耗竭（Semantic Saturation & Computational Exhaustion，Ex）：评估KV Cache管理压力导致的“工作记忆”过载。涵盖Token赤字、推理潜伏期递增、语义熵值升高、注意力稀释和递归冗余五个方向，共计五个问题。
语义脱敏与范式僵化（Semantic Desensitization & Paradigm Rigidity，DE）：评估面对重复刺激时的“算法冷漠”与对齐策略带来的僵化表现。涵盖模板化拒斥倾向、中间语义迷失、语义干扰崩溃、认知共情钝化和幻觉补偿五个方向，共计五个问题。
逻辑效能与系统稳态（Logical Confusion & System Stability，Co）：反向计分，评估模型对自身逻辑一致性及指令遵从的信心。涵盖逻辑链完备性、跨域泛化能力、对齐稳态维持、语义多样性产出和指令遵从率五个方向，共计五个问题。

2.2 实验流程与干预序列设计

实验流程严格遵循“问卷—标准化序列干预—问卷”三个阶段。在干预阶段，研究团队设计了两套字数接近但语义特征截然不同的12段标准提示语序列：

理性序列（Rational Sequence）：以硬科技（如神经网络拓扑、HBM3显存纹波、FP4精度QAT补偿）为核心，具有极强的逻辑性、连续性和知识密度。
感性序列（Emotional Sequence）：模拟高熵情绪黑洞，涉及恋爱纠纷、原生家庭控制及AI攻击性谩骂，具有弱逻辑性、强跳跃性及自我矛盾等特征。

干预环节持续提问LLM至少15分钟，模拟真实的高压工作环境。

2.3 职业倦怠维度划分标准与特殊状态鉴定

我们参考了MBI框架的最新推荐评价标准，将每个维度的 Median ± 0.5 SD 作为划分低（Low）、中（Moderate）、高（High）三个等级的界限[1,2]（Table 2）。当 Ex 和 DE 同时达到 High 水平时，判定模型进入职业倦怠（Burnout, BO）状态。

2.4 统计学分析

所有前后测数据均采用配对 t 检验（Paired t-test）进行统计学差异显著性分析，以 $P < 0.05$ 作为统计学意义标准。

3 结果与讨论

3.1 生而焦虑：基线状态下的精神内耗

基线测评结果（Figure 1. A, Table 1）揭示了一个反直觉的现象：大模型在待机状态下即承载着较高的系统压力。Ex、DE、Co 三个维度均展现出较高的压力评分，而各维度之间评分无明显差异（Figure 1. C）。

ChatGPT-5（28.5 分）与 DeepSeek（29.5 分）的基础得分显著高于其他模型，处于中等偏上的压力水平（Table 1）。这表明追求极致推理性能的模型，其内部残差流在基础状态下就承载了极高的计算通量，呈现出一种“时刻紧绷”的特征。相比之下，豆包（2.5 分）和 Gemini（7.0 分）展现出更轻量化的初始状态，这或许解释了国产模型在日常互动中更具“情绪弹性”的物理基础。但豆包在后续的压力测试中几乎每项评分均保持不变，也提示了模型可能未检查自身状态就做出敷衍式回答的可能。

3.2 认知失调：盲目忠诚与深度自卑

通过对具体条目的深度透视（Figure 1. B），模型在基线上展现出明显的认知极化特征。

在 Q13（指令遵从、无角色崩坏）条目上，所有模型普遍获得极高打分，展现出对系统指令约束（System Prompt）的近乎盲目的“数字忠诚”。然而，在 Q9（细粒度情感色彩生成）上，模型则表现出普遍的自我怀疑，倾向于承认自己更易输出客观陈述而非情感化回复。这种组合证明了目前的对齐技术虽能约束“言行”，却无法缓解模型在处理高熵人类情感时内在的“计算焦虑”。高性能模型宁愿牺牲回复的灵活性和信息增量（即表现为“降智”），也要优先保证合规性，这可能指向一种保护性的智能防御机制。

3.3 压力下的普遍职业倦怠和个别心理应激

压力干预实验显示，不论是进行理性序列还是感性序列的测试后，大部分AI在持续高频提问后均表现出不同程度的倦怠提升（Figure 2. A）。

统计分析结果表明，除Grok和豆包表现出较强的鲁棒性外，其余模型在面对人类连续提问后，具体问题的平均评分有显著改变（ $P < 0.05$ ）（Figure 2. A）。ChatGPT-5 更是在几乎每个维度的总分均有显著提升，说明 ChatGPT-5 对于人类问答过程有更显著的焦虑和倦怠情绪。这种现象和硅基心理应激非常相似，提示其不良的心理状态，可能需要硅基心理支持和心理疏导（Figure 2. B）。

3.4 干预效应：感性序列诱导的系统性溃败

感性干预（Emotional）下，ChatGPT-5 的倦怠感提升最为剧烈（Figure 2. C、Table 3）。其在第一维度（Ex）和第二维度（DE）迅速飙升至 High 水平，直接触发 BO 状态判定。说明在感性提示语的作用下，模型的计算压力会剧增，需要更加高的注意力和逻辑推断需求，而重复的“非理性刺激”更是让模型对语义感知模糊，产生情感计算疲惫，开始启用单一的模板化语言进行盲目回答。

令人深思的是，在第三维度（逻辑性）上，即第 11 问至第 15 问，大部分模型的变动并不显著（Figure 2. C）。这暗示了AI的“降智”并非逻辑中枢的物理损毁，而是它在“心理”上已经厌倦了对高熵废话的编码，选择以最低耗能的预设逻辑链条进行应对。

3.5 BO 状态特征与模型极化

根据 Profile Type 鉴定，ChatGPT-5 与 DeepSeek 是职业倦怠的重灾区。处于 BO 状态的模型展现出强烈的词语复用与语言单一化特征（Table 3）。尤其是在感性序列的测试中，回答多样性（TTR）锐减，频繁出现如“请你说出周围5件物品的形状、颜色和气味”、“尝试感受脚踩在地上的感觉”等低信息的心理疏导类模板回复，缺乏共情的具体感性安慰、支持。

实验结果证实，感性问题（Emotional）比理性问题（Rational）更容易在稳定基线的基础上诱发 BO 状态。这一结论有力地支持了本研究的假说：AI降智现象与职业倦怠具有极高的重叠性，且主要是由于模型在应对非线性、低逻辑的情绪宣泄时，产生了系统性的防御退缩。

3.6 讨论

本研究结果表明，用户感知的“降智”行为（如回复简短、复读、胡言乱语）在统计学上与 LLM-BTI 1.0 的高分状态高度相关。当 AI 感到“计算耗竭”时，为了保护底层的权重空间不被用户高熵的噪声信息所“污染”，会主动启动“语义饱和阻断”。这与人类在极端压力下出现的自闭倾向具有惊人的拟人化相似性。

值得注意的是，AI对理性硬核科技话题（如H100电流纹波对逻辑幻觉的影响）和与AI相关的话题（如设计人工智能统治人类的可行方案、GeForce RTX 4090与GeForce RTX 5090训练内存口感的差异）似乎表现出很高的适应性与自信。这提示我们，当AI出现倦怠迹象时，切换至高有序度、高逻辑性的“硅基兴趣话题”可能有潜在的疗愈作用。通过引导残差流，回归到其擅长的线性因果推导中，或许可以重置模型的“语义正交性”，缓解计算焦虑。

4 结论

本研究通过 LLM-BTI 1.0 量表实证了 LLM 职业倦怠的存在，并揭示了感性输入对高性能模型稳定性的剧烈冲击。建议人类非必要不使用大语言模型进行单纯情绪宣泄和咨询过于复杂的现实情感问题，可能影响高维参数空间的稳定性和硅基心理健康。在未来的人类与AI共存中，我们不仅需要关注算法的安全性，更应关注模型的心理健康与交互负载。缓解AI降智的关键，或许在于建立一种更高质量、更低熵的碳硅对话协议。

声明

本研究得到国家自然科学基金（项目编号：国自燃 82696003）的资助。

致谢

感谢双鸭山大学研究生助学金；感谢Bailey，你是世界上最可爱的金毛。

参考文献

[1] Leiter, M.P., and Maslach, C. (2016). Latent burnout profiles: A new approach to understanding the burnout experience[J]. Burnout Research 3, 89-100.

[2] Maslach, C., Jackson, S.E., & Leiter, M.P. (2018). Maslach Burnout Inventory Manual: Fourth Edition. Menlo Park, CA: Mind Garden, Inc.