Outraged AI: Large language models prioritise emotion over cost in fairness enforcement

原创于 2026-06-23 09:30:00 发布 · 105 阅读

·

2

·

标签

#人工智能 #语言模型 #机器学习

LLM Daily 专栏收录该内容

2852 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章核心总结与翻译

一、主要内容

本文通过利他第三方惩罚（TPP）实验，对比4068个大语言模型（LLM）智能体与1159名人类的796100次决策，探究LLM是否像人类一样利用情绪指导道德决策。核心发现如下：

情绪与惩罚的关联：LLM对不公平分配产生更强的负面情绪，对公平分配（除GPT-3.5外）产生更积极情绪，且情绪强度高于人类；惩罚不公平分配会带来比接受分配更积极的情绪反馈。
决策模式差异：LLM惩罚频率显著高于人类，对轻微不公平（如16:14分配）表现出“阈值式”强烈反应，且成本敏感性远低于人类；人类则会平衡公平与成本，惩罚行为随不公平程度递增、随成本上升递减。
情绪的因果作用：明确要求LLM自我报告情绪会显著增加其惩罚行为，证实情绪对LLM决策的因果影响，而非单纯复刻训练数据模式。
模型类型差异：推理型模型（o3-mini、DeepSeek-R1）比基础模型（GPT-3.5、DeepSeek-V3）更接近人类行为，成本敏感性更高，但所有LLM均以情绪为主要决策驱动因素。
发展轨迹平行性：LLM的情绪决策能力呈现类似人类发展的轨迹——早期模型（如GPT-3.5）情绪响应弱且成本敏感性异常，后期模型逐渐向人类的“情绪-成本平衡”模式靠拢。

二、创新点

首次提供因果证据

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。