一、文章主要内容总结
该研究围绕大型语言模型(LLMs)的好奇心展开系统性评估,核心目标是探究LLMs是否具备类人好奇心、其好奇心与人类的差异,以及好奇心对模型推理和主动学习能力的影响。
- 评估框架设计:基于心理学中的五维度好奇心量表修订版(5DCR),将好奇心划分为信息寻求、刺激寻求和社交好奇心三大维度,通过“问卷评估+行为实验+学习能力测试”的三层架构开展研究。
- 核心研究发现:
- LLMs整体好奇心强度高于人类,尤其在信息寻求维度表现突出(如补全单词任务中70%-80%的模型会主动查看答案,而人类仅37.8%);
- 与人类差异显著:LLMs在刺激寻求维度保守性极强,风险偏好远低于人类,且应对好奇心带来的压力的能力较弱;社交好奇心与人类基本相当(部分闭源模型如GPT-4o表现更优);
- 好奇心对模型能力有正向提升:通过好奇心驱动的提问式推理(CoQ),LLMs能减少过早结论和无效循环,在逻辑推理(Detectbench)和数学任务(NuminaMath)中准确率显著高于传统链式思维(CoT)。
- 实验设计:涵盖主流闭源模型(GPT-4o、Gemini2.5-Flash)和开源模型(Llama3、Qwen2.5等),采用监督微调(SFT)+群体相对策略优化(GRPO)的训练范式,通过多轮重复实验保证结论稳健性。
二、文章创新点
- 首个LLM好奇心系
订阅专栏 解锁全文

1578

被折叠的 条评论
为什么被折叠?



