Why Did Apple Fall To The Ground: Evaluating Curiosity In Large Language Model

一、文章主要内容总结

该研究围绕大型语言模型(LLMs)的好奇心展开系统性评估,核心目标是探究LLMs是否具备类人好奇心、其好奇心与人类的差异,以及好奇心对模型推理和主动学习能力的影响。

  1. 评估框架设计:基于心理学中的五维度好奇心量表修订版(5DCR),将好奇心划分为信息寻求、刺激寻求和社交好奇心三大维度,通过“问卷评估+行为实验+学习能力测试”的三层架构开展研究。
  2. 核心研究发现
    • LLMs整体好奇心强度高于人类,尤其在信息寻求维度表现突出(如补全单词任务中70%-80%的模型会主动查看答案,而人类仅37.8%);
    • 与人类差异显著:LLMs在刺激寻求维度保守性极强,风险偏好远低于人类,且应对好奇心带来的压力的能力较弱;社交好奇心与人类基本相当(部分闭源模型如GPT-4o表现更优);
    • 好奇心对模型能力有正向提升:通过好奇心驱动的提问式推理(CoQ),LLMs能减少过早结论和无效循环,在逻辑推理(Detectbench)和数学任务(NuminaMath)中准确率显著高于传统链式思维(CoT)。
  3. 实验设计:涵盖主流闭源模型(GPT-4o、Gemini2.5-Flash)和开源模型(Llama3、Qwen2.5等),采用监督微调(SFT)+群体相对策略优化(GRPO)的训练范式,通过多轮重复实验保证结论稳健性。

二、文章创新点

  1. 首个LLM好奇心系
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值