Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models?

原创于 2026-06-29 10:30:00 发布 · 5 阅读

·

0

·

标签

#语言模型 #人工智能 #机器学习

LLM Daily 专栏收录该内容

2892 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章主要内容总结

本文围绕“视觉接地是否能增强大型语言模型（LLMs）对具身知识的理解”这一核心问题展开研究，通过构建基于心理学感知理论的具身知识理解基准，对30个主流语言模型（包括纯文本模型和视觉-语言模型VLM）进行系统评估，主要内容如下：

基准构建：设计了两个核心任务——SensoryVec和PerceptualQA，覆盖视觉、听觉、触觉、味觉、嗅觉等外部感官及内感受，共包含超过1700个问题。其中，SensoryVec通过向量相似度评估模型对感官形容词的表征能力，PerceptualQA通过问答任务评估模型的感知推理能力（视觉模态进一步细分为颜色属性、自然颜色、几何变换等5个子任务）。
实验发现：
- 所有模型在具身知识理解上表现不佳，最优模型在两项任务中的准确率仅约70%，远低于人类基准（86%）；
- VLM并未优于对应的纯文本模型，视觉接地未带来显著性能提升，6组可比模型对的平均准确率提升仅2.32%；
- 所有模型在视觉模态任务（尤其是空间感知、几何推理、符号理解相关）上的表现显著差于其他感官模态，而人类在视觉与非视觉任务上的难度差异极小；
- 模型向量表征易受词形相似度和词频影响，难以区分具有感官对比的反义词，且在空间推理任务中存在系统性缺陷。
原因分析：VLM的训练依赖静态图文对，难以捕捉物理世界的具身经验；现有训练数据和任务未充分整合多模态感知信息，导致模型无法有效习得感官推理和空间认知能力。
<

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。