2025_NIPS_Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vi...

最新推荐文章于 2026-06-25 20:29:15 发布

原创最新推荐文章于 2026-06-25 20:29:15 发布 · 33 阅读

·

0

·

标签

#人工智能 #语言模型

LLM Daily 同时被 2 个专栏收录

2865 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

919 篇文章

订阅专栏

一、文章主要内容总结

该研究聚焦于视频-大型语言模型（Video-LLMs）在时间动态理解上的核心缺陷，提出了名为STAVEQ2的新型架构，核心是在视觉编码器中嵌入堆叠时间注意力（Stacked Temporal Attention, STA）模块，以增强模型对视频帧间动作序列和时间演进关系的捕捉能力。

1. 核心问题

现有Video-LLMs（如Qwen2-VL、InternVideo2-Chat）在处理依赖时间推理的任务时存在显著局限：

难以区分时间维度上细微差异的动作（如“从左向右拉”与“从右向左拉”）；
依赖单帧信息即可完成简单任务，但无法建模帧间动态关联；
即使通过上下文学习或微调，仍难以解决时间维度的核心推理问题，本质是架构缺乏专门的时间建模模块。

2. 研究方法

数据集构建：基于Something-Something v2（SSv2）数据集，构建了时间挑战性子集SSv2-T10（10类成对相反动作）和视觉相似度匹配子集SSv2-VSM，用于评估时间推理和特征表示能力。
模型架构：在Qwen2-VL的视觉编码器中，于空间注意力模块后添加堆叠时间注意力模块，通过1D旋转位置编码（RoPE）捕捉时间结构，且采用参数高效设计（注意力头数量仅为空间注意力的1/4）。
训练策略：两阶段训练，第一阶段冻结预训练参数，仅训练时间注意力模块；第二阶段

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。