2025_NIPS_Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vi...

一、文章主要内容总结

该研究聚焦于视频-大型语言模型(Video-LLMs)在时间动态理解上的核心缺陷,提出了名为STAVEQ2的新型架构,核心是在视觉编码器中嵌入堆叠时间注意力(Stacked Temporal Attention, STA)模块,以增强模型对视频帧间动作序列和时间演进关系的捕捉能力。

1. 核心问题

现有Video-LLMs(如Qwen2-VL、InternVideo2-Chat)在处理依赖时间推理的任务时存在显著局限:

  • 难以区分时间维度上细微差异的动作(如“从左向右拉”与“从右向左拉”);
  • 依赖单帧信息即可完成简单任务,但无法建模帧间动态关联;
  • 即使通过上下文学习或微调,仍难以解决时间维度的核心推理问题,本质是架构缺乏专门的时间建模模块。
2. 研究方法
  • 数据集构建:基于Something-Something v2(SSv2)数据集,构建了时间挑战性子集SSv2-T10(10类成对相反动作)和视觉相似度匹配子集SSv2-VSM,用于评估时间推理和特征表示能力。
  • 模型架构:在Qwen2-VL的视觉编码器中,于空间注意力模块后添加堆叠时间注意力模块,通过1D旋转位置编码(RoPE)捕捉时间结构,且采用参数高效设计(注意力头数量仅为空间注意力的1/4)。
  • 训练策略:两阶段训练,第一阶段冻结预训练参数,仅训练时间注意力模块;第二阶段
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值