一、文章主要内容总结
该研究聚焦于视频-大型语言模型(Video-LLMs)在时间动态理解上的核心缺陷,提出了名为STAVEQ2的新型架构,核心是在视觉编码器中嵌入堆叠时间注意力(Stacked Temporal Attention, STA)模块,以增强模型对视频帧间动作序列和时间演进关系的捕捉能力。
1. 核心问题
现有Video-LLMs(如Qwen2-VL、InternVideo2-Chat)在处理依赖时间推理的任务时存在显著局限:
- 难以区分时间维度上细微差异的动作(如“从左向右拉”与“从右向左拉”);
- 依赖单帧信息即可完成简单任务,但无法建模帧间动态关联;
- 即使通过上下文学习或微调,仍难以解决时间维度的核心推理问题,本质是架构缺乏专门的时间建模模块。
2. 研究方法
- 数据集构建:基于Something-Something v2(SSv2)数据集,构建了时间挑战性子集SSv2-T10(10类成对相反动作)和视觉相似度匹配子集SSv2-VSM,用于评估时间推理和特征表示能力。
- 模型架构:在Qwen2-VL的视觉编码器中,于空间注意力模块后添加堆叠时间注意力模块,通过1D旋转位置编码(RoPE)捕捉时间结构,且采用参数高效设计(注意力头数量仅为空间注意力的1/4)。
- 训练策略:两阶段训练,第一阶段冻结预训练参数,仅训练时间注意力模块;第二阶段

订阅专栏 解锁全文

422

被折叠的 条评论
为什么被折叠?



