文章核心总结与翻译
一、主要内容
本文针对传统深度伪造视频检测(DVD)方法存在的黑箱性、泛化能力不足等问题,提出了可解释性深度伪造视频检测(EDVD)任务及对应的EDVD-LLaMA多模态大语言模型推理框架。该框架通过以下核心组件实现精准检测与可解释推理:
- 时空细微信息标记化(ST-SIT):整合Deepfake Sniffing Encoder(DSEncoder)和SigLiP编码器,分别提取局部深度伪造特征与全局视频特征,经Compact Visual Connector(CVC)进行时空压缩融合,提供丰富的时空语义输入。
- 细粒度多模态思维链(Fg-MCoT):引入面部精细化指标(如关键点变化、模糊度、颜色分布等)作为结构化约束,减少大语言模型的幻觉输出,实现像素级时空定位与可追溯推理。
- 可解释推理数据集(ER-FF++set):基于现有深度伪造视频数据集,注入结构化面部数据与推理四元组(问题-视频-推理-答案),为模型提供检测与推理双监督。
- 实验验证:在ER-FF++set及跨数据集(WildDF、CelebDF)、跨伪造方法场景中,EDVD-LLaMA的检测准确率、可解释性和鲁棒性均显著优于传统方法与现有多模态大语言模型。
二、创新点
- 提出首个可解释多模态深度伪造视频检测推理框架EDVD-LLaMA,解决了传统方法的黑箱问题,同时提供精准检测结果与可追溯推理过程。
订阅专栏 解锁全文

269

被折叠的 条评论
为什么被折叠?



