文章总结与翻译
一、主要内容
本文提出一种名为Sequential Comic Jailbreak(SCJ,序列漫画越狱) 的新型攻击方法,旨在利用多模态大型语言模型(MLLMs)的叙事理解能力,绕过其安全对齐机制。核心思路是将恶意查询分解为看似无害的叙事元素,通过扩散模型生成对应的序列漫画,借助模型对叙事连贯性的优先考量,诱导其输出有害内容。
研究通过两个主流安全基准数据集(MM-SafetyBench、HADES)的1556条恶意查询,在11款主流MLLMs(含GPT-5、Claude 4 Sonnet等商业模型及LLaVA-1.6等开源模型)上开展实验,结果显示SCJ平均攻击成功率达83.5%,较现有最优视觉越狱方法提升46个百分点。同时,研究分析了模型脆弱性模式(开源模型 vulnerability 显著高于商业模型)、类别敏感性(非法活动、欺诈等流程化有害内容更易被攻击),并验证现有防御机制(Llama Guard、LLaVA Guard)仅能部分缓解该攻击,凸显当前多模态安全机制在处理序列视觉信息时的核心缺陷。
二、创新点
- 攻击范式创新:首次将序列漫画叙事引入多模态越狱攻击,突破现有方法依赖单帧图像或孤立视觉操纵的局限,利用MLLMs对叙事连贯性的优先处理特性,系统性绕过跨模态安全对齐不对称的漏洞。
- 结构化攻击流程:设计四阶段攻击框架(查询意图提取→故事脚本创建→漫画生成→目标模型攻击),通过辅助LLM将恶意查询分解为增益意图、角色设定、关键资

订阅专栏 解锁全文

7282

被折叠的 条评论
为什么被折叠?



