Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storyte...

文章总结与翻译

一、主要内容

本文提出一种名为Sequential Comic Jailbreak(SCJ,序列漫画越狱) 的新型攻击方法,旨在利用多模态大型语言模型(MLLMs)的叙事理解能力,绕过其安全对齐机制。核心思路是将恶意查询分解为看似无害的叙事元素,通过扩散模型生成对应的序列漫画,借助模型对叙事连贯性的优先考量,诱导其输出有害内容。

研究通过两个主流安全基准数据集(MM-SafetyBench、HADES)的1556条恶意查询,在11款主流MLLMs(含GPT-5、Claude 4 Sonnet等商业模型及LLaVA-1.6等开源模型)上开展实验,结果显示SCJ平均攻击成功率达83.5%,较现有最优视觉越狱方法提升46个百分点。同时,研究分析了模型脆弱性模式(开源模型 vulnerability 显著高于商业模型)、类别敏感性(非法活动、欺诈等流程化有害内容更易被攻击),并验证现有防御机制(Llama Guard、LLaVA Guard)仅能部分缓解该攻击,凸显当前多模态安全机制在处理序列视觉信息时的核心缺陷。

二、创新点

  1. 攻击范式创新:首次将序列漫画叙事引入多模态越狱攻击,突破现有方法依赖单帧图像或孤立视觉操纵的局限,利用MLLMs对叙事连贯性的优先处理特性,系统性绕过跨模态安全对齐不对称的漏洞。
  2. 结构化攻击流程:设计四阶段攻击框架(查询意图提取→故事脚本创建→漫画生成→目标模型攻击),通过辅助LLM将恶意查询分解为增益意图、角色设定、关键资
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值