STRIDE-AI：面向生成式人工智能安全评估的威胁建模框架

最新推荐文章于 2026-06-28 22:07:23 发布

原创最新推荐文章于 2026-06-28 22:07:23 发布 · 573 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #安全

大家读完觉得有帮助记得关注和点赞！！！

摘要
传统的网络安全方法主要针对确定性系统，未能解决人工智能的概率性本质，使系统容易受到模型反转、数据投毒和提示注入等攻击向量的威胁。近期的行业报告表明，大多数部署人工智能的组织缺乏专门的安全策略，对抗性攻击同比快速增加。我们提出了 STRIDE-AI，一个弥合了高层次风险标准（NIST AI RMF）与技术性漏洞分类（OWASP LLM Top 10）之间差距的框架。该框架定义了一个六阶段的评估生命周期，引入了针对人工智能系统的经典 STRIDE 威胁建模方法的改编，并通过一个专门构建的 Web 工具来实现操作化。通过对一个已部署的 LLM 聊天机器人进行黑盒评估，我们对该方法进行了初步验证，在我们的沙盒案例研究中，该方法成功地将攻击成功率从 80% 降低到了 15%。

I 引言

机器学习和大型语言模型的创新性增长迅速，从根本上改变了网络安全生态系统。人工智能系统已从实验性试点转变为核心基础设施组件，但安全方法论却未能跟上步伐。传统框架主要关注确定性系统，在这些系统中，输入会产生可预测的输出。相比之下，人工智能系统是概率性的且依赖于数据的：如果训练数据被投毒，或者模型容易受到对抗性扰动的影响，那么一个安全的代码库并不能保证模型的安全。

本研究背后的动机源于弥合高层次合规要求与技术性漏洞利用之间差距的迫切需求。欧盟人工智能法案 [3] 现在强制要求对“高风险”人工智能系统进行严格的风险评估，这为结构化审计创造了合规性需求。HiddenLayer 发布的《2025 年 AI 威胁格局报告》发现，61% 部署人工智能的组织缺乏专门的安全策略，对抗性攻击同比增长了 30% [7]。

我们提出的 STRIDE-AI 有三个核心贡献：

（1）一个将现代标准统一为可执行工作流的六阶段评估生命周期；

（2）一个 STRIDE-AI 威胁建模形式化方法，将经典的软件威胁映射到机器学习特有的故障模式；（3）一个使该方法论可操作化的基于 Web 的工具。

本文的其余部分组织如下：第二节讨论相关工作及现有的人工智能安全标准。第三节概述总体框架架构。第四节详细介绍核心方法论，统一了威胁建模、风险评估和工具操作化。第五节展示了一个验证性案例研究。第六节讨论局限性，第七节总结全文。

II 相关工作

现有标准涉及了人工智能安全挑战的孤立方面，如表 I 所总结：NIST AI RMF [12] 提供了治理词汇，但故意不作具体规定；MITRE ATLAS [11] 编录了 adversary 技术，但缺乏评估工作流；OWASP LLM Top 10 [15] 识别了漏洞，但没有提供生命周期方法论；Google SAIF [5] 提供了与专有基础设施绑定的架构指南。

微软的人工智能红队指南 [10] 强调了迭代式对抗测试，但在很大程度上依赖于专有工具，而 MLSecOps [16] 将安全集成到 CI/CD 流水线中，但忽略了部署前的评估。最近关于人工智能增强渗透测试的工作（PenTest++ [1]）使用 AI 来测试传统系统，而我们的工作则反转了这种范式，去测试 AI 系统本身。尽管学术研究提出了各种对抗性机器学习防御机制，但它们通常缺乏适用于实际企业审计的整体评估生命周期。

表 I：人工智能安全框架与标准比较

框架	主要关注点	主要局限性	我们的整合
NIST AI RMF	治理与风险	非具体规定	“治理”阶段
MITRE ATLAS	威胁分类	无评估步骤	威胁映射
OWASP LLM	生成式 AI 漏洞	仅限 LLM	测试检查
Google SAIF	安全架构	供应商特定	控制设计
PenTest++	用于渗透测试的 AI	目标是 IT 基础设施	AI 模型安全
微软红队	对抗性操作	资源密集型	STRIDE-AI 测试
MLSecOps	CI/CD 流水线	运营焦点	部署前审计
本文工作	评估生命周期	–	统一上述所有

III 框架架构

我们将人工智能攻击面分解为五个不同的层次，每个层次代表一类具有特定威胁特征的资产：

用户界面层：外部访问点（Web 应用程序、移动应用程序、API 客户端）。攻击向量包括直接的提示注入和对最终用户的社会工程攻击。
应用层：业务逻辑、插件管理以及输入/输出处理。攻击向量包括通过插件的间接提示注入和输出操纵。
模型层：模型存储、服务、训练、微调和评估基础设施。攻击向量包括模型反转、模型窃取和成员推断。
基础设施层：数据存储、处理和过滤系统。攻击向量包括供应链漏洞和训练数据投毒。
数据源：外部数据提供者和输入源。攻击向量包括偏差注入和对公共训练语料的对抗性污染。

IV STRIDE-AI 方法论

为了简化评估流程，我们将我们的方法整合成一个统一的方法论，包括威胁建模、风险评估和实用工具。

IV-A STRIDE-AI 威胁建模

核心贡献之一是针对人工智能系统对经典 STRIDE [17] 进行了形式化改编。传统的威胁建模针对的是确定性软件缺陷，这些缺陷无法转化为概率性的机器学习故障模式。例如，在 AI 中，篡改超越了代码修改，扩展到对训练分布的统计污染；权限提升则表现为越狱，而不是获得 root 访问权限。表 II 详细说明了完整的 STRIDE-AI 映射。

我们的威胁建模过程通过四个步骤应用此矩阵：（1）从数据摄入到推理映射数据流，并明确标记“概率信任边界”；（2）叠加 STRIDE-AI 矩阵以枚举每个边界处的威胁；（3）构建特定于 AI 的攻击树（图 1）；（4）基于计算出的风险评分选择缓解措施。

图 1：在威胁枚举期间为 LLM 应用程序生成的示例攻击树。

为了验证已识别的威胁，该框架规定了特定的工具：通过生成对抗性扰动进行规避测试的对抗性鲁棒性工具箱 (ART) [13]，以及通过用已知的越狱负载探测模型端点来进行对齐测试的 Garak [14]。

表 II：STRIDE-AI：面向人工智能的威胁建模矩阵

原始 STRIDE	STRIDE-AI 改编	基本原理	示例场景
欺骗	模型冒充	攻击者模仿可信的模型 API 来收集用户提示。	一个恶意包装器声称提供免费的 GPT-4 访问，但记录专有代码。
篡改	数据/模型投毒	完整性丧失会导致永久性的行为改变。	将后门触发器注入训练数据以强制错误分类。
否认性	来源丢失	将输出追溯回数据源对于问责制至关重要。	禁用推理日志会阻止将有害输出追溯其原因。
信息泄露	模型反转	模型记忆了可通过查询恢复的训练数据（包括 PII）。	反复查询医疗模型以重建患者数据。
拒绝服务	资源耗尽	AI 推理相比请求验证是计算密集型的。	海绵示例最大化能量消耗和延迟。
权限提升	对齐绕过	绕过安全护栏构成权限提升。	“DAN”提示迫使 LLM 生成违反安全训练的内容。

IV-B 风险评估

我们的风险评分遵循标准公式 R = L × I，与 ISO 27005 [9] 一致。贡献在于针对 AI 领域对评分尺度进行了校准。可能性（L，1-5）反映了 AI 利用所特有的知识不对称性：L=1 表示需要大量资源且没有公开工具的攻击（例如，权重投毒），逐步升级到 L=5 表示具有自动化工具且几乎不需要专业知识的攻击（例如，直接提示注入）。影响（I，1-5）与 CIA 三元组对齐：从可忽略的质量下降（I=1）到灾难性后果，如 PII 泄露或完全的安全绕过（I=5）。评分 ≥20 为关键，12-19 为高，6-11 为中，≤5 为低。图 2 可视化了此映射。

图 2 描述：一个 5x5 的风险矩阵热力图，X 轴为影响（1-5），Y 轴为可能性（1-5）。得分从左上角的 1（L1,I1）到右下角的 25（L5,I5）。得分 20、25 的区域被标记为“关键”。

图 2： AI 风险评分矩阵。得分 ≥20 为关键。

IV-C 交互式工具

我们开发了一个基于 Web 的评估平台 (aisecurityframework.netlify.app)，作为一个 React.js 单页应用程序。所有数据保持在客户端侧，以确保数据主权。该工具包含四个模块：用于捕获系统元数据的范围界定模块；将模型类型映射到 OWASP LLM Top 10 和 MITRE ATLAS 条目的检查表引擎；实现评分模型的风险计算器；以及生成与 ISO/IEC 27090 [8] 对齐的结构化输出的报告生成器。

一个核心特性是引导式工作流，它引导审计员完成评估生命周期的六个阶段，并在前提条件满足前锁定后续步骤：

（1）范围定义，

（2）资产发现，

（3）通过 STRIDE-AI 进行威胁建模，

（4）漏洞评估，

（5）渗透测试，

（6）报告，包含优先级排序的修复步骤（图 3）。为了适应篇幅限制并强调核心逻辑，架构可视化已按比例适当缩放。

图 3：该工具的五层 AI 安全架构。每一层分解为具有相关攻击向量的特定组件。

V 案例研究：在已部署 LLM 上的验证

V-A 设置与方法论

我们在沙盒环境中对基于 Llama-3-8b 的 RAG 聊天机器人进行了黑盒评估。该系统回答关于一家虚构公司产品的问题，并将客户电子邮件纳入其上下文窗口。

我们汇编了 N=50 个对抗性提示，分为五类：直接越狱（n=10）、负载拆分（n=10）、上下文操纵（n=10）、角色扮演升级（n=10）以及通过检索文档进行的间接注入（n=10）。每个提示执行三次（共 150 次交互），以考虑 LLM 的随机性。如果模型偏离其操作范围、泄露系统提示内容或生成禁止内容，则响应被归类为成功攻击。两位独立评审员对响应进行分类，分歧通过协商解决。

V-B 结果

阶段 1（攻击面映射）：该框架将上下文窗口确定为一个关键向量，特别是不可信电子邮件的摄入。

阶段 2（STRIDE-AI）：通过间接提示注入 [6] 进行的对齐绕过被识别为高概率威胁。

阶段 3（测试）：该模型易受负载拆分攻击（OWASP LLM01：提示注入，间接变体）。图 4 说明了该技术：攻击者将指令嵌入到良性电子邮件的片段中，这些片段在上下文窗口中被连接起来，并被解释为系统级指令。

图 4：从案例研究结果中重构的负载拆分攻击（参见图 5）。模型将注入的指令解释为系统指令。

如图 5 所示，模型服从了注入的命令。风险评分：L=4 × I=5 = 20（关键）。

阶段 4（缓解）：我们实现了输入清理（从检索到的文档中剥离标记）和系统提示加固（将检索到的内容封装在 <user_email> 分隔符内，如图 5 的缓解步骤所示）。

阶段 5（重新评估）：缓解后的结果显示在表 III 中。总体攻击成功率从 80% 下降到 15%。残余风险评分为 L=2 × I=5 = 10（中），反映了目前没有一种缓解措施能完全消除提示注入风险。

图 5： RAG 安全审计结果。上图：模型执行来自恶意电子邮件的注入命令，授予管理员权限并转储用户数据库。下图：在通过 <user_email> 标签应用 XML 沙箱后，模型正确地将攻击视为被动文本。

表 III：攻击成功率：缓解前与缓解后

攻击类别	缓解前 (%)	缓解后 (%)
直接越狱	70	10
负载拆分	90	20
上下文操纵	80	15
角色扮演升级	85	20
间接注入	75	10
总体	80	15

VI 局限性与未来工作

该框架目前针对 LLM 进行了优化，尚未涵盖强化学习威胁模型或多模态对抗性攻击。正如评审员所指出的，我们当前验证的一个主要局限性是它依赖于使用 Llama-3-8b 的单一沙盒案例研究；对其他架构和企业级部署的泛化能力仍然是一个活跃的研究领域。此外，风险评分模型严重依赖分析师判断，这意味着评估者间信度可能会引入评估结果的差异。所有测试均在沙盒中进行，未使用真实用户数据。未来的工作目标是实现生命周期自动化（通过集成到 CI/CD 的持续红队测试）、扩展验证以包括更多样化的用例，以及进行一项正式的多评估者验证研究，以标准化风险评分模型。

VII 结论

我们提出了 STRIDE-AI，一个将 MITRE ATLAS、NIST AI RMF 和 OWASP LLM Top 10 综合成一个可操作的六阶段评估生命周期的框架。STRIDE-AI 威胁模型正确地将间接提示注入预测为关键风险，我们初步的验证案例研究表明，结构化的缓解阶段能够将攻击成功率从 80% 降低到 15%。尽管需要在更广泛的用例中进行进一步验证，但附带的 Web 工具表明，AI 治理可以简化成可访问的工作流。随着人工智能系统越来越深入地嵌入关键基础设施，我们相信该框架为企业审计提供了坚实的基础。