VulTrLM：基于 AST 解构与注释增强的大模型辅助漏洞检测框架

最新推荐文章于 2026-06-17 21:24:08 发布

原创最新推荐文章于 2026-06-17 21:24:08 发布 · 730 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#深度学习 #网络安全 #安全 #人工智能

话题

#领算力，参加 2026 AMD AI 开发者征文挑战赛

漏洞检测同时被 2 个专栏收录

30 篇文章

订阅专栏

静态检测

20 篇文章

订阅专栏

“ 近年来，大语言模型（LLM）在代码理解与生成任务中展现出强大能力，逐渐被引入到代码漏洞检测领域。然而，直接将完整函数输入 LLM 进行判断，往往面临两大现实问题：函数体过长，超过上下文窗口限制、结构与语义信息混杂，关键信息被“淹没”。

为解决上述问题，研究者提出VulTrLM，一种通过 AST 解构与语义注释增强，显式引导 LLM 关注漏洞关键语义的检测框架。”

📄 论文标题：VulTrLM: LLM-assisted Vulnerability Detection via AST Decomposition and Comment Enhancement

📅 发表时间：Empirical Software Engineering, 2025

🏫 作者单位：湖南科技大学、湖南大学等

💡开源代码：即将发布在Zenodo

01—方法介绍

图1所示是针对CVE-2020-36138的FFmpeg代码示例，揭示了FFmpeg项目中decode_frame()函数存在的空指针解引用漏洞。该案例研究揭示了预训练模型的两大关键缺陷：

（1）预训练模型可能无法推断出具有复杂逻辑的语句的语义。第 3–4 行定义了 has_tile_bits 和 has_strip_bits，二者本应互斥，同时为真会直接退出。但模型若只关注局部语法，可能无法理解这一语义约束。类似地，第8行看似常规安全检查，模型可能忽略在tiled为真时仍需校验strip字段，导致不安全的 strip 数据绕过检查，形成漏洞。

（2）预训练模型可能难以理解执行路径。大量使用 if 与直接 return（如第 10、14、18 行）会引入漏洞风险，因为部分 return 只有在多个条件同时满足时才会触发。若不能准确建模这些执行路径，预训练模型很难预测潜在漏洞。

图 1. 针对CVE-2020-36138的FFmpeg代码示例

VulTrLM 的核心思想并非“让 LLM 读更多代码”，而是：“把代码拆清楚，再讲明白。”整体流程由三个关键步骤组成：

① AST 解构

将函数拆分为多个语义清晰的 AST 子结构，降低单次输入复杂度。

② 注释增强

为 AST 节点生成自然语言注释，显式描述其语义与潜在风险。

③ LLM 漏洞判断

将“结构化代码 + 语义注释”输入 LLM，完成漏洞预测。

图 2. ZSVulD整体流程

图 3. 展示了对一段代码片段应用AST（抽象语法树）分解的结果

小结：VulTrLM 将 LLM 从“被动阅读者”转变为“被引导的分析者”。

02—关键机制

AST 级别的上下文拆解，缓解 LLM 上下文窗口受限问题。
注释驱动的语义显式化，降低 LLM 对隐式语义推理的负担。
无需模型微调，以 Prompt 方式即可适配不同 LLM。
兼顾可解释性，每一步判断都可追溯到具体 AST 结构。

模块	实现方式	主要作用
AST 解构模块	基于语法树拆分函数结构	降低上下文复杂度，突出关键逻辑
语义注释增强	为代码结构生成自然语言描述	显式提示潜在漏洞语义
LLM 推理模块	基于 Prompt 的漏洞判断	提升对复杂漏洞模式的理解能力
结果聚合	整合子结构预测结果	获得函数级漏洞判断

小结：结构化拆分 + 自然语言增强，是 VulTrLM 性能提升的关键。

03—实验结果

实验在主流漏洞数据集Devign、Reveal和SVulD（Distinguishing look-alike innocent and vulnerable code by subtle semanticrepresentation learning and explanation）上验证了提出方法的有效性，主要实验结果如下。

（1）实验评估了VulTrLM与现有非大型语言模型（LLM）漏洞检测基线评估结果的比较，结果如表1所示。

表1.与现有非LLM漏洞检测基线评估结果的比较