文章主要内容与创新点总结
一、主要内容
本文针对恶意软件攻击的经济影响日益显著,而现有商业检测工具成本高、缺乏恶意软件与漏洞关联能力的问题,提出了一种基于大型语言模型(LLMs)与检索增强生成(RAG)的解决方案——MalCVE工具,专注于JAR文件的恶意软件检测及相关常见漏洞与暴露(CVEs)关联分析。
核心流程
- 预处理阶段:采用CFR和Procyon双开源反编译器对JAR文件进行反编译,搭配自定义反混淆工具处理字符串混淆,确保代码可理解性;
- 分析阶段:通过LLM对处理后的代码进行总结(含恶意性判定、行为描述等),生成针对性搜索查询,结合Milvus向量数据库进行语义相似度搜索,再利用BM25算法重排结果;
- 关联与输出阶段:LLM基于代码总结、重排后的CVEs列表及反混淆代码,实现恶意软件与CVEs的关联,最终将结果(含判定、查询、元数据等)保存至文件。
实验与结果
- 数据集:采用MalDICT数据集,选取3839个可反编译的JAR文件,聚焦3个含详细技术信息的CVEs(CVE-2012-4681、CVE-2013-0422、CVE-2013-1493)进行评估;
- 恶意软件检测(RQ1):在零样本提示下,所有LLM平均准确率达97%,单文件检测成本仅约0.03美元,为商业工具(如CrowdStrike Falcon)的1/66~1/80;<
订阅专栏 解锁全文

2917

被折叠的 条评论
为什么被折叠?



