文章核心总结与创新点
主要内容
本文聚焦大规模代码克隆检测的LLM选型与集成优化,通过筛选76个LLM得到9个候选模型,在3个公开数据集(Company-C、Company-C++、BCB13)和1个工业私有数据集(In-Situ-C-C++)上开展实验。核心研究了三个问题:新型LLM在可扩展代码克隆检测中的有效性、LLM特性对检测性能的影响、LLM集成方法的效果。结果表明,CodeT5+110M、CuBERT和SPTCode是表现最优的单模型;模型性能受训练数据、嵌入尺寸等特性显著影响;合理的集成策略(如min-max归一化+求和/最大值聚合)在大规模数据集上能显著提升性能,最高精度达46.91%。
创新点
- 系统筛选并评估了9个适用于大规模代码克隆检测的LLM,提出基于波达计数法的模型综合排序方法,识别出稳定最优模型CuBERT和实用高性能模型CodeT5+110M。
- 揭示了LLM关键特性对检测性能的影响规律:较小的嵌入尺寸和分词器词汇量、非CodeSearchNet训练数据集更利于提升召回率,模型参数规模与性能无显著关联。
- 提出有效的LLM集成框架,验证了归一化(min-max、z-score、RRF)和聚合(求和、最大值)策略的重要性,证明集成在大规模数据集和工业场景中能带来统计显著的性能提升。
- 通过工业级私有数据集验证,展示了LLM及集成方法在真实场景中的实用性,弥补了公开基准与实际应用的性能差距。
订阅专栏 解锁全文

2786

被折叠的 条评论
为什么被折叠?



