文章总结与翻译
一、主要内容
该研究聚焦于利用大型语言模型(LLMs)进行与人类判断一致的代码可读性评估,核心解决传统静态指标难以捕捉可读性主观性、上下文敏感性的问题,同时填补LLMs在该领域评估不足的空白。
核心研究框架
- 提出CoReEval基准:首个大规模LLM代码可读性评估基准,包含10个主流LLM、3种编程语言(Java、Python、CUDA)、2类代码(功能代码、单元测试)、4种提示策略(Zero-Shot、Few-Shot、Chain-of-Thought、Tree-of-Thought)、9种解码设置及面向初级/高级开发者的角色提示,累计140万+模型-代码片段-提示组合评估。
- 多维度评估体系:从数值一致性(MAE、Pearson相关系数、Spearman相关系数)和理由质量(情感倾向、维度覆盖、语义聚类)两方面,将LLM输出与人类标注、验证过的静态模型(Scalabrino模型)对比。
- 四大研究问题:探究LLM与人类判断的一致性、配置因素(角色、提示策略、解码参数、模型规模)对性能的影响、开发者引导提示的作用、LLM个性化评估的可行性。
关键发现
- LLM存在“乐观偏差”,对所有语言和代码类型的可读性评分普遍高于人类,但在Java中与人类判断的一致性中等,在Python和CUDA中一致性极低。
- 配置因素中,提示结构和模型规模
订阅专栏 解锁全文

649

被折叠的 条评论
为什么被折叠?



