Human-Aligned Code Readability Assessment with Large Language Models

文章总结与翻译

一、主要内容

该研究聚焦于利用大型语言模型(LLMs)进行与人类判断一致的代码可读性评估,核心解决传统静态指标难以捕捉可读性主观性、上下文敏感性的问题,同时填补LLMs在该领域评估不足的空白。

核心研究框架

  1. 提出CoReEval基准:首个大规模LLM代码可读性评估基准,包含10个主流LLM、3种编程语言(Java、Python、CUDA)、2类代码(功能代码、单元测试)、4种提示策略(Zero-Shot、Few-Shot、Chain-of-Thought、Tree-of-Thought)、9种解码设置及面向初级/高级开发者的角色提示,累计140万+模型-代码片段-提示组合评估。
  2. 多维度评估体系:从数值一致性(MAE、Pearson相关系数、Spearman相关系数)和理由质量(情感倾向、维度覆盖、语义聚类)两方面,将LLM输出与人类标注、验证过的静态模型(Scalabrino模型)对比。
  3. 四大研究问题:探究LLM与人类判断的一致性、配置因素(角色、提示策略、解码参数、模型规模)对性能的影响、开发者引导提示的作用、LLM个性化评估的可行性。

关键发现

  1. LLM存在“乐观偏差”,对所有语言和代码类型的可读性评分普遍高于人类,但在Java中与人类判断的一致性中等,在Python和CUDA中一致性极低。
  2. 配置因素中,提示结构和模型规模
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值