2025_NIPS_Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language...

最新推荐文章于 2026-06-25 20:29:15 发布

原创最新推荐文章于 2026-06-25 20:29:15 发布 · 13 阅读

·

0

·

标签

#人工智能

LLM Daily 同时被 2 个专栏收录

2867 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

919 篇文章

订阅专栏

文章总结与翻译

一、主要内容

本文聚焦大语言模型（LLMs）代码生成的功能正确性评估问题，指出现有编程基准测试（如HUMANEVAL）存在测试用例数量不足、质量不高、问题描述模糊等缺陷，导致无法准确反映LLM生成代码的真实正确性。为此，作者提出了代码合成评估框架EvalPlus，通过LLM辅助和基于变异的自动测试输入生成策略，为现有基准测试扩充大量高质量测试用例。

基于EvalPlus，作者将HUMANEVAL基准的测试用例扩充80倍，构建了HUMANEVAL+，并进一步通过测试套件缩减得到HUMANEVAL±MINI（规模缩小47倍但保持相近测试效果）。对26个主流LLM（包括GPT-4、ChatGPT等）的评估显示，HUMANEVAL+能检测出大量原有基准未发现的错误代码，使模型的pass@k值最高下降19.3%-28.9%，还修正了模型排名（如WizardCoder-CodeLlama和Phind-CodeLlama在HUMANEVAL+上超越ChatGPT，而在原HUMANEVAL中未体现）。此外，研究还发现原HUMANEVAL中11%的基准解决方案存在错误。

二、创新点

首次系统研究测试不足问题：明确现有代码生成基准的测试用例数量少、覆盖不全面等缺陷，揭示其导致LLM代码正确性被高估的核心问题，开辟了精准评估LLM代码合成能力的新研究方向。
提出混合式测试输入生成方法：结合LLM（ChatGPT）生成高质量种子输入和类型感知变异策略，高效扩充测试用例，既保证测试的语义有效性（解决

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。