2025_NIPS_LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large La...

LEGALBENCH 论文核心总结与翻译

主要内容

LEGALBENCH 是一个协作构建的法律推理基准数据集,包含 162 个任务,覆盖六大类法律推理类型(问题识别、规则回忆、规则应用、规则结论、解释、修辞理解),由法律专业人士主导设计,确保任务贴近实际法律应用场景或具有学术研究价值。该基准通过跨学科协作构建,建立了法律专业框架与 LLM 评估任务的对应关系,为法律界和 LLM 开发者提供了通用交流词汇。论文还对 20 个开源和商业 LLM 进行了实证评估,探索了提示工程策略,验证了基准在法律推理评估中的有效性,同时指出了当前版本在长文档处理、多司法管辖区覆盖、多语言支持等方面的局限性。

创新点

  1. 首次构建了由法律专业人士深度参与的跨学科协作法律推理基准,任务设计贴合实际法律需求,而非单纯基于技术逻辑。
  2. 基于法律界熟悉的 IRAC 等框架,划分六大法律推理类型,建立了符合法律专业认知的评估体系,解决了现有基准与法律界对“法律推理”定义不一致的问题。
  3. 支持少样本提示评估范式,提供详细的任务文档和基准提示,降低了非法律背景研究者的使用门槛,同时支持进一步的研究扩展。
  4. 对多种规模和类型的 LLM 进行全面评估,揭示了不同模型在各类法律推理任务中的表现差异,为法律领域 LLM 选型和优化提供了实证依据。

翻译部分(Markdown 格式)

Abstract

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值