LEGALBENCH 论文核心总结与翻译
主要内容
LEGALBENCH 是一个协作构建的法律推理基准数据集,包含 162 个任务,覆盖六大类法律推理类型(问题识别、规则回忆、规则应用、规则结论、解释、修辞理解),由法律专业人士主导设计,确保任务贴近实际法律应用场景或具有学术研究价值。该基准通过跨学科协作构建,建立了法律专业框架与 LLM 评估任务的对应关系,为法律界和 LLM 开发者提供了通用交流词汇。论文还对 20 个开源和商业 LLM 进行了实证评估,探索了提示工程策略,验证了基准在法律推理评估中的有效性,同时指出了当前版本在长文档处理、多司法管辖区覆盖、多语言支持等方面的局限性。
创新点
- 首次构建了由法律专业人士深度参与的跨学科协作法律推理基准,任务设计贴合实际法律需求,而非单纯基于技术逻辑。
- 基于法律界熟悉的 IRAC 等框架,划分六大法律推理类型,建立了符合法律专业认知的评估体系,解决了现有基准与法律界对“法律推理”定义不一致的问题。
- 支持少样本提示评估范式,提供详细的任务文档和基准提示,降低了非法律背景研究者的使用门槛,同时支持进一步的研究扩展。
- 对多种规模和类型的 LLM 进行全面评估,揭示了不同模型在各类法律推理任务中的表现差异,为法律领域 LLM 选型和优化提供了实证依据。

订阅专栏 解锁全文

422

被折叠的 条评论
为什么被折叠?



