Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generatio...

文章主要内容与创新点总结

一、主要内容

本文聚焦大型语言模型(LLMs)在唐诗这一古典中文诗歌生成与评估中的表现,通过设计“计算特征提取-LLM作为评判者评估-人类专家验证”三步评估框架,对6个主流开源指令调优LLM(DeepSeek-V2-Lite-Chat、Qwen2.5-7B-Instruct等)进行多维度分析。

1. 研究设计

  • 生成任务:围绕诗歌格式(五/七言绝句/律诗)、诗人风格(李白、杜甫等5位)、主题(山水、思乡等5类)、情感(悲伤、豪放等5种)、意象(风、月等5类)5个维度,让每个模型生成2500首诗,总计1.5万首。
  • 评估维度:从韵律格律、主题契合度、情感一致性、意象与结构、语言经典性5个核心维度展开评估。

2. 核心发现

  • 生成能力差异:模型表现分为三个层级,Qwen在格式合规性和整体质量上最优,GLM和Mistral词汇多样性最高(高熵),Baichuan存在词汇重复和模板化生成问题(低熵)。
  • 评估偏差显著:LLM作为评判者时存在“回音室效应”,模型间因训练数据重叠形成共识偏差,如集体忽视Gemma的韵律错误和跨语言侵入问题。
  • 文化理解短板:所有模型均未能捕捉“柳-悲”这一核心诗歌象征关联,且难以真正区分不同诗人的风格特征。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值