Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generatio...

最新推荐文章于 2026-06-24 21:41:43 发布

原创最新推荐文章于 2026-06-24 21:41:43 发布 · 10 阅读

·

0

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

2865 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章主要内容与创新点总结

一、主要内容

本文聚焦大型语言模型（LLMs）在唐诗这一古典中文诗歌生成与评估中的表现，通过设计“计算特征提取-LLM作为评判者评估-人类专家验证”三步评估框架，对6个主流开源指令调优LLM（DeepSeek-V2-Lite-Chat、Qwen2.5-7B-Instruct等）进行多维度分析。

1. 研究设计

生成任务：围绕诗歌格式（五/七言绝句/律诗）、诗人风格（李白、杜甫等5位）、主题（山水、思乡等5类）、情感（悲伤、豪放等5种）、意象（风、月等5类）5个维度，让每个模型生成2500首诗，总计1.5万首。
评估维度：从韵律格律、主题契合度、情感一致性、意象与结构、语言经典性5个核心维度展开评估。

2. 核心发现

生成能力差异：模型表现分为三个层级，Qwen在格式合规性和整体质量上最优，GLM和Mistral词汇多样性最高（高熵），Baichuan存在词汇重复和模板化生成问题（低熵）。
评估偏差显著：LLM作为评判者时存在“回音室效应”，模型间因训练数据重叠形成共识偏差，如集体忽视Gemma的韵律错误和跨语言侵入问题。
文化理解短板：所有模型均未能捕捉“柳-悲”这一核心诗歌象征关联，且难以真正区分不同诗人的风格特征。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。