文章主要内容与创新点总结
一、主要内容
本文聚焦大型语言模型(LLMs)在唐诗这一古典中文诗歌生成与评估中的表现,通过设计“计算特征提取-LLM作为评判者评估-人类专家验证”三步评估框架,对6个主流开源指令调优LLM(DeepSeek-V2-Lite-Chat、Qwen2.5-7B-Instruct等)进行多维度分析。
1. 研究设计
- 生成任务:围绕诗歌格式(五/七言绝句/律诗)、诗人风格(李白、杜甫等5位)、主题(山水、思乡等5类)、情感(悲伤、豪放等5种)、意象(风、月等5类)5个维度,让每个模型生成2500首诗,总计1.5万首。
- 评估维度:从韵律格律、主题契合度、情感一致性、意象与结构、语言经典性5个核心维度展开评估。
2. 核心发现
- 生成能力差异:模型表现分为三个层级,Qwen在格式合规性和整体质量上最优,GLM和Mistral词汇多样性最高(高熵),Baichuan存在词汇重复和模板化生成问题(低熵)。
- 评估偏差显著:LLM作为评判者时存在“回音室效应”,模型间因训练数据重叠形成共识偏差,如集体忽视Gemma的韵律错误和跨语言侵入问题。
- 文化理解短板:所有模型均未能捕捉“柳-悲”这一核心诗歌象征关联,且难以真正区分不同诗人的风格特征。
订阅专栏 解锁全文

3357

被折叠的 条评论
为什么被折叠?



