LLM 中评价指标与训练概要介绍

最新推荐文章于 2026-06-17 20:30:00 发布

原创

最新推荐文章于 2026-06-17 20:30:00 发布 · 1k 阅读

标签

#自动驾驶 #算法

收录于

在【LLM】LLM 中增量解码与模型推理解读一文中对 LLM 常见名词进行了介绍，本文会对 LLM 中评价指标与训练概要进行介绍，本文并未介绍训练实操细节，未来有机会再了解～

一、LLM 如何停止输出

在看 LLM 评价指标前，先看看 LLM 如何停止输出。

大模型常通过以下几种策略控制生成终止：

结束符号（EOS Token）

模型生成特殊终止符（如 DeepSeek R1 MoE 中 ID 为 1 的 token）表示回答完成。

...在物理学领域做出了革命性贡献。[EOS]

最大长度限制预设生成 token 上限（常见值：512/1024/2048），防止无限生成，保障系统资源安全。
停止词 / 序列触发设置 “\n\n”“###” 等符号为停止信号，强制结束生成（适用于格式控制）。
内容智能判断
1. 重复检测：识别循环或冗余内容时自动终止。
2. 语义完整性：当回答覆盖查询所有维度（如时间、影响）时停止。

停止机制建议组合使用（如 EOS + 最大长度），确保生成既完整又可控。

综合来看，Decode 阶段的循环机制是大模型实现长文本生成的核心：

效率优化：通过 KV 缓存复用大幅降低计算成本；
可控生成：多维度停止策略平衡输出质量与资源消耗；
语义连贯：自回归模式确保上下文逻辑衔接紧密。

二、LLM 评价指标

常见 LLM 评价指标如下：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

地平线开发者

关注关注

18
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

LLM:评估指标

clanguagnew的博客

03-18

1、BLEU指标：评估一种语言翻译成另一种语言质量的指标，他的质量好坏定义为与人类翻译的一致性程度，取值[0,1]越接近1越好。概率值：给测试集赋予更高概率的语言模型更好，因为在测试集中句子都是正常句子的情况下，模型训练完之后，在测试集上概率越高越好。他是用来度量一个概率分布或者概率模型预测样本的好坏程度。他是评判覆盖率，只有出现与原句子不同的词才是错误的。句子概率越高，模型越好，迷惑度越小。

参与评论您还未登录，请先登录后发表或查看评论

LLM的评价指标

samoyan的博客,记录技术成长~

12-29

3484

模型的准确性是通过比较模型的预测结果和实际结果来衡量的，通常使用精确度（precision）、召回率（recall）、F1分数等指标。SuperGLUE是继GLUE之后的一个更为复杂和挑战性的基准测试，它引入了更难的任务和更复杂的数据集，用以推动语言理解模型的发展。泛化能力是衡量模型在未见数据上表现的能力。评价一个模型的可解释性涉及到理解模型的决策是如何做出的，以及模型的预测是否为人类所能理解和接受。最后，大型语言模型的评价还应包括其伦理和社会影响，如模型的使用是否可能造成社会分裂、增加误导信息的传播等。

大语言模型（LLM）评价指标小汇总

Gaga246的博客

08-07

2202

总之就是接了个小项目，这些天统计了一些LLM评价指标，不算很全面，很多方法的具体操作都不是很熟悉，参考论文也没找全，大家就凑合着看：

大型语言模型（LLM）的评价

mayaohao的博客

08-24

1253

LLM 的评价没有 “单一最优方法”，需根据评价目标（如 “测试知识广度” vs “验证医疗场景安全性”）、资源约束若需快速对比多个模型的通用能力：优先用MMLU、GLUE等自动基准。若需验证特定场景的实用性（如法律文书生成）：结合专业领域基准（Bar Exam Bench）+ 人工评价。若需评估安全性与用户体验：采用HarmBench 自动测试 + 用户反馈众包（如 Chatbot Arena）。

使用 Comet 跟踪 LangChain 实验、评价指标及 LLM 会话

hgSdaegva的博客

01-14

614

LangChain 是一个强大的框架，用于构建语言模型驱动的应用程序。而 Comet 提供了全面的实验跟踪功能，包括复杂度度量、可视化和自定义评价指标支持。二者结合后，开发者可以在模型开发的整个周期中高效管理实验数据，追踪性能变化并优化模型。使用ROUGEreturn {# 定义参考文章"""# 定义并测试链Article:{article}

Level 4自动驾驶系统设计2——功能与场景2

Godspeed_zwh的博客

06-14

168

摘要：干线物流场景中，重卡因制动距离长需超250m远距感知，但远距目标检测受视觉特征退化与雷达稀疏性限制，需多模态时序校验提升置信度。针对相邻车道强行加塞（Cut-in），系统建立动力学对账方程，实时解算运动参数并验证安全裕度，同时采用传感器动态确权策略应对模型幻觉。极限情况下，系统绕过端到端规划，直接触发紧急制动，通过VMC层优化制动力分配，确保安全平账。

Python全栈项目--基于深度学习的自动驾驶模拟系统

exlink2012的专栏

06-17

587

本文介绍了一个基于深度学习的自动驾驶模拟系统全栈项目，包含以下核心内容：系统架构：采用前后端分离设计，Python+FastAPI处理后端逻辑和深度学习模拟，Vue3构建前端交互界面。功能模块：用户认证（JWT+bcrypt加密）场景配置（道路类型/天气/交通密度） 自动驾驶模拟（车道线识别/障碍物检测/碰撞风险评估）数据看板展示技术特点：轻量级SQLite数据库存储完整的认证流程实现可扩展的深度学习模拟框架响应式前端界面学习价值：项目提供了完整的开发流程和可运行源码，适合作为深度学习

计算机视觉-自动驾驶

Edward2022的博客

06-13

317

自动驾驶

Level 4自动驾驶系统设计3——功能与场景3

Godspeed_zwh的博客

06-15

摘要：针对地下停车场高密度桩标、光线突变与低矮障碍物等复杂场景，研究提出多模态感知融合与安全冗余策略。通过4D雷达与视觉体素化校验解决桩标粘连问题；光流-IMU时空补偿应对光照跳变；占用网格动态掩码检测低矮障碍物，并触发权重降级与VMC层越权制动。系统集成置信度过滤、物理对账和硬件熔断机制，确保在传感器失效或模型误判时仍能实现安全闭环控制，显著提升自动驾驶在非结构化地库环境中的鲁棒性。

自动驾驶调研-Day2

CH_Vaniteux的博客

06-16

379

NAVSIM 是基于 OpenScene 的非反应式自动驾驶仿真与规划评测框架；OpenScene 是 nuPlan 的 2 Hz 紧凑重分发版本，保留规划所需的传感器、标注、地图和自车状态。OpenScene 约 120 小时驾驶数据，整体约 2 TB；NAVSIM v1 标准过滤后的 navtrain / navtest 约 103k / 12k samples，官方描述的独立 benchmark 下载约 450 GB；navtrain 传感器帧约 445 GB，若不使用历史传感器帧约 300 GB。

自动驾驶调研-Day3

最新发布

CH_Vaniteux的博客

06-17

192

显式地分解了该目标，形式化为 $p(o', a \mid o, l) = p(a \mid o', o, l)p(o' \mid o, l)$，即首先合成对预期未来状态的表示，随后从中推导出动作；直接对联合分布（$p(o', a \mid o, l)$）进行建模，其中状态预测和动作生成在一个共享的表示空间内进行协同优化（这些架构的时间演变可参见相应的结构图）。WAM 关注当前观察 o、语言指令 l、未来观察 o' 和动作 a 之间的联合关系：p(o', a \mid o, l)接下来的内容由具体问题引出。

Level 4自动驾驶系统设计1——功能与场景1

Godspeed_zwh的博客

06-13

451

本文探讨全栈并网智驾大模型（VLA/端到端）在行泊一体领航辅助（NOA/NGP）中的应用，重点解决端到端大模型在高维不可预测环境中的功能安全收敛问题。通过构建全场景ODD（设计运行域）运营库，实现行车与泊车功能的无缝切换，并利用时空对齐、传感器动态确权等技术确保安全性和可靠性。文章还分析了系统响应时间窗的优化及物理极限下的安全控制策略，包括动态掩码技术和VMC层的越权限制机制，以应对极端工况和保障系统稳定性。

自动驾驶卡车龙头二冲港股IPO！

高工智能汽车

06-17

185

同时，主线科技在招股书中表示，该等授权具有地域性限制，不构成全国范围内商业化部署批准。不过主要指出的是，现阶段开放场景例如长途物流领域的L4自动驾驶商业化落地，除了技术与安全性、成本等因素，还面临政策许可、跨区域审批等诸多障碍。2023-2025年期间，主线科技的研发开支分别是1.19亿、1.15亿和1.2亿，分别占同期收益约。三大场景实现商业化部署，分别对应封闭道路场景、、开放道路场景（城市内）和长途干线物流场景。“输血”通道，延长赛跑时间，直到跨越规模化商业化的盈亏平衡点，才是真正的胜利。

【3D·感知】从PointNet到PointPillars：如何让自动驾驶汽车“实时“看见3D世界？

xiaobaiwsc的博客

06-16

379

本文介绍了从PointNet到PointPillars的3D目标检测技术演进，重点解析了PointPillars这一实时3D检测网络的核心思想。文章首先指出PointNet在自动驾驶应用中的局限性（缺乏局部特征、无法定位、速度慢），然后提出3D目标检测需要同时识别物体类别并定位其3D边界框。PointPillars的创新在于将点云划分为垂直柱子，转换为2D伪图像后利用优化过的2D卷积网络处理，从而避免了计算量大的3D卷积操作，实现了62FPS的实时检测速度。文章详细阐述了PointPillars的三步流程：

Level 4自动驾驶系统设计4——功能与场景4

Godspeed_zwh的博客

06-16

179

摘要：L4级商用车主挂一体化系统面临多自由度运动学退化、非线性动力学特性及大范围参数漂移等挑战，导致大模型控制在动态场景中鲁棒性下降。针对偏航、蛇形摆动和折头三大高危场景，系统通过物理熔断机制实时监控铰接角状态，并在风险触发时移交控制权至VMC层，采用差动制动、ABS干预等策略进行分布式安全控制，确保车辆稳定性。其中，高速蛇形摆动通过挂车后轴非对称制动收敛能量，折头风险则通过牵引车制动力释放与挂车全量制动组合干预，防止动力学失稳。

自动驾驶：一个自主运动的系统

2501_94050849的博客

06-16

192

本文从系统动力学视角重新定义自动驾驶，提出自动驾驶汽车本质上是由无数事件构成的自主运动系统。其核心观点包括：1）自动驾驶的运动方向是从不确定到确定；2）运动过程呈现扩张、收敛过渡、防御和试探性行动四个循环阶段；3）车辆自主设定目标并规划运动节奏（启动/加速/稳定/减速/绕行）。与传统技术视角不同，该理论强调自动驾驶的内在动力学属性，认为其可靠性取决于系统自主应对不确定性的能力而非规则覆盖度。这一框架改变了衡量自动驾驶智能的标准，从"能做什么"转向"如何运动"，为自动驾驶系统设计提供了新思路。

VLA视觉语言动作模型｜端到端三模态融合架构赋能自动驾驶类人认知推理、长尾场景泛化、决策可解释性与复杂路况精准控车全面涨点

qq_36130719的博客

06-13

当前主流自动驾驶系统长期依赖模块化串行架构，各模块独立迭代、数据逐级传递，在标准化城市道路、高速巡航、常规路口通行等场景中表现稳定。但该传统范式存在先天性技术短板：模块间信息割裂、特征逐层损耗、误差逐级累积，且高度依赖人工规则与标注数据集，仅能适配训练过的标准化场景，面对海量真实路况中的长尾边缘场景、非结构化道路、突发交通交互场景，极易出现决策失效、控车生硬、误判漏判等问题。同时模块化架构存在严重的，模型决策逻辑无法溯源、无法解释，极大限制了高阶自动驾驶的商业化落地与安全迭代。

端到端自动驾驶：UniAD、VAD 的具身视角解读

从事移动开发八年，csdn博客专家，阿里云特邀专家，华为云云享专家，高级网络信息安全工程师，大数据工程师（高级），python技术开发（高级），HarmonyOS 应用开发者高级认证，现在某学校任教。

06-15

136

1. 端到端 = 具身化：端到端架构消除了模块化系统中的"离身"问题，使感知、预测、规划在统一的表征空间中耦合，实现了真正的"感知-行动闭环"。2. Query = 注意力耦合：UniAD 的 Query 接口本质上是多任务间的注意力机制，使信息在不同抽象层级间自由流动。这与具身智能中的"多模态融合"理念一致。3. 规划导向 = 任务导向感知：上游模块自动学习对下游任务有用的特征，这是具身智能中"行动塑造感知"（Action Shapes Perception）的体现。4. 矢量化 = 稀疏交互。

端到端自动驾驶 BEV stack

m0_60827485的博客

06-16

458

本文摘要（145字）： 自动驾驶技术正从传统感知→规划流水线演进为端到端BEV架构，核心思想是将多传感器输入统一转换为BEV世界表征，直接输出轨迹/动作序列。系统包含BEV编码器、时序BEV记忆、决策网络等模块，通过世界建模和策略网络替代传统模块化流程。主流实现分Tesla纯视觉、Waymo混合和NVIDIA方案三类，采用模仿学习、多任务学习和强化学习进行训练。该架构面临延迟、稳定性和安全保障等工程挑战，需配合数据闭环持续优化，代表了自动驾驶向更紧密耦合的系统演进趋势。

自动驾驶调研-Day1

CH_Vaniteux的博客

06-15

355

在自动驾驶中，车载摄像头、激光雷达（LiDAR）等传感器是从车辆四周的“透视视角”（Perspective View）来捕捉世界的（即前视、后视、侧视等，图像中会有近大远小的透视变形）。通过利用在互联网级数据上预训练的大规模视觉-语言模型（VLM），VLA 模型拥有显著更大的模型体量，并在规模扩展（scaling）方面具备更强大的内在潜力。3、另外希望互联网海量数据能给更大的模型一个好的初始化来迁移到驾驶上，弥补驾驶数据的数量稀缺导致的过拟合/reward hacking 等问题。然而 VLA 会面临。