2026 年 RL 方向面经合集

转载于 2026-06-08 01:06:13 发布 · 22 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://zhuanlan.zhihu.com/p/2046740446353811230

GEO检测

标签

#强化学习

大模型专栏收录该内容

4 篇文章

订阅专栏

参考：https://zhuanlan.zhihu.com/p/2046740446353811230
由于见到了拿到 PhD offer 但直接春招上岸大包的例子，本人也在想是否不登校了早点套现。于是这个合集蒸馏了知乎上所有和 RL 相关的面经，加上本人的一些最新讨论见解，整理出了最有深度的 35 道题作为合集，也算是造了个 benchmark

注意：

1.这里的问题没有严格区分 LLM RL 和 Agentic RL，但是一部分问题下 Agent 场景会有不同
2.几乎所有问题可延伸 / 追问的空间都相当大，此处不提供参考答案，使用 LLM 请反复交互并打开联网搜索
3.现在的 RL 招人需求就是尽可能全栈，不存在你做算法就不问 Infra 的情况，相反也如此
4.这里没有收集 Data 相关的题目，因为几乎没法背，全靠你的相关经历
5.切记背八股 / 面经不一定有用，打铁还需自身硬

算法部分

为什么要用 Actor-Critic 而不是纯 Critic？
KL 散度和交叉熵、MLE 的关系？
不同 RL 场景应该如何设计Reward？
如何理解 RL 中的 importance sampling / rejection sampling 等 monte carlo 方法？
PPO / GRPO 的 advantage 是怎么算的，为什么要减去 baseline，这里一定要除以 std吗？
RL training 和 test-time scaling 各自是如何 explore 的？
PPO 是如何 clip的，为什么要取 min，不 clip 会怎么样，CISPO 是怎么做的
GRPO 为什么加上 KL 散度，KL 散度怎么计算，为什么DAPO、GSPO 又去掉了 KL 散度？
在 LLM 训练时，如果不小心多 All Reduce 了几次 loss，会发生什么？
DPO 的 reward 是什么，会不会 reward hacking，如何解决？
有哪些解决 MoE训推不一致问题的算法，各自是什么原理？
RL 训练时，group size / learning rate / ppo epoch / generation length 如何设置？
相比 GRPO，Dr.GRPO / DAPO / GSPO / CISPO / SAPO
/ DPPO / MaxRL / SimKO 是如何改进的，各自又有什么缺点?
TRPO / DPPO / AReaL 是如何用trust region 约束 RL objective 的
RL 能否拓展 LLM 的能力边界？
结合 ProRL 等工作，谈谈如何scale RL 训练边界？
OPD 相比于传统 RL / SFT 的改进，有哪些 OPD 的应用？
LLM推理能力是在哪一个训练阶段产生的？
DeepSeek R1 到 V3.2 / V4，RL 部分有哪些改进，MoE RL 有什么不同？