参考:https://zhuanlan.zhihu.com/p/2046740446353811230
由于见到了拿到 PhD offer 但直接春招上岸大包的例子,本人也在想是否不登校了早点套现。于是这个合集蒸馏了知乎上所有和 RL 相关的面经,加上本人的一些最新讨论见解,整理出了最有深度的 35 道题作为合集,也算是造了个 benchmark
注意:
- 1.这里的问题没有严格区分 LLM RL 和 Agentic RL,但是一部分问题下 Agent 场景会有不同
- 2.几乎所有问题可延伸 / 追问的空间都相当大,此处不提供参考答案,使用 LLM 请反复交互并打开联网搜索
- 3.现在的 RL 招人需求就是尽可能全栈,不存在你做算法就不问 Infra 的情况,相反也如此
- 4.这里没有收集 Data 相关的题目,因为几乎没法背,全靠你的相关经历
- 5.切记背八股 / 面经不一定有用,打铁还需自身硬
算法部分
- 为什么要用 Actor-Critic 而不是纯 Critic?
- KL 散度和交叉熵、MLE 的关系?
- 不同 RL 场景应该如何设计Reward?
- 如何理解 RL 中的 importance sampling / rejection sampling 等 monte carlo 方法?
- PPO / GRPO 的 advantage 是怎么算的,为什么要减去 baseline,这里一定要除以 std吗?
- RL training 和 test-time scaling 各自是如何 explore 的?
- PPO 是如何 clip的,为什么要取 min,不 clip 会怎么样,CISPO 是怎么做的
- GRPO 为什么加上 KL 散度,KL 散度怎么计算,为什么DAPO、GSPO 又去掉了 KL 散度?
- 在 LLM 训练时,如果不小心多 All Reduce 了几次 loss,会发生什么?
- DPO 的 reward 是什么,会不会 reward hacking,如何解决?
- 有哪些解决 MoE训推不一致问题的算法,各自是什么原理?
- RL 训练时,group size / learning rate / ppo epoch / generation length 如何设置?
- 相比 GRPO,Dr.GRPO / DAPO / GSPO / CISPO / SAPO
/ DPPO / MaxRL / SimKO 是如何改进的,各自又有什么缺点? - TRPO / DPPO / AReaL 是如何用trust region 约束 RL objective 的
- RL 能否拓展 LLM 的能力边界?
- 结合 ProRL 等工作,谈谈如何scale RL 训练边界?
- OPD 相比于传统 RL / SFT 的改进,有哪些 OPD 的应用?
- LLM推理能力是在哪一个训练阶段产生的?
- DeepSeek R1 到 V3.2 / V4,RL 部分有哪些改进,MoE RL 有什么不同?
Infra 部分
- 不考虑 cpu offload,GRPO 训练时显存里有几个模型,考虑了能省多少显存?
- 分布式推理:KV cache传输优化、多卡通信优化策略
- INT8 与 FP8 优劣对比,训推分别用什么精度
- RL rollout中的长尾问题是什么,有哪些解决方案?
- continuous batching 在 RL 训练时会有什么问题,vLLM 和 SGLang的区别?
- vLLM / SGLang 怎么看利用率,KV cache 在训练里的利用率怎么看?
- 多机多卡 RL训练时如何实现反向传播?
- RL 训练有哪些异步框架,解决了同步训练的什么问题?
- AReaL 或者其他 partially rollout 框架,在 rollout 时,会不会保存之前 policy 的 KV cache?
- MoE 的 EP 对throughput 的影响
- Long context 场景下的 compute-communication overlap,megatron 和 fsdp 各自的 parallelism
- 确定性模式怎么开,什么是 batch invariance,是什么导致的,有没有 atom add,atom add 能解决吗?
- AReaL 和 slime 对 RL rollout bottleneck 的理解有什么不同?
- full async staleness 怎么看,训练时大概是多少?
- slime 里 data 怎么流,megatron 怎么结合,loss 怎么算?
- VeRL / TRL / Unsloth / AReaL / slime 你会选哪个?

297

被折叠的 条评论
为什么被折叠?



