2026 年 RL 方向面经合集

参考:https://zhuanlan.zhihu.com/p/2046740446353811230
由于见到了拿到 PhD offer 但直接春招上岸大包的例子,本人也在想是否不登校了早点套现。于是这个合集蒸馏了知乎上所有和 RL 相关的面经,加上本人的一些最新讨论见解,整理出了最有深度的 35 道题作为合集,也算是造了个 benchmark

注意:

  • 1.这里的问题没有严格区分 LLM RL 和 Agentic RL,但是一部分问题下 Agent 场景会有不同
  • 2.几乎所有问题可延伸 / 追问的空间都相当大,此处不提供参考答案,使用 LLM 请反复交互并打开联网搜索
  • 3.现在的 RL 招人需求就是尽可能全栈,不存在你做算法就不问 Infra 的情况,相反也如此
  • 4.这里没有收集 Data 相关的题目,因为几乎没法背,全靠你的相关经历
  • 5.切记背八股 / 面经不一定有用,打铁还需自身硬

算法部分

  1. 为什么要用 Actor-Critic 而不是纯 Critic?
  2. KL 散度和交叉熵、MLE 的关系?
  3. 不同 RL 场景应该如何设计Reward?
  4. 如何理解 RL 中的 importance sampling / rejection sampling 等 monte carlo 方法?
  5. PPO / GRPO 的 advantage 是怎么算的,为什么要减去 baseline,这里一定要除以 std吗?
  6. RL training 和 test-time scaling 各自是如何 explore 的?
  7. PPO 是如何 clip的,为什么要取 min,不 clip 会怎么样,CISPO 是怎么做的
  8. GRPO 为什么加上 KL 散度,KL 散度怎么计算,为什么DAPO、GSPO 又去掉了 KL 散度?
  9. 在 LLM 训练时,如果不小心多 All Reduce 了几次 loss,会发生什么?
  10. DPO 的 reward 是什么,会不会 reward hacking,如何解决?
  11. 有哪些解决 MoE训推不一致问题的算法,各自是什么原理?
  12. RL 训练时,group size / learning rate / ppo epoch / generation length 如何设置?
  13. 相比 GRPO,Dr.GRPO / DAPO / GSPO / CISPO / SAPO
    / DPPO / MaxRL / SimKO 是如何改进的,各自又有什么缺点?
  14. TRPO / DPPO / AReaL 是如何用trust region 约束 RL objective 的
  15. RL 能否拓展 LLM 的能力边界?
  16. 结合 ProRL 等工作,谈谈如何scale RL 训练边界?
  17. OPD 相比于传统 RL / SFT 的改进,有哪些 OPD 的应用?
  18. LLM推理能力是在哪一个训练阶段产生的?
  19. DeepSeek R1 到 V3.2 / V4,RL 部分有哪些改进,MoE RL 有什么不同?

Infra 部分

  1. 不考虑 cpu offload,GRPO 训练时显存里有几个模型,考虑了能省多少显存?
  2. 分布式推理:KV cache传输优化、多卡通信优化策略
  3. INT8 与 FP8 优劣对比,训推分别用什么精度
  4. RL rollout中的长尾问题是什么,有哪些解决方案?
  5. continuous batching 在 RL 训练时会有什么问题,vLLM 和 SGLang的区别?
  6. vLLM / SGLang 怎么看利用率,KV cache 在训练里的利用率怎么看?
  7. 多机多卡 RL训练时如何实现反向传播?
  8. RL 训练有哪些异步框架,解决了同步训练的什么问题?
  9. AReaL 或者其他 partially rollout 框架,在 rollout 时,会不会保存之前 policy 的 KV cache?
  10. MoE 的 EP 对throughput 的影响
  11. Long context 场景下的 compute-communication overlap,megatron 和 fsdp 各自的 parallelism
  12. 确定性模式怎么开,什么是 batch invariance,是什么导致的,有没有 atom add,atom add 能解决吗?
  13. AReaL 和 slime 对 RL rollout bottleneck 的理解有什么不同?
  14. full async staleness 怎么看,训练时大概是多少?
  15. slime 里 data 怎么流,megatron 怎么结合,loss 怎么算?
  16. VeRL / TRL / Unsloth / AReaL / slime 你会选哪个?
内容概要:本文围绕可变桨叶四旋翼无人机的规范控制与点对点运动模拟展开,重点研究优化推力分配策略在翻转动作中的应用与性能比较。通过Matlab代码实现,构建了四旋翼动力学模型,并设计了多种控制算法以实现精确的姿态调整与轨迹跟踪。研究对比了不同推力分配方案在执行高机动性翻转动作时的稳定性、能耗效率与响应速度,旨在提升无人机在复杂飞行任务中的动态性能与控制精度。该仿真研究为无人机飞控系统的设计与优化提供了理论依据和技术支持。; 适合人群:具备一定自动控制理论基础和Matlab编程能力,从事无人机控制、飞行器动力学或机器人系统研究的科研人员及研究生。; 使用场景及目标:① 实现四旋翼无人机在三维空间中的精确点对点运动控制;② 对比分析不同推力分配策略在执行翻转等高难度动作时的控制效果与能耗表现,优化飞行性能;③ 为无人机自主飞行、特技飞行及复杂环境下的机动控制提供算法验证平台。; 阅读建议:此资源以Matlab仿真为核心,建议读者结合相关控制理论知识,深入理解代码实现细节,重点关注动力学建模、控制律设计与推力分配模块。在学习过程中,应动手调试参数,复现文中翻转动作的仿真结果,并尝试拓展至其他复杂飞行任务,以加深对无人机控制机理的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值