一篇介绍异步强化学习的长文地址：luk-huang.github.io/pers

2026-06-02 16:48:15 蚁工厂科技

一篇介绍异步强化学习的长文地址：luk-huang.github.io/personal-website/blog/is-frontier-asynchronous-rl-solved.html"Async RL (异步强化学习)已经成为大规模 RL 后训练的默认方案。前沿开放权重实验室——GLM-5、Ring 1T、DeepSeek V3.2、Minimax M2.5、Qwen 3.5、Intellect-3、Nemotron-3 Super 和 Laguna-M.1——都报告称，相比同步 pipeline，吞吐速度提升了 2–3 倍；同时，各家也都有自己的训练稳定性方案。本文试图梳理这一领域：每家实验室分别做了什么？共同的失败模式有哪些？当前进展到了什么阶段？

太长不看版：🌟Async RL 将 rollout 和 training 解耦，带来 2–3 倍吞吐提升，但过时的 trajectories 会引入 off-policy instability。🌟限制 policy lag 可以提升稳定性，但代价是速度收益受限，尤其是在 long-horizon tasks 上。🌟几乎所有前沿开放权重实验室都在使用 Async RL，但它们分别针对两个不同问题提出了自己的修正方案：policy lag，也就是算法问题；以及不同引擎之间的 numerical mismatch，也就是系统问题。🌟本文会梳理当前的算法和系统修正方法，并解释为什么它们在高 policy lag 下都不够鲁棒。🌟Sequence-level importance sampling 是更能随 compute 扩展的 estimator，而 token-level estimators 在高 policy lag 下会出现结构性不一致。🌟前沿进展仍然混乱：低 bias 的 compute scaling 假设、collapse diagnostics，以及实用的 variance control，仍然是开放问题。”AI创造营