塔斯娱乐资讯网

一篇介绍异步强化学习的长文地址:luk-huang.github.io/pers

一篇介绍异步强化学习的长文地址:luk-huang.github.io/personal-website/blog/is-frontier-asynchronous-rl-solved.html"Async RL (异步强化学习)已经成为大规模 RL 后训练的默认方案。前沿开放权重实验室——GLM-5、Ring 1T、DeepSeek V3.2、Minimax M2.5、Qwen 3.5、Intellect-3、Nemotron-3 Super 和 Laguna-M.1——都报告称,相比同步 pipeline,吞吐速度提升了 2–3 倍;同时,各家也都有自己的训练稳定性方案。本文试图梳理这一领域:每家实验室分别做了什么?共同的失败模式有哪些?当前进展到了什么阶段?

太长不看版:🌟Async RL 将 rollout 和 training 解耦,带来 2–3 倍吞吐提升,但过时的 trajectories 会引入 off-policy instability。🌟限制 policy lag 可以提升稳定性,但代价是速度收益受限,尤其是在 long-horizon tasks 上。🌟几乎所有前沿开放权重实验室都在使用 Async RL,但它们分别针对两个不同问题提出了自己的修正方案:policy lag,也就是算法问题;以及不同引擎之间的 numerical mismatch,也就是系统问题。🌟本文会梳理当前的算法和系统修正方法,并解释为什么它们在高 policy lag 下都不够鲁棒。🌟Sequence-level importance sampling 是更能随 compute 扩展的 estimator,而 token-level estimators 在高 policy lag 下会出现结构性不一致。🌟前沿进展仍然混乱:低 bias 的 compute scaling 假设、collapse diagnostics,以及实用的 variance control,仍然是开放问题。”AI创造营