塔斯娱乐资讯网

工程师romit参加 MLSys ’26 后的收获---------------

工程师romit参加 MLSys ’26 后的收获-----------------以下是我参加 MLSys ’26 后整理的笔记。整体来看,我从这次会议中归纳出以下几个主题:🌟分布式训练有大量可调参数,非常难以管理和调优。目前有很多工作都在试图降低这方面的管理难度。🌟随着训练规模变得越来越大,可靠性也变得越来越重要。因此,看到许多来自业界的分享都聚焦在训练可靠性上,并不令人意外。🌟超长上下文长度在训练和推理两端都获得了大量关注。🌟异构计算,包括多区域、多加速器,正在兴起,并且很可能是推理优化的下一个前沿方向。🌟分布式推理仍然需要更好的自动调优能力,用来在大规模场景下找到最佳配置。🌟KV cache 优化、attention 优化和量化本来就已经是重点方向,所以相关论文数量很多并不意外。🌟以技能提升的角度看,我认为最值得学习的是 GPU 通信和网络。机架内与机架间通信、NCCL、UCCL 相关的内容都值得深入了解。未来几年,很多性能提升都会来自通过更好的 kernel 和 framework 来优化 GPU 之间的通信。

后面还列出了好多他觉得有趣的论文,有兴趣的可以找原文看:r0m1t.com/learnings-from-mlsys.html