工程师romit参加 MLSys ’26 后的收获---------------

工程师romit参加 MLSys ’26 后的收获-----------------以下是我参加 MLSys ’26 后整理的笔记。整体来看，我从这次会议中归纳出以下几个主题：🌟分布式训练有大量可调参数，非常难以管理和调优。目前有很多工作都在试图降低这方面的管理难度。🌟随着训练规模变得越来越大，可靠性也变得越来越重要。因此，看到许多来自业界的分享都聚焦在训练可靠性上，并不令人意外。🌟超长上下文长度在训练和推理两端都获得了大量关注。🌟异构计算，包括多区域、多加速器，正在兴起，并且很可能是推理优化的下一个前沿方向。🌟分布式推理仍然需要更好的自动调优能力，用来在大规模场景下找到最佳配置。🌟KV cache 优化、attention 优化和量化本来就已经是重点方向，所以相关论文数量很多并不意外。🌟以技能提升的角度看，我认为最值得学习的是 GPU 通信和网络。机架内与机架间通信、NCCL、UCCL 相关的内容都值得深入了解。未来几年，很多性能提升都会来自通过更好的 kernel 和 framework 来优化 GPU 之间的通信。

后面还列出了好多他觉得有趣的论文，有兴趣的可以找原文看：r0m1t.com/learnings-from-mlsys.html

塔斯娱乐资讯网

工程师romit参加 MLSys ’26 后的收获---------------

热门分类