名企速投

岗位描述

主要负责维护和开发公司内部强化学习后训练框架，支持万亿参数模型在 reasoning、agentic 等方向的文本与多模态 RL 后训练；与训练推理引擎团队协作，探索算法、框架、硬件的协同设计，提升大规模强化学习训练的稳定性和效率。要求具备扎实的工程算法基础和工程实现能力，熟悉 Python 等语言，熟练掌握 PyTorch 等深度学习框架及常见性能调试分析工具；深入了解 Megatron-LM、vLLM 等主流训练与推理引擎，并对大模型 RL 训练中的训推不一致、Rollout 长尾等实际问题具备排查和解决经验；具备扎实的强化学习算法基础和实际 RL 训练经验。加分项包括出色的开源项目经历、相关顶会论文发表，以及业界知名 RL 框架经验。

强化学习基础设施研究工程师

岗位描述