岗位描述
主要负责维护和开发公司内部强化学习后训练框架,支持万亿参数模型在 reasoning、agentic 等方向的文本与多模态 RL 后训练;与训练推理引擎团队协作,探索算法、框架、硬件的协同设计,提升大规模强化学习训练的稳定性和效率。要求具备扎实的工程算法基础和工程实现能力,熟悉 Python 等语言,熟练掌握 PyTorch 等深度学习框架及常见性能调试分析工具;深入了解 Megatron-LM、vLLM 等主流训练与推理引擎,并对大模型 RL 训练中的训推不一致、Rollout 长尾等实际问题具备排查和解决经验;具备扎实的强化学习算法基础和实际 RL 训练经验。加分项包括出色的开源项目经历、相关顶会论文发表,以及业界知名 RL 框架经验。