岗位描述
负责打造支撑下一代大模型自我进化的强化学习基础设施,围绕大规模 Agentic RL 场景设计训练与采样的混合调度策略,优化 Policy、Reference、Reward、Value 等多模型的并行协同与显存共享;深度定制 vLLM,优化 Rollout 阶段的 KV Cache 复用、量化与投机方法,尽可能降低 Token 生成延迟;结合算法、框架与硬件进行协同优化,为不同强化学习算法负载和硬件设施制定最优并行策略,最大化 MFU。要求熟悉 Megatron-LM 分布式并行能力,掌握 vLLM / SGLang 核心机制并具备二次开发能力;具备 CUDA、Triton、Cutlass 编程和算子开发经验,能够编写高性能 Kernel;理解 RLHF / RL 推理数据流,并能针对各环节负载进行优化;熟悉 PPO、GRPO、DPO 等算法的工程实现细节及稳定性挑战。