名企速投

岗位描述

负责打造支撑下一代大模型自我进化的强化学习基础设施，围绕大规模 Agentic RL 场景设计训练与采样的混合调度策略，优化 Policy、Reference、Reward、Value 等多模型的并行协同与显存共享；深度定制 vLLM，优化 Rollout 阶段的 KV Cache 复用、量化与投机方法，尽可能降低 Token 生成延迟；结合算法、框架与硬件进行协同优化，为不同强化学习算法负载和硬件设施制定最优并行策略，最大化 MFU。要求熟悉 Megatron-LM 分布式并行能力，掌握 vLLM / SGLang 核心机制并具备二次开发能力；具备 CUDA、Triton、Cutlass 编程和算子开发经验，能够编写高性能 Kernel；理解 RLHF / RL 推理数据流，并能针对各环节负载进行优化；熟悉 PPO、GRPO、DPO 等算法的工程实现细节及稳定性挑战。

强化学习基础设施工程师

岗位描述