独角兽

强化学习基础设施工程师

月之暗面

地点待补充人工智能社会招聘

岗位描述

负责打造支撑下一代大模型自我进化的强化学习基础设施,围绕大规模 Agentic RL 场景设计训练与采样的混合调度策略,优化 Policy、Reference、Reward、Value 等多模型的并行协同与显存共享;深度定制 vLLM,优化 Rollout 阶段的 KV Cache 复用、量化与投机方法,尽可能降低 Token 生成延迟;结合算法、框架与硬件进行协同优化,为不同强化学习算法负载和硬件设施制定最优并行策略,最大化训练效率。要求熟悉 vLLM / SGLang 核心机制,具备二次开发能力;理解 RLHF / RL 推理的数据流,能够针对各环节负载特征进行优化;并具备持续提升硬件利用率、与算法团队协同推进下一代 RL 训练框架演进的能力。