名企速投

岗位描述

负责打造支撑下一代大模型自我进化的强化学习基础设施，围绕大规模 Agentic RL 场景设计训练与采样的混合调度策略，优化 Policy、Reference、Reward、Value 等多模型的并行协同与显存共享；深度定制 vLLM，优化 Rollout 阶段的 KV Cache 复用、量化与投机方法，尽可能降低 Token 生成延迟；结合算法、框架与硬件进行协同优化，为不同强化学习算法负载和硬件设施制定最优并行策略，最大化训练效率。要求熟悉 vLLM / SGLang 核心机制，具备二次开发能力；理解 RLHF / RL 推理的数据流，能够针对各环节负载特征进行优化；并具备持续提升硬件利用率、与算法团队协同推进下一代 RL 训练框架演进的能力。

强化学习基础设施工程师

岗位描述