名企速投

岗位描述

负责大模型 RL 训练与推理系统建设，持续提升训练效率、系统稳定性和工程迭代速度，工作内容覆盖分布式训练、推理链路、性能优化、稳定性治理，以及 Agent RL 相关能力建设。具体包括：负责 RL 训练与推理基础设施的设计、开发与优化；负责分布式训练、任务调度、权重同步、热更新等核心链路建设；持续优化系统性能，包括吞吐、时延、GPU 利用率、训练效率等指标；建设稳定性与可观测能力，定位并解决 OOM、超时、通信瓶颈、一致性问题等；参与 Agent RL 相关训练与系统支持工作，推动训练框架适配更复杂的 Agent 场景。要求熟悉 PyTorch、CUDA、NCCL、Linux，理解分布式训练与推理系统原理；了解 RLHF 或相关训练方法，对 PPO、DPO、GRPO、Agent RL 等方向有实际经验或较强理解；具备性能分析、问题排查和系统优化经验，能够独立定位复杂问题；熟悉 AI Coding，有相关工具或 Coding Agent 的使用或建设经验。

大模型强化学习系统工程师

岗位描述