岗位描述
负责大模型 RL 训练与推理系统建设,持续提升训练效率、系统稳定性和工程迭代速度,工作内容覆盖分布式训练、推理链路、性能优化、稳定性治理,以及 Agent RL 相关能力建设。具体包括:负责 RL 训练与推理基础设施的设计、开发与优化;负责分布式训练、任务调度、权重同步、热更新等核心链路建设;持续优化系统性能,包括吞吐、时延、GPU 利用率、训练效率等指标;建设稳定性与可观测能力,定位并解决 OOM、超时、通信瓶颈、一致性问题等;参与 Agent RL 相关训练与系统支持工作,推动训练框架适配更复杂的 Agent 场景。要求熟悉 PyTorch、CUDA、NCCL、Linux,理解分布式训练与推理系统原理;了解 RLHF 或相关训练方法,对 PPO、DPO、GRPO、Agent RL 等方向有实际经验或较强理解;具备性能分析、问题排查和系统优化经验,能够独立定位复杂问题;熟悉 AI Coding,有相关工具或 Coding Agent 的使用或建设经验。