岗位描述负责算法研究与开发,深入研究强化学习前沿算法(如PPO、GRPO等)并应用于大模型领域;优化强化学习训练框架,提升训练速度与稳定性;推动强化学习在大规模场景中的应用,提升模型长思考能力、通用能力和Agent能力。要求具备计算机科学、人工智能、机器学习、数学、统计学或相关领域硕士及以上学历,熟悉强化学习经典算法并具备实际项目经验,熟悉TensorFlow、PyTorch及常见强化学习训练框架,了解大规模分布式训练,具备扎实的Python编程能力。