名企速投

岗位描述

负责算法研究与开发，深入研究强化学习前沿算法（如PPO、GRPO等）并应用于大模型领域；优化强化学习训练框架，提升训练速度与稳定性；推动强化学习在大规模场景中的应用，提升模型长思考能力、通用能力和Agent能力。要求具备计算机科学、人工智能、机器学习、数学、统计学或相关领域硕士及以上学历，熟悉强化学习经典算法并具备实际项目经验，熟悉TensorFlow、PyTorch及常见强化学习训练框架，了解大规模分布式训练，具备扎实的Python编程能力。

强化学习算法工程师

岗位描述