名企速投

岗位描述

面向Deep Research、Code Agent、Web Agent、软件工程、多工具调用等场景，研究模型在长程任务中的任务分解、阶段规划与子目标管理，提升复杂任务完成率与鲁棒性；研究适用于Agent场景的强化学习方法，包括rollout scaling、在线/离线RL、过程奖励建模、探索策略优化、信用分配、轨迹筛选与策略迭代，提升模型在开放环境中的自主决策与持续改进能力；围绕代码、搜索、工具使用、软件工程等方向构建和优化适用于Agent/RL训练的数据与任务环境，设计高质量轨迹合成、过程监督与自动化反馈机制；针对代码、通用Agent等特定能力领域进行数据构造、筛选和优化，设计数据合成策略，控制对齐数据质量与多样性。要求具备大模型算法基础，熟练使用Pytorch、transformers、megatron等主流框架。

GLM后训练算法工程师（Agent强化学习方向）

岗位描述