岗位描述
面向Agent场景研究长程任务能力,包括任务分解、阶段规划、子目标管理,提升复杂任务完成率与鲁棒性;研究适用于Agent场景的强化学习方法,包括rollout scaling、在线/离线RL、过程奖励建模、探索策略优化、信用分配、轨迹筛选与策略迭代,提升模型在开放环境中的自主决策与持续改进能力;围绕代码、搜索、工具使用、软件工程等方向构建和优化适用于Agent/RL训练的数据与任务环境,设计高质量轨迹合成、过程监督与自动化反馈机制;针对数学、代码、复杂推理等特定能力领域进行对齐数据构造、筛选和优化,设计数据合成策略,控制数据质量与多样性。