岗位描述
面向Deep Research、Code Agent、Web Agent、软件工程、多工具调用等场景,研究模型在长程任务中的任务分解、阶段规划与子目标管理,提升复杂任务完成率与鲁棒性;研究适用于Agent场景的强化学习方法,包括rollout scaling、在线/离线RL、过程奖励建模、探索策略优化、信用分配、轨迹筛选与策略迭代,提升模型在开放环境中的自主决策与持续改进能力;围绕代码、搜索、工具使用、软件工程等方向构建和优化适用于Agent/RL训练的数据与任务环境,设计高质量轨迹合成、过程监督与自动化反馈机制;针对代码、通用Agent等特定能力领域进行数据构造、筛选和优化,设计数据合成策略,控制对齐数据质量与多样性。要求具备大模型算法基础,熟练使用Pytorch、transformers、megatron等主流框架。