名企速投

岗位描述

面向Agent场景研究长程任务能力，包括任务分解、阶段规划、子目标管理，提升复杂任务完成率与鲁棒性；研究适用于Agent场景的强化学习方法，包括rollout scaling、在线/离线RL、过程奖励建模、探索策略优化、信用分配、轨迹筛选与策略迭代，提升模型在开放环境中的自主决策与持续改进能力；围绕代码、搜索、工具使用、软件工程等方向构建和优化适用于Agent/RL训练的数据与任务环境，设计高质量轨迹合成、过程监督与自动化反馈机制；针对数学、代码、复杂推理等特定能力领域进行对齐数据构造、筛选和优化，设计数据合成策略，控制数据质量与多样性。

大模型后训练算法研究员

岗位描述