岗位描述
利用强化学习方法改进智能体的规划、反思与工具使用能力,提升 code agent 在实际场景中的可用性;探索基于人机协同的高质量数据挖掘与合成,增强智能体的规划和工具利用能力;构建 code agent 的基础能力,包括规划、测试用例、代码生成等;构建多模态智能体,提升多模态大模型 RLHF 训练效果;建设 code agent 的自动化评测体系与 Docker 环境生成能力。岗位还涉及构建基于多模态统一的高价值场景智能体,不局限于代码场景,也包括搜索、浏览器、终端、图片分析创作等工具调用,以及长短期规划与 multi-agent 协同完成复杂任务。