岗位描述
构建真实工作场景与代码任务 Benchmark,设计基于 Docker 的 Agent 执行环境,包括代码运行、测试与结果验证;研发 CodeAgent 框架,实现任务规划、代码生成、执行与迭代闭环;构建 Agent Runtime,包括工具调用、环境管理与执行状态控制;搭建可扩展的多模型对比评测系统,优化 Agent 执行稳定性、可复现性与评测效率;推动研究能力向工程系统转化,支持模型与 Agent 的快速迭代。要求具备扎实软件工程能力,熟悉 Python、Go、TypeScript、Docker、Linux 及自动化执行流程。