名企速投

岗位描述

构建真实工作场景与代码任务 Benchmark，设计基于 Docker 的 Agent 执行环境，包括代码运行、测试与结果验证；研发 CodeAgent 框架，实现任务规划、代码生成、执行与迭代闭环；构建 Agent Runtime，包括工具调用、环境管理与执行状态控制；搭建可扩展的多模型对比评测系统，优化 Agent 执行稳定性、可复现性与评测效率；推动研究能力向工程系统转化，支持模型与 Agent 的快速迭代。要求具备扎实软件工程能力，熟悉 Python、Go、TypeScript、Docker、Linux 及自动化执行流程。

大模型评测基建工程师

岗位描述