岗位描述负责制作 Coding Agent 的 Benchmark,覆盖基础设施到数据环节;研究和使用 Claude Code、Cursor、Codex、Cline 等代码辅助工具,构建除 SWE Bench 之外的多维度评估指标;结合 Golang、Rust、Python、TypeScript 等语言能力,打造团队自有的 Coding 工具;能够识别问题、评估工具与方案优劣,并结合开源项目经验推动工程改进。