名企速投

岗位描述

负责在Agentic和多智能体强化学习方向推进算法、环境与基础设施创新，提升Kimi K2及后续模型的真实世界自主能力；需要精通强化学习核心方法，包括策略梯度、Actor-Critic、Self-Play、Meta-RL、MARL，具备大规模训练与低延迟推理系统落地经验，能够进行Python、C++、Rust等系统级编程及分布式基础设施设计；具备在Agentic RL、工具调用智能体或多智能体系统方向的项目上线或研究发表经历，有代码执行沙箱、程序合成或仿真器安全经验者优先。

研究科学家/工程师—Agentic强化学习

岗位描述