岗位描述负责在Agentic和多智能体强化学习方向推进算法、环境与基础设施创新,提升Kimi K2及后续模型的真实世界自主能力;需要精通强化学习核心方法,包括策略梯度、Actor-Critic、Self-Play、Meta-RL、MARL,具备大规模训练与低延迟推理系统落地经验,能够进行Python、C++、Rust等系统级编程及分布式基础设施设计;具备在Agentic RL、工具调用智能体或多智能体系统方向的项目上线或研究发表经历,有代码执行沙箱、程序合成或仿真器安全经验者优先。