独角兽

强化学习闭环训练工程师

Momenta

北京 / 上海 / 苏州人工智能社会招聘

岗位描述

负责强化学习闭环训练相关算法与工程体系建设,包括熟悉并实现强化学习、离线强化学习、在线闭环训练、策略优化等核心算法,掌握PPO、DQN、SAC等主流算法的代码实现、训练逻辑与调优方法;对智能辅助驾驶场景下的交互数据、决策数据和仿真数据进行预处理、分析与特征工程,挖掘交互规律和决策痛点,支撑闭环训练效果提升;结合真实路测数据和仿真场景数据构建强化学习闭环训练体系,对辅助驾驶决策/规划策略进行微调,优化安全性、舒适性和效率;与规划/控制工程师、仿真工程师协作搭建高效训练平台,推动训练后的策略无缝集成到实际辅助驾驶系统;持续跟踪强化学习、闭环训练和决策智能领域前沿进展,探索离线强化学习、多智能体交互训练等技术在辅助驾驶中的落地应用。