名企速投

岗位描述

负责强化学习闭环训练相关算法与工程体系建设，包括熟悉并实现强化学习、离线强化学习、在线闭环训练、策略优化等核心算法，掌握PPO、DQN、SAC等主流算法的代码实现、训练逻辑与调优方法；对智能辅助驾驶场景下的交互数据、决策数据和仿真数据进行预处理、分析与特征工程，挖掘交互规律和决策痛点，支撑闭环训练效果提升；结合真实路测数据和仿真场景数据构建强化学习闭环训练体系，对辅助驾驶决策/规划策略进行微调，优化安全性、舒适性和效率；与规划/控制工程师、仿真工程师协作搭建高效训练平台，推动训练后的策略无缝集成到实际辅助驾驶系统；持续跟踪强化学习、闭环训练和决策智能领域前沿进展，探索离线强化学习、多智能体交互训练等技术在辅助驾驶中的落地应用。

强化学习闭环训练工程师

岗位描述