名企速投

岗位描述

负责多模态基础模型的强化学习相关算法工作，参与模型训练、调优和部署，确保算法有效性与效率；开展多模态大模型强化学习技术的前瞻性探索，包括离线强化学习、多轮强化学习等方向；改进多模态大模型强化学习分布式工程框架，实现更高效的模型训练。要求具备计算机科学、电子信息、人工智能、统计学等相关专业硕士及以上学历，具备扎实算法基础，熟悉机器学习与强化学习技术，精通 PyTorch、Transformers、verl 等主流框架，具备 RL 算法优化与实践经验，并具备独立研究能力和良好的团队协作精神。

多模态强化学习算法工程师

岗位描述