岗位描述
负责多模态基础模型的强化学习相关算法工作,参与模型训练、调优和部署,确保算法有效性与效率;开展多模态大模型强化学习技术的前瞻性探索,包括离线强化学习、多轮强化学习等方向;改进多模态大模型强化学习分布式工程框架,实现更高效的模型训练。要求具备计算机科学、电子信息、人工智能、统计学等相关专业硕士及以上学历,具备扎实算法基础,熟悉机器学习与强化学习技术,精通 PyTorch、Transformers、verl 等主流框架,具备 RL 算法优化与实践经验,并具备独立研究能力和良好的团队协作精神。