岗位描述负责多模态基础模型的强化学习算法相关工作,参与模型训练、调优和部署,确保算法有效性与效率;开展多模态大模型强化学习技术的前瞻探索,包括离线强化学习、多轮强化学习等方向;改进多模态大模型强化学习的分布式工程框架,实现更高效的模型训练。