岗位描述参与 MiniCPM-o 多模态模型的音视频联合理解能力建设,包括音频理解、视频理解、音视频联合理解等方向;参与全模态全双工大模型研发,包括主动提醒、边看边说、打断处理等能力建设;负责音频、视频多模态训练数据的构建、清洗、配比与训练策略设计,提升模型在复杂全模态场景下的理解与推理能力;优化音视频-语言模态对齐、时间建模、长序列建模和多模态融合效果。