岗位描述
负责 MiniCPM-o 全模态全双工模型的评测系统建设,覆盖 ASR、VoiceBench、OmniBenchmark、FullDuplex Bench、LiveSports 等任务;建设自动化评测流水线,负责评测框架的设计、维护与重构,并维护评测可用性、结果可视化工具和 badcase 分析工具;与算法团队协作,基于评测结果定位模型问题,推动训练数据、训练策略和模型能力迭代;参与设计全双工模型专项评测,包括说话时机、打断、多说话人、主动提醒、延迟、多轮上下文记忆、工具调用等。要求具备较强软件工程能力,熟练使用 Python,熟悉 Linux、Shell、Git,了解大模型或多模态模型推理流程,能够结合案例、指标和日志产出评测报告。