岗位描述跟进学术界和企业界前沿评测基准,持续完善世界级 SOTA 模型观测榜单;开发评测基建,联合模型训练框架共同建设评测体系,保证与开源社区及头部闭源模型可对比,并具备完善的对点机制;日常维护评测榜单,健全评测工程体系,提高评测效率;分析模型迭代在榜单中体现的能力不足,研究主流 SOTA 模型间的评测差异。要求熟悉大模型评测、数据处理及相关工程研发。