跟进学术界和企业界前沿评测基准,持续完善世界级 SOTA 模型观测榜单;开发评测基建,联合模型训练框架共同建设评测体系,保证与开源社区及头部闭源模型可对比,并具备完善的对点机制;日常维护评测榜单,健全评测工程体系,提高评测效率;分析模型迭代在榜单中体现的能力不足,研究主流 SOTA 模型间的评测差异。要求熟悉大模型评测、数据处理及相关工程研发。
跟进学术界和企业界前沿评测基准,持续完善世界级 SOTA 模型观测榜单;建设与开源社区及头部闭源模型可对比的评测体系,完善对点机制,保障评测结果可靠性;日常维护评测榜单,健全评测工程体系,提高评测效率;分析模型迭代在榜单中反映出的能力短板,研究主流 SOTA 模型在评测中的差异。要求熟悉大模型前沿进展和主流 benchmarks,具备大模型评测经验,并具备数据处理与工程开发能力。