岗位描述
负责设计、搭建并持续迭代大模型多维度评测框架,使模型能力可衡量、可对比、可解释;与算法团队协作,将评测结论转化为数据需求,识别能够提升模型能力的关键数据并推动落地;持续跟踪前沿论文与开源社区,及时将新的评测维度和数据策略应用到业务中,并以产品思维推动问题发现与解决。要求具备至少一种Python、Go、Java、C++语言使用经验,能够独立编写脚本、调用API、搭建小工具,熟悉SQL、Pandas、Jupyter等分析工具,对大模型及SFT、RL等概念有基础认知,并具备大模型benchmark或evaluation相关工作经验。