岗位描述
参与通用推理大模型对齐(Alignment)方向的研发工作,涵盖数据循环体系构建,以及在监督微调(SFT)与强化学习(RL)阶段对数据使用策略的系统性研究;深入探索对齐阶段数据与算法在大规模训练中的可扩展性与优化路径;参与构建高性能通用推理大模型,并在多项客观评测指标中保持领先。要求具备计算机、数学、人工智能等相关专业背景,对数据有敏感度,熟悉开源社区各类数据渠道并具备数据处理经验;熟悉大模型研究前沿进展,如 Reasoning RL、Agent RL 等;有相关研究经历、顶级会议论文发表经历者优先;具备扎实的编程基础、优秀的工程能力以及良好的团队协作与沟通能力。