名企速投

岗位描述

负责代码预训练数据的合成、清洗、权重分配与来源扩充，持续提升代码预训练和中程训练阶段的数据质量；研究预训练中小领域数据配比与最终效果之间的关系，开发数据合成链路，解决代码模型中的关键问题；研究深度推理技术，探索 Test-time Compute 与模型效果的 Scaling Laws，参与后训练奖励模型与强化学习算法的优化流程，探索从线上代码补全数据到强化学习过程的数据飞轮；专注于代码强化学习中奖励模型的优化与创新，包括与 SFT 阶段协同解决判别能力较弱场景、探索合成数据预训练奖励模型、组织标注、研究 Critic 方法，以及对强化学习过程中的可执行代码与单元测试进行质量过滤和扩充。

代码大模型算法工程师/研究员

岗位描述