岗位描述负责代码预训练数据的合成、清洗、权重分配和来源扩充等工作,持续提升代码预训练与中训练数据质量;研究预训练中小领域数据配比与最终效果之间的关系;开发数据筛选与合成链路,提升基座模型在下游代码任务中的能力。