独角兽

NLP算法实习生

零一万物

北京算法社会招聘

岗位描述

负责面向国内及海外场景的大模型安全护栏模型训练、评测与迭代优化;参与安全价值观对齐模型的数据构建、清洗、标注与增强;协助设计多语言安全测试集 Benchmark,评估模型在敏感、违规、越狱等场景下的鲁棒性;支持基于 DPO、SFT 等技术的安全微调实验,分析训练曲线与对齐效果;编写自动化脚本,提升数据处理与模型评测效率,并输出清晰的技术文档。