独角兽

大模型算法工程师(预训练数据研究)

智谱AI

北京人工智能社会招聘

岗位描述

负责设计和优化 PB 级多模态训练数据的筛选、去重与清洗体系;优化基于 LLM 的语义级去重算法和质量筛选算法,并制定支持代码、数学、科学等专业领域的特定数据筛选策略;构建基于大模型的数据质量自动评估系统,设计数据多样性、复杂度、有用性等多维评估指标;优化数据配比策略,包括领域权重、语言分布和质量分层;构建数据污染检测算法,识别测试数据泄露。要求具备大模型预训练项目经验和大规模训练数据处理经验,精通 Spark、Ray、MaxCompute 等分布式计算框架,掌握 LSH、SimHash 等高性能文本处理算法,并熟悉云原生数据处理架构与数据质量评估方法。