独角兽

预训练数据工程师

月之暗面

北京数据开发社会招聘

岗位描述

负责设计和优化大规模Web爬虫的URL发现与调度系统,持续扩大数据覆盖面;建设多因子抓取优先级体系,在有限资源下最大化高质量页面获取效率;主导反爬对抗和动态渲染方案,提升核心站点抓取成功率;建立从域名到页面的多层级数据质量评估闭环;优化大规模数据处理管线的性能与稳定性。要求具备大规模搜索引擎或Web爬虫系统实战经验,熟悉全网URL发现手段、主流反爬机制及对抗方案,具备扎实的分布式数据处理能力,具备大模型预训练语料采集和清洗经验者优先。