岗位描述负责多模态大数据处理链路的开发与优化,设计、开发和维护基于 Spark、Ray 的大规模自动化 ETL Pipeline,处理 PB 级多模态图文数据;优化图文数据的准确性与丰富度,提升多模态模型能力上限。要求具备扎实编码能力,熟悉 Python、多线程编程、分布式计算、网络通信、内存管理,熟悉 Linux 环境及 Shell/Python 自动化脚本,掌握 Spark、Hive、Hadoop 等大数据处理工具,有 VLM 数据管理或处理基建经验者优先。