岗位描述
1、参与构建面向视频生成大模型训练的高质量多模态数据集,覆盖视频、图像、音频、文本等模态;2、使用开源模型(如 CLIP、Whisper、Qwen-VL、DOVER、Diarization 等)对原始数据进行智能清洗、质量打分与标注;3、开发高效的数据处理算子与流水线(基于 Python/PyTorch),参与实际生产系统迭代;4、与算法工程师协作,针对模型训练中暴露的数据问题(如噪声、偏差、模态对齐缺失等)设计工程化解决方案;5、探索数据与模型协同优化的新方法,处理的数据将直接用于视频生成模型训练。任职要求:计算机、人工智能、软件工程或相关专业在读,熟练使用 Python,有 PyTorch 实际经验;对视频、音频、图像等多模态数据处理有兴趣,动手能力强;有 FFmpeg、OpenCV、HuggingFace Transformers/Datasets、视频理解、音频处理、WebDataset、分布式数据处理、开源项目经验者优先。