岗位描述
负责大规模分布式训练与推理基础架构的设计、开发和优化,支持千卡级大模型训练;针对多模态数据特点,通过分布式并行策略和通信优化技术支持长序列训练,解决训练效率瓶颈;构建和维护海量多模态数据的流式处理管道,支撑大规模预训练阶段的数据高速加载;负责多模态推理引擎的功能开发和性能优化,包括吞吐优化、时延优化和性能瓶颈排查。要求熟悉Transformer模型架构,精通Megatron-LM、DeepSpeed、Colossal-AI等训练框架之一,具备GPU系统架构、CUDA编程、Serving框架及C/C++、Python开发能力。