独角兽

分布式训练平台工程师

小马智行

广州人工智能社会招聘

岗位描述

负责分布式训练平台的性能优化与稳定性提升;优化多机多卡训练的吞吐与资源利用率(GPU/CPU/网络/存储);定位并解决通信瓶颈、显存压力、长尾卡顿等问题;维护和演进训练调度、资源管理系统及相关基础设施;建设性能基线、监控与告警体系,提升可观测性与问题响应效率。要求本科及以上学历,熟悉 PyTorch 分布式训练(DDP/FSDP 至少其一)、GPU 训练栈(CUDA、NCCL),具备性能分析与优化、工程实践及故障排查能力。