外企

AI训练优化工程师

超威半导体(AMD)

上海人工智能社会招聘

岗位描述

岗位描述:加入 AMD 训练优化团队,帮助客户在 AMD GPU 上顺畅且高效地训练 AI 模型;识别并补齐 AMD 训练生态中的能力缺口,优化关键 Kernel,并利用前沿技术提升大规模系统上的训练性能上限;参与 Kernel Agent 工具的开发与优化,加快 Kernel 迭代效率,辅助实现极致 GPU 性能;面向真实训练工作负载,使用 HIP、CUDA、Triton 设计并优化热点算子;改进框架集成,增强基于 ROCm 的训练性能;探索稀疏注意力、线性注意力算子等新一代 Kernel 技术;与 GPU 库团队、运行时/通信团队及开源维护者合作,推动上游改进;通过更优的通信/计算重叠和并行策略优化多 GPU、多节点分布式训练性能。 岗位要求:具备扎实的 GPU 性能优化能力,理解算法、模型架构与 Kernel 实现,能够从数学概念深入到底层优化,并善于定位真实训练瓶颈;能够直接面向客户工作,并与内部多团队协作;具备 HIP、CUDA、Triton 及 GPU 性能调优实战经验;深入理解 Transformer 模型、注意力机制和训练算法;具备使用底层工具进行 Kernel 性能分析与优化的经验;熟悉 PyTorch 内部机制、Megatron-LM、DeepSpeed 或其他大规模训练框架;具备分布式训练调试或优化经验,如 DP、TP、PP、ZeRO;具备构建或优化 Kernel Agent、运行时调度器或性能自动化工具的经验者优先;对 CUTLASS、CK、Triton 或机器学习编译器生态有贡献者优先;具备计算机科学、计算机工程、电子工程或相关专业本科或硕士学历。