岗位描述
岗位描述:负责面向 AMD 服务器 GPU 的机器学习端到端定制软件方案的开发、调试、优化和技术支持;面向重点客户提供技术方案与支持,推动客户 PoC 成功;推动 AI 软件在性能与稳定性方面的定制需求落地,覆盖从 POC 需求到 POR 发布、从 GPU kernel 到框架及分布式解决方案;与不同团队协作,从 kernel、框架到整体方案层面对训练和推理负载进行分析与优化;分析竞品方案,识别优劣势并形成价值主张;应用软件工程最佳实践开展开发工作。 岗位要求:需要在机器学习相关方向具备深厚专业能力,包括 kernel 算子(如 MHA、MLA、MOE 等)、相关编程语言与技术(如 Triton/DSL、CUDA/HIP、PTX/ASM 等)、开发库(如 CUTLASS/CK 等)、框架、分布式、编译器以及训练或推理性能优化;具备优秀的 C++ 和 Python 编程能力;具备行业 AI 应用场景与解决方案、端到端流水线、框架或 SDK、并行编程以及较强调试和开发经验;能够独立工作、定义项目目标和范围并主导开发;具备良好的中英文沟通能力;精通 Attention(FA、PA、MLA、Linear Attention 等)、MOE、TOPK 的算法设计与开发;具备模型推理优化经验,如 GEMM/卷积调优、图优化与算子融合;具备 vLLM、Sglang、Megatron-LM、Deepspeed、TensorRT、TensorRT-LLM 等 AI 框架经验;了解 Torch、Triton、LLVM、XLA HLO、图编译器者优先;了解 Linux ROCm/CUDA runtime 与 KMD/UMD driver 者优先;了解 AI 分布式方案(EP/SP/CP/TP/PP/DP、DeepEp、DualPipe、PD aggregation、KV cache 传输与存储)、多 GPU/多节点集合通信原语(NCCL/RCCL)、用于 RDMA/GDR 的 NIC/GPU 驱动及高速网络;了解 Linux OS/driver、CI 及工具链(profiler/DCGM)开发调试;本科或硕士学历,计算机科学、计算机工程、电气工程或相关专业。