岗位描述
岗位描述:负责面向 AMD 服务器 GPU 的机器学习软件定制开发、调试、优化和技术支持;面向重点客户提供技术方案与支持,推动客户 PoC 成功;推动 AI 软件定制需求落地,覆盖从 POC 需求到 POR 发布、从 GPU kernel 到框架及分布式解决方案;与不同团队协同分析并优化训练和推理负载及整体方案;分析竞品方案,识别优劣势并形成清晰价值主张;应用软件工程最佳实践开展研发工作。 岗位要求:需要在机器学习相关领域具备专家级能力,涵盖框架(如 vLLM、Sglang、Megatron-LM、Deepspeed、TensorRT 等)、分布式、kernel 算子、编译器、运行时、驱动以及训练或推理性能优化;具备优秀的 C++ 和 Python 编程能力;具备行业 AI 应用场景、解决方案、端到端流水线、框架或 SDK 的实操经验,以及较强的调试与开发能力;能够独立工作、定义项目目标和范围并主导开发;具备良好的中英文沟通能力;精通 AI 框架,如 vLLM、Sglang、Megatron-LM、Deepspeed、TensorRT、TensorRT-LLM;具备 AI 分布式方案经验,包括 EP/CP/TP/PP/DP、DeepEp、DualPipe、PD aggregation、KV cache 传输与存储;具备多 GPU/多节点分布式网络通信经验,熟悉 NCCL/RCCL 等集合通信原语、面向 RDMA/GDR 的 NIC/GPU 驱动及高速网络;具备 GPU kernel 原语如 FA、PA、MOE、MLA 的集成与开发经验,熟悉 torch、triton、CUDA、CK、ASM 等;了解并行编程,最好具备 CUDA C/C++、HIP 或着色器编程经验;了解模型推理优化流程,如 GEMM/卷积调优、图优化和算子融合;了解 Linux OS/driver、CI 及工具链(profiler/DCGM)开发与调试;了解 Linux DRM、HSA、ROCm KMD/UMD driver 者优先;了解 triton/TVM 编译器者优先;本科或硕士学历,计算机科学、计算机工程、电气工程或相关专业。