名企速投

岗位描述

岗位描述：负责面向 AMD 服务器 GPU 的机器学习端到端定制软件方案的开发、调试、优化和技术支持；面向重点客户提供技术方案与支持，推动客户 PoC 成功；推动 AI 软件在性能与稳定性方面的定制需求落地，覆盖从 POC 需求到 POR 发布、从 GPU kernel 到框架及分布式解决方案；与不同团队协作，从 kernel、框架到整体方案层面对训练和推理负载进行分析与优化；分析竞品方案，识别优劣势并形成价值主张；应用软件工程最佳实践开展开发工作。岗位要求：需要在机器学习相关方向具备深厚专业能力，包括 kernel 算子（如 MHA、MLA、MOE 等）、相关编程语言与技术（如 Triton/DSL、CUDA/HIP、PTX/ASM 等）、开发库（如 CUTLASS/CK 等）、框架、分布式、编译器以及训练或推理性能优化；具备优秀的 C++ 和 Python 编程能力；具备行业 AI 应用场景与解决方案、端到端流水线、框架或 SDK、并行编程以及较强调试和开发经验；能够独立工作、定义项目目标和范围并主导开发；具备良好的中英文沟通能力；精通 Attention（FA、PA、MLA、Linear Attention 等）、MOE、TOPK 的算法设计与开发；具备模型推理优化经验，如 GEMM/卷积调优、图优化与算子融合；具备 vLLM、Sglang、Megatron-LM、Deepspeed、TensorRT、TensorRT-LLM 等 AI 框架经验；了解 Torch、Triton、LLVM、XLA HLO、图编译器者优先；了解 Linux ROCm/CUDA runtime 与 KMD/UMD driver 者优先；了解 AI 分布式方案（EP/SP/CP/TP/PP/DP、DeepEp、DualPipe、PD aggregation、KV cache 传输与存储）、多 GPU/多节点集合通信原语（NCCL/RCCL）、用于 RDMA/GDR 的 NIC/GPU 驱动及高速网络；了解 Linux OS/driver、CI 及工具链（profiler/DCGM）开发调试；本科或硕士学历，计算机科学、计算机工程、电气工程或相关专业。

AI软件系统设计工程师

岗位描述