外企

Triton 编译器/GPU 内核性能工程师

超威半导体(AMD)

上海人工智能社会招聘

岗位描述

岗位描述:负责 AMD GPU 上 AI 工作负载的端到端性能架构定义、分析与优化,覆盖 GPU 微架构、编译器行为、运行时系统和深度学习框架等全栈环节;主导关键 AI 工作负载的性能架构设计,制定跨架构优化策略;诊断内核、内存、编译器和运行时各层瓶颈,并建立定性与定量性能模型;为 AI 内核定义分块、调度和内存布局策略,评估可移植性与峰值性能之间的权衡,并指导实现工程师选择正确优化方向;与编译器团队(LLVM、ROCm)协作分析生成代码,推动调度、寄存器分配和代码生成改进,并使内核设计与运行时行为(流、同步、分布式执行)保持一致;设计可复现的基准测试框架,定义回归指标和性能 KPI,确保跨架构比较有效;参与支持性能可移植性的抽象层设计,保证架构特定优化的可维护性,并识别跨 GPU 世代的架构不变量;在技术层面辅导内核工程师,从架构层面评审优化方案,并在内部或外部输出技术洞察。 岗位要求:具备扎实的 GPU 内核开发与优化经验,熟悉 HIP、CUDA 或类似技术;深入理解 GPU 微架构概念,包括 wavefront 执行、内存层次结构、缓存行为、寄存器压力与占用率、指令调度;具备分析编译器生成代码的经验,如 LLVM IR、ISA、ASM;能够使用性能分析工具定位性能瓶颈;具备 Linux 环境下较强的 C++ 开发经验;有 AI 工作负载优化经验者优先,如 attention、MoE、GEMM、卷积;熟悉 ROCm、LLVM 或 GPU 编译器内部机制者优先;熟悉性能建模或 roofline 分析者优先;具备跨硬件与软件团队协作经验者优先;参与过开源 GPU 性能项目者优先;本科、硕士或博士学历,计算机科学、计算机工程、电子工程或相关专业。