名企速投

岗位描述

岗位描述：负责 AMD GPU 上 AI 工作负载的端到端性能架构定义、分析与优化，覆盖 GPU 微架构、编译器行为、运行时系统和深度学习框架等全栈环节；主导关键 AI 工作负载的性能架构设计，制定跨架构优化策略；诊断内核、内存、编译器和运行时各层瓶颈，并建立定性与定量性能模型；为 AI 内核定义分块、调度和内存布局策略，评估可移植性与峰值性能之间的权衡，并指导实现工程师选择正确优化方向；与编译器团队（LLVM、ROCm）协作分析生成代码，推动调度、寄存器分配和代码生成改进，并使内核设计与运行时行为（流、同步、分布式执行）保持一致；设计可复现的基准测试框架，定义回归指标和性能 KPI，确保跨架构比较有效；参与支持性能可移植性的抽象层设计，保证架构特定优化的可维护性，并识别跨 GPU 世代的架构不变量；在技术层面辅导内核工程师，从架构层面评审优化方案，并在内部或外部输出技术洞察。岗位要求：具备扎实的 GPU 内核开发与优化经验，熟悉 HIP、CUDA 或类似技术；深入理解 GPU 微架构概念，包括 wavefront 执行、内存层次结构、缓存行为、寄存器压力与占用率、指令调度；具备分析编译器生成代码的经验，如 LLVM IR、ISA、ASM；能够使用性能分析工具定位性能瓶颈；具备 Linux 环境下较强的 C++ 开发经验；有 AI 工作负载优化经验者优先，如 attention、MoE、GEMM、卷积；熟悉 ROCm、LLVM 或 GPU 编译器内部机制者优先；熟悉性能建模或 roofline 分析者优先；具备跨硬件与软件团队协作经验者优先；参与过开源 GPU 性能项目者优先；本科、硕士或博士学历，计算机科学、计算机工程、电子工程或相关专业。

Triton 编译器/GPU 内核性能工程师

岗位描述