岗位描述面向GPU、昇腾架构开展算子性能画像、热点定位与优化,持续提升吞吐与时延稳定性;结合训练与推理场景,协同框架与编译链路进行内核调优、算子融合、内存访问与并行策略优化;建设性能基线与度量方法,沉淀可复用的优化范式与最佳实践,推动持续优化闭环。要求理解计算图、并行化、向量化、内存层次与缓存友好性等关键要点,熟悉主流AI算法与框架,能够独立完成性能分析、问题定位与优化落地,并熟悉主流性能分析工具及性能优化流程。