外企

深度学习内核软件性能架构师

英伟达

上海人工智能社会招聘

岗位描述

岗位描述:负责面向先进数据中心平台优化 GPU 内核性能,构建自动化、数据驱动的工作流,用于发现、解释并防止关键深度学习工作负载中的性能回退,并与内核开发、编译器、基础设施、架构及性能团队紧密协作。具体包括:对 GPU 加速内核及关键深度学习基础模块进行性能验证、分析与调试;端到端定位性能问题,包括复现问题、隔离根因、提出修复或缓解方案,并推动相关团队闭环解决;基于基线、受控对比和回归归因构建结构化性能分析结论;开发和维护基于 Python 的性能测试与分析自动化工具,并使用现代 AI 辅助开发工具提升脚本开发效率,同时保证代码可维护和可审查;设计并运行性能测试工作流,包括覆盖范围定义、测试/负载生成、大规模自动执行(CI/夜间/按需)、重跑规则及可复现性标准;将原始运行结果转化为可执行洞察,包括统计分析、噪声控制、后处理、可视化及大规模结果挖掘;与内核开发者及编译器/轮转团队协作,确保性能检查方案实用、可扩展并符合发布需求;与软件质量保证及基础设施团队合作,支持大规模执行和稳定的流水线/看板建设;参与建立清晰的归属、分诊与流转规则,加速性能回退问题闭环;遵循通用软件工程最佳实践,包括支持回归测试和 CI/CD 流程。 岗位要求:计算机科学、计算机工程、应用数学或相关专业硕士、博士或同等经验;具备扎实的 Python 编程能力,以及 C/C++ 代码阅读、调试和性能分析能力;具备计算机体系结构和性能分析基础,理解延迟/吞吐、存储层次与并行性;具备性能分析工作流经验,包括 profiling、测量方法、可复现性与回归分诊;能够跨团队协作并以清晰沟通推动问题决策与闭环;具备较强的 C++ 编程与软件设计能力,包括调试、性能分析和测试设计;具备性能导向的并行编程经验,即使并非 GPU 场景,如 OpenMP 或 pthreads;扎实理解计算机体系结构并具备一定汇编编程经验;能够识别瓶颈、优化资源利用率并提升吞吐。加分项包括:具备高性能内核或数学库经验,如 GEMM/attention、CUTLASS 类概念;具备 CI/夜间回归系统、看板或大规模性能分析平台建设经验;具备 GPU 编程或性能优化经验(CUDA 或同类并行编程);理解机器学习/深度学习工作负载,包括训练/推理形态、精度模式及性能瓶颈;熟悉模拟器、分析建模或性能表征方法。