岗位描述
岗位描述:负责构建稳健、高效的软件组件,以支持大语言模型和多模态模型在多 GPU 系统上的高性能推理执行;与内部 GPU 库团队及开源维护者合作,落地提升吞吐、时延与可扩展性的功能;围绕 AI 推理系统开展偏全栈的软件开发,重点关注模型行为与框架集成。具体包括:优化主流深度学习/LLM 框架(如 PyTorch、vLLM、SGLang)在 AMD GPU 上的性能并推动改进上游;开发与 LLM 及多模态架构深度交互的特性,如理解注意力机制、跨模态融合、KV Cache 与量化;在多 GPU 环境中编写兼顾内存占用、并发和瓶颈控制的高效可扩展代码;使用性能分析工具评估改动效果、识别回归并验证性能提升;对多 GPU 与多节点环境开展端到端性能分析,识别并优化系统、内存和通信瓶颈;利用编译器技术和图编译器提升深度学习与推理全流程效率;原型验证并集成 speculative decoding、weight-only quantization 等新型优化技术;采用稳健的软件工程实践交付可维护、可靠、可生产的性能优化代码。 岗位要求:具备 Linux 环境下 Python 基础,熟悉 C++ 或异步编程者更佳;理解 LLM 或多模态模型相关概念,包括 Transformer 架构、注意力机制、视觉-语言对齐和推理流程(如图文输入处理);具备 Transformer/Attention/MoE/KV Cache 及量化(FP8/FP4)的理论基础;熟悉命令行工具、Git 及标准调试/性能分析工具;具备在多 GPU 与多节点环境中分析计算、内存和通信瓶颈的经验。加分项包括:扎实的 Python/C++ 编码、调试与测试能力,能够交付可维护的高性能关键软件,并有开源贡献记录;了解 AMD GPU 上基于 HIP、CUDA、ASM 及 CK、CUTLASS、Triton 的高性能 GPU Kernel 调优;了解 LLVM、ROCm 及编译器驱动的内核和系统优化技术;熟悉多模态模型(如 Qwen-VL、Qwen-Image-Edit、Wan)或扩散生成模型;接触过 ROCm、CUDA 或 PyTorch Profiler 等性能分析工具;具备大模型分布式推理经验,如 Tensor Parallel、Pipeline Parallel。学历要求为计算机科学、计算机工程、电子工程或相关专业本科及以上。