名企速投

岗位描述

岗位描述：负责构建稳健、高效的软件组件，以支持大语言模型和多模态模型在多 GPU 系统上的高性能推理执行；与内部 GPU 库团队及开源维护者合作，落地提升吞吐、时延与可扩展性的功能；围绕 AI 推理系统开展偏全栈的软件开发，重点关注模型行为与框架集成。具体包括：优化主流深度学习/LLM 框架（如 PyTorch、vLLM、SGLang）在 AMD GPU 上的性能并推动改进上游；开发与 LLM 及多模态架构深度交互的特性，如理解注意力机制、跨模态融合、KV Cache 与量化；在多 GPU 环境中编写兼顾内存占用、并发和瓶颈控制的高效可扩展代码；使用性能分析工具评估改动效果、识别回归并验证性能提升；对多 GPU 与多节点环境开展端到端性能分析，识别并优化系统、内存和通信瓶颈；利用编译器技术和图编译器提升深度学习与推理全流程效率；原型验证并集成 speculative decoding、weight-only quantization 等新型优化技术；采用稳健的软件工程实践交付可维护、可靠、可生产的性能优化代码。岗位要求：具备 Linux 环境下 Python 基础，熟悉 C++ 或异步编程者更佳；理解 LLM 或多模态模型相关概念，包括 Transformer 架构、注意力机制、视觉-语言对齐和推理流程（如图文输入处理）；具备 Transformer/Attention/MoE/KV Cache 及量化（FP8/FP4）的理论基础；熟悉命令行工具、Git 及标准调试/性能分析工具；具备在多 GPU 与多节点环境中分析计算、内存和通信瓶颈的经验。加分项包括：扎实的 Python/C++ 编码、调试与测试能力，能够交付可维护的高性能关键软件，并有开源贡献记录；了解 AMD GPU 上基于 HIP、CUDA、ASM 及 CK、CUTLASS、Triton 的高性能 GPU Kernel 调优；了解 LLVM、ROCm 及编译器驱动的内核和系统优化技术；熟悉多模态模型（如 Qwen-VL、Qwen-Image-Edit、Wan）或扩散生成模型；接触过 ROCm、CUDA 或 PyTorch Profiler 等性能分析工具；具备大模型分布式推理经验，如 Tensor Parallel、Pipeline Parallel。学历要求为计算机科学、计算机工程、电子工程或相关专业本科及以上。

AI 推理软件开发工程师

岗位描述