外企

AI软件工程师(高性能GPU通信)

超威半导体(AMD)

上海人工智能社会招聘

岗位描述

岗位描述:负责 MORI 在 SGLang 与 vLLM 中的端到端集成,包括 Python 算子 API、MoE 前向过程中的 MORI-EP dispatch/combine,以及 KVCache 传输链路中的 MORI-IO;将 MORI-UMBP 的分层 KVCache 存储与分布式键值访问能力集成到推理服务栈;将 MORI-IO 集成到 prefill/decode 路径,实现基于 GPU-direct RDMA 的高吞吐 KVCache 传输;在 SGLang 与 vLLM 中落地并维护 MORI-EP,覆盖调度、路由和面向 DeepSeek V3 等 MoE 模型在 8–64 GPU 场景下的 EPLB;集成并维护支撑 MORI 全组件的对称内存运行时,包括对称 GPU 内存分配、RDMA 传输初始化(IB、AINIC、Thor2)、P2P/XGMI 地址转换,以及通过 MORI-IR bitcode 管理 GPU kernel 的设备侧状态;设计并执行端到端性能基准测试,包括吞吐、TTFT、ITL,并基于 Profiling 数据推动优化。该岗位聚焦 MORI 低层 GPU 网络层与大规模推理框架之间的桥接,相关成果将直接进入开源和生产环境。 岗位要求:深入熟悉至少一种主流 LLM 推理框架,如 SGLang、vLLM、TensorRT-LLM 或同类框架,理解其调度器、attention 后端、KVCache 管理器和分布式执行引擎;深刻理解 LLM 服务,包括 MoE 专家并行、prefill/decode 解耦、KVCache 复用,以及 tensor/pipeline/sequence 并行;具备扎实的 C++ 和 Python 能力,能适应 C++/HIP/Python 混合代码库及 PyTorch 自定义算子扩展开发;具备参与大型开源项目经验,包括上游 PR、代码评审和跨团队协作;加分项包括熟悉 RDMA 概念(verbs API、queue pairs、completion queues、memory registration、GPUDirect Async/IBGDA)、集合通信库(NCCL、RCCL、MPI)及其在分布式系统中的集成、GPU 集群网络拓扑(XGMI/NVLink、InfiniBand/RoCE)及其对 MoE all-to-all 模式的影响、NIC 厂商生态与用户态驱动库、使用 rocprofv3、Perfetto、ibstat/perfquery 对网络瓶颈负载进行分析,以及 ROCm、hipcc 或 AMD GPU 架构经验。