名企速投

岗位描述

岗位描述：负责 MORI 在 SGLang 与 vLLM 中的端到端集成，包括 Python 算子 API、MoE 前向过程中的 MORI-EP dispatch/combine，以及 KVCache 传输链路中的 MORI-IO；将 MORI-UMBP 的分层 KVCache 存储与分布式键值访问能力集成到推理服务栈；将 MORI-IO 集成到 prefill/decode 路径，实现基于 GPU-direct RDMA 的高吞吐 KVCache 传输；在 SGLang 与 vLLM 中落地并维护 MORI-EP，覆盖调度、路由和面向 DeepSeek V3 等 MoE 模型在 8–64 GPU 场景下的 EPLB；集成并维护支撑 MORI 全组件的对称内存运行时，包括对称 GPU 内存分配、RDMA 传输初始化（IB、AINIC、Thor2）、P2P/XGMI 地址转换，以及通过 MORI-IR bitcode 管理 GPU kernel 的设备侧状态；设计并执行端到端性能基准测试，包括吞吐、TTFT、ITL，并基于 Profiling 数据推动优化。该岗位聚焦 MORI 低层 GPU 网络层与大规模推理框架之间的桥接，相关成果将直接进入开源和生产环境。岗位要求：深入熟悉至少一种主流 LLM 推理框架，如 SGLang、vLLM、TensorRT-LLM 或同类框架，理解其调度器、attention 后端、KVCache 管理器和分布式执行引擎；深刻理解 LLM 服务，包括 MoE 专家并行、prefill/decode 解耦、KVCache 复用，以及 tensor/pipeline/sequence 并行；具备扎实的 C++ 和 Python 能力，能适应 C++/HIP/Python 混合代码库及 PyTorch 自定义算子扩展开发；具备参与大型开源项目经验，包括上游 PR、代码评审和跨团队协作；加分项包括熟悉 RDMA 概念（verbs API、queue pairs、completion queues、memory registration、GPUDirect Async/IBGDA）、集合通信库（NCCL、RCCL、MPI）及其在分布式系统中的集成、GPU 集群网络拓扑（XGMI/NVLink、InfiniBand/RoCE）及其对 MoE all-to-all 模式的影响、NIC 厂商生态与用户态驱动库、使用 rocprofv3、Perfetto、ibstat/perfquery 对网络瓶颈负载进行分析，以及 ROCm、hipcc 或 AMD GPU 架构经验。

AI软件工程师（高性能GPU通信）

岗位描述