岗位描述
岗位描述:设计、开发和实现高效的大型模型推理系统,以提升计算性能和算力利用率;进行模型性能分析与调优,识别并解决瓶颈问题,提高模型推理速度;跟踪最新研究进展和技术趋势,提出改进与创新方案,推动团队技术发展。 岗位要求:深入理解大模型算法原理,熟悉常见模型结构,包括 GPT 系列、Llama 系列、DeepSeek 系列等;熟悉至少一种主流 LLM 推理引擎,如 vLLM、SGLang 等,掌握其底层技术原理,如 FlashAttention、PagedAttention、Continuous Batching、Speculative Decoding 等,并具备开发优化经验;了解分布式推理框架原理,如 PD 分离、Expert Parallel 等;熟悉 Python、C、C++ 编程,熟练掌握 PyTorch 等至少一种深度学习框架;具备算子优化经验,包括但不限于 CUDA、Triton。加分项:有大模型推理加速落地经验者优先;熟悉分布式推理加速框架,有超大模型分布式加速经验者优先。