岗位描述
基于SGLang进行大模型推理引擎与服务侧开发,提升吞吐、降低时延与成本,保障线上稳定性。支持RL训练相关推理链路,包括rollout生成、打分与奖励模型推理,优化训练闭环效率和资源利用。建设推理侧监控与性能分析能力,参与线上问题定位与故障处理。与算法和训练团队协作,将模型与训练需求落地为可运行、可维护的推理系统,并输出必要技术文档。要求熟练使用Python或C++,熟悉GPU推理、PyTorch等深度学习框架,了解分布式通信与并行基础,具备线上系统排障和推理性能优化能力;有大模型推理系统、RLHF/RL推理链路、训练推理协同、算子或运行时优化经验者优先。