独角兽

推理基础设施工程师

智谱AI

地点待补充人工智能社会招聘

岗位描述

参与大模型推理框架的设计与开发,协助研发支撑大语言模型、图像生成等复杂模型推理的高性能框架,推动算法到产品落地的全链路优化,保障推理的高效性、稳定性和低延迟;参与内存管理、计算资源分配与调度策略优化,使用性能分析工具进行瓶颈定位和调优,提升模型推理速度和资源利用率;学习并探索 KV Cache 优化、模型量化、剪枝、跨机分布式推理优化等前沿推理加速技术。