岗位描述
负责端侧大模型在手机、驾舱及智能硬件等终端的压缩部署;开展端侧大模型前沿压缩算法研究,推动剪枝、量化、蒸馏、稀疏化等技术的创新与应用;探索并攻关端侧大模型低精度训练技术,从训练阶段提升模型对低精度计算的适应性;研究与设计硬件友好的低精度量化算法,协同底层算子团队实现异构硬件上的极致性能优化。要求精通模型压缩理论,深入理解剪枝、量化、知识蒸馏、稀疏化、低秩分解等技术的数学原理与工程权衡;具备大模型量化研究与工程经验,熟悉 SmoothQuant、AWQ、GPTQ、QuaRot 等前沿方法;能够系统定位低精度部署中的性能与精度瓶颈;熟悉 ARM CPU、Adreno/Mali GPU、Qualcomm/MTK NPU 等主流端侧硬件架构与低精度指令集。