岗位描述
负责端侧(手机、驾舱、智能硬件)大模型的部署工作,包括框架开发、算子优化、硬件适配等;负责端侧大模型前沿优化技术的调研与落地;参与模型、系统与硬件的协同优化与联合设计。要求熟悉 Linux,熟悉 C/C++/Python,具有良好编程风格;熟悉主流 LLM、VLM 模型架构及常用优化技术,如 Continuous-Batching、Speculative-Decoding、Quantization;熟悉至少一款主流推理引擎框架,如 llama.cpp、MNN、vLLM、TensorRT;熟悉 OpenCL、CUDA 等并行编程及异构系统开发,有 Qualcomm NPU 开发经验者优先。