岗位描述
负责多模态大模型(Vision-Language Model,VL/Omni)的研发与优化,重点面向端侧设备(移动端);设计与实现下一代端侧友好的模型结构,针对特定芯片进行算法与系统协同设计;研究并落地低比特量化(w4a8、w2a16、fp8),协助完成异构硬件(如 NPU)的模型部署;支持下游多模态 Agent、端云 Agent 协同、场景对话、实时感知等业务需求,探索 VLM 在端上实时场景中的新应用。要求熟悉主流 LLM、VLM、Diffusion Model 的原理与实现,掌握预训练、后训练及模型压缩加速技术,熟悉 Megatron、Deepspeed、vLLM、llama.cpp、TNN/MNN 等训练、推理、部署框架,具备良好代码能力;加分项包括使用 Cuda、Triton 进行细粒度性能优化,以及系统掌握前沿 LLM/VLM 算法与训练方法。