岗位描述
负责在Android、嵌入式Linux平台落地大模型与多模态推理系统,深入底层系统及GPU/DSP/NPU异构计算,优化模型性能和内存管理,确保AI推理在端侧高效稳定运行。工作包括端侧语言模型与多模态模型推理部署、异构硬件性能调优与内存管理、研究主流芯片厂商技术栈演进、推理框架与工具链及跨平台构建系统开发优化、模型量化与KV Cache管理及端侧推理优化,并跟进Transformer及其衍生变体、EAGLE等前沿模型架构与加速技术演进。要求了解主流模型架构,熟悉至少一种端侧推理框架,理解投机采样等推理加速思路,精通Python/C/C++,具备Android NDK与aarch64交叉编译经验,以及多线程和内存管理实战经验。