独角兽

AI基础设施工程师

面壁智能

北京运维/架构/安全社会招聘

岗位描述

专注于大语言模型和多模态模型在端侧或服务器端的量化与推理性能优化,围绕模型结构与数值特性设计稳定、可复现的量化方案,增强对不同模型结构的通用性;负责大模型与多模态模型的量化方案设计与实现;推进权重量化、激活量化及混合精度策略的工程化落地;分析和处理量化过程中的异常值,并评估其对精度的影响与策略选择;负责 KV Cache、Attention、FFN 等核心模块的量化与验证;完成量化模型在主流推理框架中的部署与问题排查;跟进主流模型架构与量化技术演进,为团队提供技术储备。