独角兽

大模型训练与分布式优化工程师

面壁智能

北京运维/架构/安全社会招聘

岗位描述

负责公司大模型训练引擎研发,将算法逻辑高效转化为大规模分布式系统实现,重点聚焦训练底座的深度定制与性能优化。在千卡或万卡规模集群上,针对 NVIDIA H 系列或国产算力优化 NCCL/HCCL 通信策略,提升集群 MFU。深度调优 3D 并行(TP/PP/DP),并引入序列并行、上下文并行等技术,解决超长文本训练中的系统工程瓶颈。利用 Triton 或 CUDA 提升核心算子效率,推动 FP8 混合精度训练及 Transformer Engine 在生产环境落地。设计自动化容错与恢复机制,优化分布式 Checkpoint 性能,实现训练任务断点续练与自愈。优化大规模多模态数据下的存储读取与预处理流水线,减少系统 IO 损耗。