外企

AI 软件工程师

超威半导体(AMD)

北京运维/架构/安全社会招聘

岗位描述

岗位描述:负责可靠性治理,包括标准、运行手册、SLI/SLO 的制定与维护,并推动 KPI 指标改进,如 goodput/badput;推动快速恢复路径的生产化建设,包括故障检测、故障隔离、成员变更以及无需整体停机重启的任务续跑;建立故障注入、混沌工程和回归门禁机制,防止 GPU/NIC/节点、通信、存储、运维维护等方面的可靠性回退;负责日常故障响应和根因分析,并将经验沉淀为预防性修复方案。 岗位要求:具备扎实的软件与系统工程能力,能够端到端调试复杂分布式故障,包括 Linux、网络和并发问题;具备大规模分布式训练实战经验,熟悉 PyTorch Distributed、torchrun 及常见并行模式;掌握加速器基础与运维调试能力,包括 GPU/NPU、驱动、运行时和性能分析工具;理解 RDMA 网络和集合通信基础,如 all-reduce、all-gather、all-to-all 及相关故障模式。加分项包括:具备 TorchFT 或类似逐步容错/无检查点恢复经验;具备大规模集群运维和自动化修复经验,如健康检查、drain/replace、拓扑感知调度;具备训练稳定性加固经验,如 hang watchdog、NaN/Inf 控制、OOM/内存碎片缓解。学历要求为计算机科学、计算机工程、电气工程或相关专业本科或硕士。