独角兽

基础设施系统工程师(训练平台)

月之暗面

北京运维/架构/安全社会招聘

岗位描述

基于 Kubernetes 构建稳定、可扩展的大模型训练平台,实现 GPU 算力资源的自动化管理与高效调度;通过自动化手段保障内部超大规模训练任务高效运行;优化训练作业调度器,提升拓扑感知、抢占与弹性扩缩容能力;跟进云原生前沿技术,优化异构资源编排。要求具备良好的代码开发习惯,熟练掌握 Golang,具备基础全栈能力;精通 K8s 核心组件(Scheduler、Kubelet、Operator),具备生产环境下大规模集群运维或开发经验;掌握可观测性理念,熟悉 Prometheus、OpenTelemetry,并具备良好的学习、独立思考、问题解决与团队协作能力。