岗位描述
岗位描述:加入AI/ML框架团队,构建并维护可扩展的DevOps基础设施,以加速AMD的AI软件开发;设计并负责CI/CD流水线,管理基于Kubernetes的GPU环境,并使用Python、Go和Ansible实现系统自动化;开发和维护生产级自动化工具与平台,支持跨团队快速、稳定地交付软件;深入掌握CMake、Bazel、Make及编译器工具链等构建工具与流程,从源码到二进制全链路分析并排查复杂构建失败,识别基础设施、工具链和代码层面的根因;理解PyTorch、TensorFlow、ROCm等机器学习框架的架构与代码库,进行问题调试、代码审查与必要修改,以提升构建质量、CI稳定性并支持新特性;设计开发内部工具、自动化脚本和服务,主要使用Python和Go;使用Buildkite、GitHub Actions、Jenkins设计、实施和管理高效持续集成与持续交付流程,支撑机器学习工作负载的快速可靠部署;在本地和云端环境中部署并维护Kubernetes平台,支持可扩展的服务编排;使用Ansible、Python和Bash自动化基础设施的部署、配置和管理,提升一致性并减少人工操作;基于Helm完成Kubernetes中的应用与服务发布;配置、管理和维护GPU计算环境,支持机器学习训练与推理任务的生命周期自动化和硬件级测试集成;与MySQL数据库交互,支持动态数据更新,并将数据接入Grafana看板用于监控和洞察;与ML框架开发、SRE及项目相关方紧密合作,确保系统层面对齐并实现高价值交付;将自动化测试框架集成到CI流程中,保障代码质量、稳定性和性能;培训和辅导团队成员掌握构建系统、CI/CD工作流与调试技术,编写文档、操作手册并组织培训,推动团队在构建基础设施领域持续学习。 岗位要求:计算机科学、软件工程或相关技术专业本科或硕士学历;熟悉CMake、Bazel、Make及GCC、Clang、LLVM等编译器工具链,能够定位复杂构建故障、理解依赖解析并优化构建性能;精通Python和Go,能够用于开发工具、服务和自动化系统;具备阅读和修改C++代码的能力优先;理解PyTorch、TensorFlow、JAX等机器学习框架架构,能够在大型代码库中定位问题并提交修复或改进;具备复杂系统文档编写、团队培训和技术拆解能力;熟练使用Buildkite、GitHub Actions、Jenkins、Ansible及脚本工具;具备Docker、Kubernetes、Helm容器化与编排经验;具备基础设施即代码实践经验,能够实现环境的可复现与可扩展;熟悉GPU服务器生命周期管理、ROCm/CUDA工具链,以及GPU资源在CI测试流程中的集成;有Checkmk、Prometheus、Grafana等监控可观测性工具经验;熟悉Git版本控制、分支策略及与CI/CD的集成;具备Linux环境下的系统管理、Shell脚本与分布式系统故障排查能力;能够在敏捷团队中与软件、基础设施和产品团队跨职能协作。