名企速投

岗位描述

岗位描述：加入AI/ML框架团队，构建并维护可扩展的DevOps基础设施，以加速AMD的AI软件开发；设计并负责CI/CD流水线，管理基于Kubernetes的GPU环境，并使用Python、Go和Ansible实现系统自动化；开发和维护生产级自动化工具与平台，支持跨团队快速、稳定地交付软件；深入掌握CMake、Bazel、Make及编译器工具链等构建工具与流程，从源码到二进制全链路分析并排查复杂构建失败，识别基础设施、工具链和代码层面的根因；理解PyTorch、TensorFlow、ROCm等机器学习框架的架构与代码库，进行问题调试、代码审查与必要修改，以提升构建质量、CI稳定性并支持新特性；设计开发内部工具、自动化脚本和服务，主要使用Python和Go；使用Buildkite、GitHub Actions、Jenkins设计、实施和管理高效持续集成与持续交付流程，支撑机器学习工作负载的快速可靠部署；在本地和云端环境中部署并维护Kubernetes平台，支持可扩展的服务编排；使用Ansible、Python和Bash自动化基础设施的部署、配置和管理，提升一致性并减少人工操作；基于Helm完成Kubernetes中的应用与服务发布；配置、管理和维护GPU计算环境，支持机器学习训练与推理任务的生命周期自动化和硬件级测试集成；与MySQL数据库交互，支持动态数据更新，并将数据接入Grafana看板用于监控和洞察；与ML框架开发、SRE及项目相关方紧密合作，确保系统层面对齐并实现高价值交付；将自动化测试框架集成到CI流程中，保障代码质量、稳定性和性能；培训和辅导团队成员掌握构建系统、CI/CD工作流与调试技术，编写文档、操作手册并组织培训，推动团队在构建基础设施领域持续学习。岗位要求：计算机科学、软件工程或相关技术专业本科或硕士学历；熟悉CMake、Bazel、Make及GCC、Clang、LLVM等编译器工具链，能够定位复杂构建故障、理解依赖解析并优化构建性能；精通Python和Go，能够用于开发工具、服务和自动化系统；具备阅读和修改C++代码的能力优先；理解PyTorch、TensorFlow、JAX等机器学习框架架构，能够在大型代码库中定位问题并提交修复或改进；具备复杂系统文档编写、团队培训和技术拆解能力；熟练使用Buildkite、GitHub Actions、Jenkins、Ansible及脚本工具；具备Docker、Kubernetes、Helm容器化与编排经验；具备基础设施即代码实践经验，能够实现环境的可复现与可扩展；熟悉GPU服务器生命周期管理、ROCm/CUDA工具链，以及GPU资源在CI测试流程中的集成；有Checkmk、Prometheus、Grafana等监控可观测性工具经验；熟悉Git版本控制、分支策略及与CI/CD的集成；具备Linux环境下的系统管理、Shell脚本与分布式系统故障排查能力；能够在敏捷团队中与软件、基础设施和产品团队跨职能协作。

DevOps软件开发工程师

岗位描述