岗位描述
负责模型训练基础设施搭建,设计并开发高效的模型训练流水线,包括数据处理、分布式训练、日志记录和性能监控等;协助团队进行深度学习模型训练与调优,解决训练中的性能瓶颈;开发自动化工具和脚本,提升训练与调试效率;优化现有训练框架,提高资源利用率,如多卡训练、混合精度等。要求熟悉主流深度学习框架,如 PyTorch、TensorFlow,并具备实际项目经验;了解模型训练流程,包括数据预处理、分布式训练和性能调优;精通 Python 编程,具备扎实的工程实现能力;熟悉 Linux 开发环境,能够高效使用 Shell 脚本。具备分布式训练、大规模数据处理、MLOps 工具链、DevOps 流程、Docker/Kubernetes 或模型调试改进经验者优先。