岗位描述
负责分析离线大数据调度系统的诊断需求,设计和开发高效的智能诊断工程;分析大数据任务开发平台的答疑需求,设计和开发智能答疑工程;设计和开发智能调度系统,支持离线任务与 K8s 任务的智能调度;设计和开发智能基线告警,支持离线与实时任务链路的有效告警;分析实时业务数据异动发现需求,开发高效的智能诊断工程;统一设计和开发异常检测、归因算法及解决方案,解决复杂调度系统下的诊断问题。要求具备扎实的算法、数据结构、数据处理和特征工程基础,深入理解机器学习和深度学习原理,熟悉 TensorFlow、PyTorch、MXNet 等框架,掌握至少一种编程语言,并具备时间序列分析、多 LLM Agent 应用或知识库构建经验。熟悉 Hadoop、Spark、Flink、分布式计算、GPU 编程或有相关论文成果者优先。