独角兽

大语言模型架构研究员(预训练方向)

月之暗面

北京人工智能社会招聘

岗位描述

深度参与 LLM 预训练方向的模型结构与训练方法研究,包括 MLP、Attention 模块改进,以及模型并行策略优化、优化算法改进、量化算法改进、目标损失函数改进等;通过科学实验设计和 scaling law 验证模型设计,积累从头开始、端到端的大模型训练经验,并提升模型训练效果与大规模推理效率。要求具备扎实的编程、数据结构与算法基础,熟练使用 PyTorch 或其他深度学习框架,具备深度学习训练和参数调优经验;有 LLM 训练、高性能计算、Triton/CUDA 等 GPU Kernel 编码经验者优先。