多模态大模型算法工程师
主导多模态大模型在预训练、SFT(指令微调)、RLHF(偏好对齐)等全阶段的数据体系建设,攻克海量多模态语料的智能采集、多维清洗、去重过滤、自动化标注与深度挖掘等关键问题;建立“数据合成与构造—模型训练—能力评测”的全链路闭环验证体系,通过数据消融与归因分析推动模型能力提升;参与设计并优化 PB 级多模态训练数据的全生命周期管理架构,提升海量数据吞吐与加载效率,支撑大规模分布式训练;持续跟踪并复现前沿技术成果,将数据端与多模态算法相关前...
第 578 页,共 794 页
主导多模态大模型在预训练、SFT(指令微调)、RLHF(偏好对齐)等全阶段的数据体系建设,攻克海量多模态语料的智能采集、多维清洗、去重过滤、自动化标注与深度挖掘等关键问题;建立“数据合成与构造—模型训练—能力评测”的全链路闭环验证体系,通过数据消融与归因分析推动模型能力提升;参与设计并优化 PB 级多模态训练数据的全生命周期管理架构,提升海量数据吞吐与加载效率,支撑大规模分布式训练;持续跟踪并复现前沿技术成果,将数据端与多模态算法相关前...
主导多模态大模型在预训练、SFT(指令微调)、RLHF(偏好对齐)等全阶段的数据体系建设,攻克海量多模态语料的智能采集、多维清洗、去重过滤、自动化标注与深度挖掘等关键问题;建立“数据合成与构造—模型训练—能力评测”的全链路闭环验证体系,通过数据消融与归因分析推动模型能力提升;参与设计并优化 PB 级多模态训练数据的全生命周期管理架构,提升海量数据吞吐与加载效率,支撑大规模分布式训练;持续跟踪并复现前沿技术成果,将数据端与多模态算法相关前...
主导多模态大模型在预训练、SFT(指令微调)、RLHF(偏好对齐)等全阶段的数据体系建设,攻克海量多模态语料的智能采集、多维清洗、去重过滤、自动化标注与深度挖掘等关键问题;建立“数据合成与构造—模型训练—能力评测”的全链路闭环验证体系,通过数据消融与归因分析推动模型能力提升;参与设计并优化 PB 级多模态训练数据的全生命周期管理架构,提升海量数据吞吐与加载效率,支撑大规模分布式训练;持续跟踪并复现前沿技术成果,将数据端与多模态算法相关前...
主导多模态大模型在预训练、SFT(指令微调)、RLHF(偏好对齐)等全阶段的数据体系建设,攻克海量多模态语料的智能采集、多维清洗、去重过滤、自动化标注与深度挖掘等关键问题;建立“数据合成与构造—模型训练—能力评测”的全链路闭环验证体系,通过数据消融与归因分析推动模型能力提升;参与设计并优化 PB 级多模态训练数据的全生命周期管理架构,提升海量数据吞吐与加载效率,支撑大规模分布式训练;持续跟踪并复现前沿技术成果,将数据端与多模态算法相关前...
围绕具身智能数据基础设施建设完整数据闭环,覆盖数据采集、清洗标注、增强合成、策略训练到部署验证;设计多源异构数据采集管线,对接遥操作、人手动捕、外骨骼、仿真等不同数据源,打通从原始传感器数据到可训练格式的全链路;构建数据处理与增强算法,包括视觉域适配、异常轨迹检测与清洗、多模态对齐;搭建具身数据平台,统一数据格式与版本管理、元数据索引、数据可视化回放及训练数据高性能加载;实现大规模仿真数据生成,包括分布式调度仿真环境、自动标注、轨迹过滤...
围绕具身智能数据基础设施建设完整数据闭环,覆盖数据采集、清洗标注、增强合成、策略训练到部署验证;设计多源异构数据采集管线,对接遥操作、人手动捕、外骨骼、仿真等不同数据源,打通从原始传感器数据到可训练格式的全链路;构建数据处理与增强算法,包括视觉域适配、异常轨迹检测与清洗、多模态对齐;搭建具身数据平台,统一数据格式与版本管理、元数据索引、数据可视化回放及训练数据高性能加载;实现大规模仿真数据生成,包括分布式调度仿真环境、自动标注、轨迹过滤...
负责真机部署、数据、仿真及 Infra 相关平台工作;维护数据与评测体系,处理真机与仿真数据,进行质量验证与评测;收集和清洗预训练数据,完成商用或开源机械臂系统集成与真机评测,并支持 Teleop 数据采集与质量验证;在 Isaac Sim、MuJoCo 中搭建任务并生成仿真数据与基准;负责模型闭环工程,包括训练脚本、推理优化、部署稳定性、延迟与可靠性优化,搭建训练和评测环境,开展预训练、微调与效率优化;配合硬件与控制链路,确保输出动作...