AI 院-MOE 训练/推理Infra工程师 北京 全职 互联网 / 电子 / 网游 职位描述 我们正在寻找一位经验丰富的 MOE 训练/推理 Infra 开发工程师,负责设计、实现并优化我们的 MOE(Mixture of Experts)训练和推理框架。该职位需要您具备扎实的分布式系统、高性能计算、深度学习框架以及硬件加速优化的相关知识,能够解决 MOE 训练和推理过程中的各种技术难题,并与算法团队紧密合作,确保算法的顺利实现。主要职责:1、设计并实现高效的 MOE 训练/推理框架:•设计并开发支持大规模分布式训练和推理的 MOE 框架,确保其在各种硬件配置下的高效运行;•优化训练和推理性能,通过算法优化、并行计算、缓存策略等方式,缩短训练和推理时间,提高效率;2、解决 MOE 训练/推理过程中的技术难题:•针对专家网络的选择问题,研究和实现有效的专家选择算法,确保模型在训练和推理过程中的稳定性和准确性;• 解决负载均衡问题,通过动态调整专家网络的负载分配,提高系统资源的利用率,避免过载或空闲状态;• 优化通信过程,减少分布式训练和推理中的通信开销,提高数据传输效率,缩短训练和推理时间3、与算法团队密切合作:•与算法团队保持密切沟通,了解算法需求,根据需求调整和优化训练和推理基础设施,确保算法的顺利实现;•跟踪业界最新技术动态,引入适合项目需求的新技术、新方法,提升团队整体技术水平; 职位要求 关键技能:分布式训练技术:•掌握分布式训练框架(如 Horovod、PyTorch Distributed)的使用和优化。•具备设计和实现高效分布式训练系统的能力。硬件加速优化:•熟悉 GPU、TPU 等硬件架构,能够进行硬件级性能调优。•了解 CUDA、cuDNN 等相关技术,能够利用硬件加速提升训练和推理效率。模型优化技术:•了解量化、剪枝、压缩等模型优化方法,以提升推理效率•能够在实际项目中应用这些技术,优化模型大小和推理速度•负载均衡与通信优化•能够设计高效的负载均衡策略和通信机制,以应对 MOE 模型的稀疏性挑战•优化分布式系统中的通信开销,提高数据传输效率。系统设计能力:•具备分布式系统设计经验,能够解决大规模模型训练和推理中的工程问题。•能够设计和实现高可用、高扩展性的系统架构。其他:•计算机科学、软件工程、人工智能或相关领域的本科及以上学历•熟悉至少一种深度学习框架,如 TensorFlow、PyTorch 等•具备扎实的分布式系统和高性能计算的相关知识,熟悉 MPI、NCCL 等通信库•熟悉 Linux
AI 院-多模态团队-多模态理解算法研究员-强化学习方向 北京 全职 互联网 / 电子 / 网游 职位描述 【团队介绍】智谱多模态大模型团队是全球领先的多模态研究团队之一,专注于推动视觉语言大模型的认知与推理能力的突破。团队拥有从多模态理解到生成的全栈自研技术体系,依托强大的计算资源和全链路研发能力,持续引领行业创新。团队负责多模态基座模型研发(视觉语言模型+多模态生成模型),先后推出GLM-V系列多模态基座模型,以及GLM-Image、CogView、CogVideo等前沿生成模型。2025年连续发布GLM-4.1V-Thinking、GLM4.5V和GLM-4.6V系列模型,其中GLM-4.1V-Thinking创新性地引入思维链推理机制,采用课程采样强化学习策略,系统性提升模型跨模态因果推理能力与稳定性,在28项业界权威评测中有23项达成10B级模型的最佳成绩(SOTA);而GLM-4.5V采用MoE架构(总参数106B、激活参数12B),在100B级视觉推理模型中树立起新的标准,在41个业界主流benchmark上达到同级别SOTA,且OCR、视频理解、AI解题、长文档解读、前端复刻、空间定位与推理等核心能力获得显著提升;GLM-4.6V则在多模态感知和深度推理方面进一步增强,且支持128k long-context、多模态工具调用和图文交错输出,为执行复杂、长程、多模态Agentic任务奠定坚实基础;9B版本的GLM-4.6V-Flash整体表现超过 Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现比肩2倍参数量的Qwen3-VL-235B。顺应技术发展趋势和业界需求,2026年初团队研发和开源GLM-Image和GLM-OCR。前者是智谱新旗舰图像生成模型,全程基于国产芯片完成训练,采用独创的「自回归+扩散解码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,是面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的一次重要探索。GLM-OCR则是轻量级OCR和文档解析专用模型,以“小尺寸、高精度”树立新标杆,其性能登顶 OmniDocBench,擅长公式、手写体、表格等高难场景,仅 0.9B 参数,推理高效易部署,在HuggingFace上获得超过360万下载量。岗位职责:学科解题方向,负责VLM的混合SFT/RL训练优化及RL训练的数据处理,通过人类偏好学习提升多模态大模型的对齐和推理能力。 职位要求 1、统招硕士及以上学历,计算机科学/机器学习/人工智能相关专业;2、0-3年工作经验,在NLP/CV/RL等至少一个AI领域有过深入的研究经历;3、熟悉主流的多模态大模型,能持续跟进学术界和工业界的最新研究和产品;4、熟悉强化学习,有RLHF/DPO训练经验者优先;熟悉Linux,Python,Pytorch和Transformer,了解分布式训练框架如Deepspeed,Megatron-LM等;5、了解对多模态数据(如文本、图像、视频、音频等)的基本处理,能够独立完成数据收集、清洗和构造的pipeline; 投递...
AI院-GLM后训练团队-推理优化/推理Infra工程师(RL) 北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 1. 基于SGLang进行大模型推理引擎与服务侧开发,提升吞吐、降低时延与成本,保障线上稳定性。2. 支持RL训练相关的推理链路,包括rollout生成、打分/奖励模型推理等,优化训练闭环效率与资源利用。3. 建设推理侧的监控与性能分析能力,参与线上问题定位与故障处理。4. 与算法/训练团队协作,将模型与训练需求落地到可运行、可维护的推理系统,并输出必要的技术文档。 职位要求 1. 熟练使用Python/C++(至少一种),具备良好的工程能力与性能意识。2. 熟悉GPU推理与常见深度学习框架(如 PyTorch),了解分布式通信与并行基本概念(NCCL 等)。3. 了解并使用过SGLang(或能快速上手并承担核心模块开发与调优)。4. 理解RL训练中推理侧的作用,能够与训练流程协同推进落地。5. 具备线上系统排障能力,能通过日志/指标定位性能与稳定性问题。加分项6. 有大模型推理系统、RLHF/RL 推理链路或训练-推理协同经验。7. 有推理性能profiling、算子/运行时优化经验。8. 有MoE模型优化经验。 投递...
AI院-训练Infra工程师 北京 全职 互联网 / 电子 / 网游 职位描述 1、负责大规模预训练框架的研发、优化和维护,根据业务需求持续改进训练框架和策略,提升模型训练效率;2、分析和定位训练中的性能瓶颈,实施针对性优化措施,提升训练效率和稳定性;3、跟进业界技术进展,不断同步与集成最新训练优化策略。 职位要求 1、对自然语言处理、计算机视觉和多模态算法有深入理解,熟悉主流的 LLM 和 VLM 模型架构,有分布式训练经验;2、精通 Python 编程语言,熟悉 PyTorch 深度学习框架和 Megatron 分布式训练框架;3、有大规模预训练优化 / MoE 训练优化经验的优先考虑。 投递...
AI院-多模态团队-多模态生成算法研究员 北京 全职 互联网 / 电子 / 网游 职位描述 【团队介绍】智谱多模态大模型团队是全球领先的多模态研究团队之一,专注于推动视觉语言大模型的认知与推理能力的突破。团队拥有从多模态理解到生成的全栈自研技术体系,依托强大的计算资源和全链路研发能力,持续引领行业创新。团队负责多模态基座模型研发(视觉语言模型+多模态生成模型),先后推出GLM-V系列多模态基座模型,以及GLM-Image、CogView、CogVideo等前沿生成模型。2025年连续发布GLM-4.1V-Thinking、GLM4.5V和GLM-4.6V系列模型,其中GLM-4.1V-Thinking创新性地引入思维链推理机制,采用课程采样强化学习策略,系统性提升模型跨模态因果推理能力与稳定性,在28项业界权威评测中有23项达成10B级模型的最佳成绩(SOTA);而GLM-4.5V采用MoE架构(总参数106B、激活参数12B),在100B级视觉推理模型中树立起新的标准,在41个业界主流benchmark上达到同级别SOTA,且OCR、视频理解、AI解题、长文档解读、前端复刻、空间定位与推理等核心能力获得显著提升;GLM-4.6V则在多模态感知和深度推理方面进一步增强,且支持128k long-context、多模态工具调用和图文交错输出,为执行复杂、长程、多模态Agentic任务奠定坚实基础;9B版本的GLM-4.6V-Flash整体表现超过 Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现比肩2倍参数量的Qwen3-VL-235B。顺应技术发展趋势和业界需求,2026年初团队研发和开源GLM-Image和GLM-OCR。前者是智谱新旗舰图像生成模型,全程基于国产芯片完成训练,采用独创的「自回归+扩散解码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,是面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的一次重要探索。GLM-OCR则是轻量级OCR和文档解析专用模型,以“小尺寸、高精度”树立新标杆,其性能登顶 OmniDocBench,擅长公式、手写体、表格等高难场景,仅 0.9B 参数,推理高效易部署,在HuggingFace上获得超过360万下载量。【岗位职责】负责图像/视频生成模型训练及数据优化 职位要求 1、985高校计算机、电子、自动化等相关专业硕士或博士学位(优秀本科生亦可考虑);2、深入理解常用多模态算法;具备多模态大模型和视频理解相关项目经验者优先;3、在CCF-A类会议发表过多模态相关论文者优先考虑;4、熟练运用Pytorch、transformers、megatron等主流框架;5、工作态度认真负责,具备良好的团队协作能力。 【加分项】 - 在ACL,NeurIPS,ICLR,EMNLP,ICML等顶级会议或期刊上发表过论文者优先; - 熟悉并行训练框架,有多机多卡训练经验者优先。 投递...
AI 院-多模态理解-训练框架算法工程师 北京 全职 互联网 / 电子 / 网游 职位描述 【团队介绍】智谱多模态大模型团队是全球领先的多模态研究团队之一,专注于推动视觉语言大模型的认知与推理能力的突破。团队拥有从多模态理解到生成的全栈自研技术体系,依托强大的计算资源和全链路研发能力,持续引领行业创新。团队负责多模态基座模型研发(视觉语言模型+多模态生成模型),先后推出GLM-V系列多模态基座模型,以及GLM-Image、CogView、CogVideo等前沿生成模型。2025年连续发布GLM-4.1V-Thinking、GLM4.5V和GLM-4.6V系列模型,其中GLM-4.1V-Thinking创新性地引入思维链推理机制,采用课程采样强化学习策略,系统性提升模型跨模态因果推理能力与稳定性,在28项业界权威评测中有23项达成10B级模型的最佳成绩(SOTA);而GLM-4.5V采用MoE架构(总参数106B、激活参数12B),在100B级视觉推理模型中树立起新的标准,在41个业界主流benchmark上达到同级别SOTA,且OCR、视频理解、AI解题、长文档解读、前端复刻、空间定位与推理等核心能力获得显著提升;GLM-4.6V则在多模态感知和深度推理方面进一步增强,且支持128k long-context、多模态工具调用和图文交错输出,为执行复杂、长程、多模态Agentic任务奠定坚实基础;9B版本的GLM-4.6V-Flash整体表现超过 Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现比肩2倍参数量的Qwen3-VL-235B。顺应技术发展趋势和业界需求,2026年初团队研发和开源GLM-Image和GLM-OCR。前者是智谱新旗舰图像生成模型,全程基于国产芯片完成训练,采用独创的「自回归+扩散解码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,是面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的一次重要探索。GLM-OCR则是轻量级OCR和文档解析专用模型,以“小尺寸、高精度”树立新标杆,其性能登顶 OmniDocBench,擅长公式、手写体、表格等高难场景,仅 0.9B 参数,推理高效易部署,在HuggingFace上获得超过360万下载量。【岗位职责】参与GLM系列多模态大模型,CogVLM、CogView、CogVideo系列多模态理解生成模型训练框架 职位要求 1、统招硕士及以上学历,计算机或相关专业;2、熟练掌握Pytorch,具有模型训练经验;3、熟悉Transformer结构,对常见模型的训练方法有所了解,例如BERT、GPT、ViT、CLIP;4、有模型迁移、精度对齐经验,能够在新框架中适配新的模型;5、对常见的大模型训练优化有所了解,能够迅速熟悉掌握,根据需求进行修改;6、对Megatron框架有一定的了解,能够借鉴其他框架,完善优化已有的框架。 投递...
AI 院-多模态团队-多模态理解算法研究员 北京 全职 互联网 / 电子 / 网游 职位描述 【团队介绍】智谱多模态大模型团队是全球领先的多模态研究团队之一,专注于推动视觉语言大模型的认知与推理能力的突破。团队拥有从多模态理解到生成的全栈自研技术体系,依托强大的计算资源和全链路研发能力,持续引领行业创新。团队负责多模态基座模型研发(视觉语言模型+多模态生成模型),先后推出GLM-V系列多模态基座模型,以及GLM-Image、CogView、CogVideo等前沿生成模型。2025年连续发布GLM-4.1V-Thinking、GLM4.5V和GLM-4.6V系列模型,其中GLM-4.1V-Thinking创新性地引入思维链推理机制,采用课程采样强化学习策略,系统性提升模型跨模态因果推理能力与稳定性,在28项业界权威评测中有23项达成10B级模型的最佳成绩(SOTA);而GLM-4.5V采用MoE架构(总参数106B、激活参数12B),在100B级视觉推理模型中树立起新的标准,在41个业界主流benchmark上达到同级别SOTA,且OCR、视频理解、AI解题、长文档解读、前端复刻、空间定位与推理等核心能力获得显著提升;GLM-4.6V则在多模态感知和深度推理方面进一步增强,且支持128k long-context、多模态工具调用和图文交错输出,为执行复杂、长程、多模态Agentic任务奠定坚实基础;9B版本的GLM-4.6V-Flash整体表现超过 Qwen3-VL-8B,106B参数12B激活的GLM-4.6V表现比肩2倍参数量的Qwen3-VL-235B。顺应技术发展趋势和业界需求,2026年初团队研发和开源GLM-Image和GLM-OCR。前者是智谱新旗舰图像生成模型,全程基于国产芯片完成训练,采用独创的「自回归+扩散解码器」混合架构,兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题,是面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的一次重要探索。GLM-OCR则是轻量级OCR和文档解析专用模型,以“小尺寸、高精度”树立新标杆,其性能登顶 OmniDocBench,擅长公式、手写体、表格等高难场景,仅 0.9B 参数,推理高效易部署,在HuggingFace上获得超过360万下载量。【岗位职责】1、 设计和训练先进的多模态大模型,包括图像、视频的理解与生成;2、 搭建与优化多模态大模型的自动化数据通路,提升模型的多模态基础能力及下游任务上的效果;3、优化模型训练,包括包括模型的预训练、微调、偏好对齐等;4、探索前沿算法,多模态理解的数据合成、模型自我迭代等;5、加速多模态大模型的推理过程并部署到实际应用中。 职位要求 1、985高校计算机、电子、自动化等相关专业硕士或博士学位(优秀本科生亦可考虑);2、深入理解常用多模态算法;具备多模态大模型和视频理解相关项目经验者优先;3、在CCF-A类会议发表过多模态相关论文者优先考虑;4、熟练运用Pytorch、transformers、megatron等主流框架;5、工作态度认真负责,具备良好的团队协作能力。 加入我们,您将有机会:1、参与突破性的多模态AI研究;2、与顶尖专家共事,快速提升技能;3、在充满活力的环境中实现自我价值;我们期待您的加入,一同推动AI技术的前沿发展! 投递...
AI院-训练Infra工程师 北京、上海 全职 互联网 / 电子 / 网游 职位描述 1、负责大规模预训练框架的研发、优化和维护,根据业务需求持续改进训练框架和策略,提升模型训练效率2、分析和定位训练中的性能瓶颈,实施针对性优化措施,提升训练效率和稳定性3、跟进业界技术进展,不断同步与集成最新训练优化策略 职位要求 1、对自然语言处理、计算机视觉和多模态算法有深入理解,熟悉主流的 LLM 和 VLM 模型架构,有分布式训练经验2、精通 Python 编程语言,熟悉 PyTorch 深度学习框架和 Megatron 分布式训练框架3、有大规模预训练优化 / MoE 训练优化经验的优先考虑加分项:1、在ACM、NOI、IOI、超算比赛中有获奖经历者优先2、具有 cuda 算子优化/profiling 能力者优先 投递...
AI院-GLM团队-训练/推理infra算法工程师 北京 全职 互联网 / 电子 / 网游 职位描述 岗位职责 1. 与算法团队深度协作,参与 下一代 GLM 大模型架构设计与系统实现 ,推动模型结构与系统效率的协同优化2. 构建 大模型推理成本分析与模拟系统 ,从算力、通信、KV cache、并行策略等维度优化推理效率3. 设计与优化 超大规模训练基础设施(万卡级) ,提升训练稳定性、资源利用率与训练效率4. 探索 MoE、Sparse Attention、长上下文等新架构在训练与推理系统中的高效落地 你将参与 * 下一代 GLM 系列基础模型(百亿到万亿参数级) 的系统设计* 万卡规模训练系统 的优化与稳定性工程* 推理系统的 极致效率优化(吞吐 /
Job Description About the Role: We are seeking a strategic Academic Account Representative to spearhead the adoption of Altium’s SaaS-based solutions (e.g., Altium Designer, Altium 365) across China’s education sector. This role is critical in positioning
大模型训练加速工程师 / 高级专家 北京 全职 通用智能板块 职位描述 【岗位职责】训练加速与优化: 负责大模型训练场景下的性能分析 (Profiling) 与全链路优化,包括显存管理、计算加速及通信优化 (NCCL),提升集群训练吞吐率。算子开发与协同设计 (Co-design): 负责高性能算子 (Kernel) 的开发与调优;与算法团队紧密协作,针对特定模型结构(如 Transformer, MoE)进行定制化算子设计。分布式框架建设: 基于 Megatron-LM, DeepSpeed, FSDP 等框架进行二次开发与优化,设计适应大规模集群的并行训练方案。稳定性保障: 负责大规模训练过程中的问题定位与解决,包括但不限于 NCCL 超时、显存溢出 (OOM)、训练速度波动等,保障训练任务的高效稳定运行。 职位要求 理论基础: 计算机基础扎实,深刻理解深度学习训练原理(计算图、自动微分、混合精度),熟悉主流并行策略及 FlashAttention 等加速算法。编程能力: 熟练掌握 Python/C++,熟悉 GPU 编程模型,具备 CUDA
AI多核架构师 急招 上海 全职 芯片板块 职位描述 1.多核系统架构设计•根据产品需求制定 Core × NoC × Cache × DRAM × Die-to-Die 总体架构;•有能力设计调度,总线,多层Cache存储架构,同步硬件架构。2.软硬件协同•与 Compiler / Runtime / 框架团队沟通 Graph Compiler + Kernel Scheduler + 弹性分布式通信库,分解硬件架构需求;•有能力根据 PyTorch / vLLM 等需求做端到端 Benchmark Sign-off。 职位要求
自动驾驶-算法优化工程师 北京 社招 全职 职位 ID:A140709 职位描述 1、承担自动驾驶算法的有损优化研发,运用算法-硬件协同设计、网络结构深度优化、训练流程加速、模型量化压缩、MTP投机采样等先进通用技术,为业务团队精心打造并提供高效的训练部署最优方案与实践经验,助力业务高效推进。 2、专注于模型轻量化结构的创新设计与性能雕琢,研发在效果、模型大小、计算量以及功耗等综合性能方面均位居业界前列的预训练模型,引领技术发展潮流。 3、投入模型加速领域的研发,涵盖模型量化、投机采样、模型压缩、模型剪枝、模型蒸馏、网络架构搜索与创新设计等方向,确保模型在效果与运行速度上达到最佳平衡,满足车端需求。 4、开展模型架构的深度探索,包括但不限于Scaling Law、MoE、Transformer、高效训推框架以及基座模型训练等前沿领域,开拓技术边界,为自动驾驶技术突破提供核心支持 。 职位要求 1、熟悉主流自动驾驶算法,熟悉CNN,Transformer以及优化架构原理2、有AutoML、模型量化,蒸馏等相关经验3、熟悉Python开发、算法和数据结构4、具备扎实的研发功底,有在相关领域(IJCV、PAMI、CVPR、ICCV、ECCV、NIPS、AAAI 等)发表论文者优先;或在相关领域竞赛(ImageNet、COCO、Kitti、Waymo、nuScenes等等)中取得较好成绩者优先。 投递...
Job Description 1. Project/product management; ramp-up New Product on-time, maintain daily project. 2. Awareness of quality management system of Automative manufacture. 3. New Project leader in MOE, coordinating within China, and Global product team. 4. Close cooperation
Miclaw-大模型训练推理方向实习生 AI人才专项 热招 北京 校招 实习 软件研发类 职位描述 1. 研究并复现业界与学术界 SOTA 的大模型推理优化技术,包括但不限于极低比特量化、FlashAttention、投机解码(Speculative Decoding)、KV Cache 优化等关键方向,并在真实端侧场景中进行性能评估与对比分析。2. 面向端侧算力与内存受限场景,探索高效的大模型结构与推理策略,如端侧友好的 MoE 方案、稀疏与线性注意力、长上下文推理优化等,推动模型在性能、效果与资源消耗之间的最优权衡。3. 参与大模型与芯片协同设计(Model–Chip Co-design),从模型结构、算子设计到推理系统层面进行联合优化,深入理解端侧 NPU / GPU / CPU 架构对模型推理性能的影响。4. 与模型、系统、芯片团队深度协作,将研究成果转化为可落地的工程方案,并有机会参与核心模块的设计与实现,产生可量化的性能提升结果。 职位要求 1. 计算机科学、人工智能、电子工程或相关专业在读本科 / 硕士 / 博士,对大模型、系统或芯片方向有强烈兴趣。2. 具备扎实的算法与系统基础,对复杂系统的性能瓶颈具有较强分析能力,愿意深入到实现细节解决“难而重要”的问题。3. 至少在以下一个或多个方向具备良好基础或实践经验:- 大模型推理与优化(Attention、KV
足式机器人运动控制算法工程师实习生(强化学习) 北京 校招 实习 算法类 职位描述 1. 开发基于强化/模仿学习的机器人行走及全身控制策略;2. 开发复杂地形下基于视觉的强化学习行走策略;3. 负责算法策略的训练与移植部署,实现算法sim-to-real在机器人实机上落地应用;4. 持续跟踪国内外前沿研究成果,并进行相关算法复现;5. 编写相关技术文档,推动团队技术沉淀与知识共享。 职位要求 1. 硕士及以上学历,机器人、计算机、机械工程、人工智能、应用数学等专业,数学、英语能力扎实,具有较强的学习与研究能力;2. 掌握主流的强化学习算法,如:PPO、DQN、DDPG、SAC等;3. 掌握机器人学习中的广泛使用的训练方法和模型架构,如:教师学生模型(Teacher-Student Network),课程学习(Curriculum Learning),域随机化(Domain Randomization),混合专家模型(MoE)等;4. 熟悉Mujoco、IsaacGym、IsaacLab等机器人仿真平台;5. 有足式机器人强化学习算法的实机调试和sim-to-real经验者优先,有基于模型/优化等传统控制经验者优先;6. 扎实的C++、Python编程能力,熟悉Pytorch等机器学习框架,熟悉Linux,Git,ROS等开发环境和工具。 投递...
MaaS 架构师 上海、北京 社招 全职 互联网 / 电子 / 网游 - 研发 职位描述 作为 MaaS 架构师,你将全面负责大模型线上服务的全链路架构设计与质量保障,构建高性能、高可用、可弹性伸缩的模型服务平台,确保模型在生产环境中的 SLA、延迟、吞吐量达到业界领先水平。工作包括不限于:负责 MaaS 平台架构设计,明确模型从产出到上线的全链路环节,对模型服务的 SLA、延迟、吞吐量等核心指标负责主导大模型推理网关的设计与建设,包括多模型路由、流量调度、优先级队列、多租户隔离与 Token 级计量能力设计 GPU 资源弹性伸缩策略,结合模型特征与负载信号实现智能调度与资源高效利用推动 KV Cache 感知调度的方案设计与落地,包括 Prefix Caching、Paged Attention 等技术在生产环境的应用,提升显存利用率与系统吞吐参与单机推理框架的选型、适配与性能调优,跟进 vLLM / TensorRT-LLM / SGLang
Mission Details Collaborate with Maintenance, Engineering, Production, HSE and Manufacturing Technology teams to manage mechanical-related MOE (Maintenance Operational Excellence) activities, including: Preventive Maintenance (PM), Vibration Inspection (VIS), Root Cause Analysis / Experience Sharing (RCA/REX), Turnaround Planning, Management
机器人VLA算法研究员 - XiaomiRobotics 北京 社招 全职 职位 ID:A237923 职位描述 1. 研究并构建融合世界建模和动作生成的 VLA 模型2. 结合机器人数据、视频数据、视觉语言数据等,构建可扩展的数据引擎和训练pipeline3. 开展大规模的 VLA 训练,建立真实可靠的评测系统,持续迭代模型能力提升 职位要求 1、硕士及以上学历,计算机、人工智能、机器人、自动化、数学等相关专业,具备扎实的机器学习、深度学习和概率建模基础。 2、熟悉具身智能、多模态大模型、视频生成或动作生成等方向,理解主流方法原理与适用场景,如Transformer、Diffusion、VAE、VQ、MoE等。 3、具备较强的算法研发能力,熟练使用PyTorch等深度学习框架,有从模型设计、训练调优到实验分析的完整研发经验。 4、熟悉多模态数据建模,理解图像、视频、语言、动作轨迹等数据在训练与评测中的关键问题,有跨模态建模或生成任务经验者优先。 5、在机器人、具身智能、多模态、生成式AI等方向顶会/顶刊(如RSS、CoRL、ICRA、CVPR、ICCV、NeurIPS、ICLR等)发表论文,或有代表性开源项目/研究成果者优先。 6、具备优秀的问题分析与科研协作能力,对具身智能方向有强烈兴趣,能够快速学习并验证。 投递...
VLA训练infra算法工程师 - XiaomiRobotics 北京 社招 全职 职位 ID:A243642 职位描述 1. 基于 PyTorch 生态(FSDP / DeepSpeed / Megatron 等)设计并实现 VLA 模型的分布式训练方案(DP / TP / PP / MoE),构建稳定高效的训练框架2. 推动混合精度(BF16 / FP8)与算子融合(FlashAttention / Triton kernel)3. 构建高吞吐数据pipeline,设计数据格式与 shard 策略,实现高效的数据加载4. 支持大规模实验追踪、管理、指标可视化 职位要求