AI Infra实习生 北京 实习 研发 - 基础架构 职位描述 1、负责构建支撑具身智能体的核心机器学习系统,开发面向机器人场景的VLA大模型训练与推理系统,支撑多模态感知、运动控制、任务规划等核心能力的持续进化;2、研发新一代具身智能系统工具链,涵盖数据采集、仿真训练、物理部署、持续优化全生命周期。 职位要求 1、计算机、人工智能、软件工程等相关专业,硕士及以上学历,2026年及之后毕业; 2、熟练使用C++/Python/Pytorch/CUDA开发生态,具有嵌入式系统开发经验者优先;3、能至少保障3个月以上的实习时间,每周4天以上出勤;4、加分项:在以下一个或多个领域有深度实践: a. 大模型训练推理:多模态大模型分布式训练、端上推理加速、Transformer模型优化; b. 高性能计算:GPU Kernel编写,高性能通信(NCCL、RDMA),AI编译器(TVM、Triton),模型量化等; c. 机器人系统:ROS2、运动控制算法、传感器数据处理pipeline。 投递...
大模型训练与推理Infra工程师-MiMo 北京 社招 全职 职位 ID:A14015 职位描述 1. 模型训练基础设施开发 - 设计和实现支持大规模分布式训练的计算平台,优化模型训练效率和资源利用率。 - 维护和扩展现有的分布式训练框架,确保平台的高性能和稳定性(如基于 PyTorch、TensorFlow 或 JAX)。 - 集成和优化高性能计算技术(如 CUDA、MPI、NCCL 等)。2. 模型推理基础设施开发 - 构建高效的推理框架,支持大模型的在线和离线推理需求。 - 优化推理速度、内存占用和能耗,支持多种硬件架构(GPU、NPU等 )。 - 实现PD分离、Context Caching、模型量化、推敲编码等推理优化技术。3. 性能监控与优化 - 开发工具链和监控系统,跟踪训练与推理过程的性能瓶颈。 - 分析并优化数据加载、通信效率和硬件利用率等关键环节。4. 跨团队协作 - 与模型研究团队密切合作,理解模型需求,定制训练和推理策略。
VLA训练infra算法工程师 - XiaomiRobotics 北京 社招 全职 职位 ID:A243642 职位描述 1. 基于 PyTorch 生态(FSDP / DeepSpeed / Megatron 等)设计并实现 VLA 模型的分布式训练方案(DP / TP / PP / MoE),构建稳定高效的训练框架2. 推动混合精度(BF16 / FP8)与算子融合(FlashAttention / Triton kernel)3. 构建高吞吐数据pipeline,设计数据格式与 shard 策略,实现高效的数据加载4. 支持大规模实验追踪、管理、指标可视化 职位要求
AI 院-MOE 训练/推理Infra工程师 北京 全职 互联网 / 电子 / 网游 职位描述 我们正在寻找一位经验丰富的 MOE 训练/推理 Infra 开发工程师,负责设计、实现并优化我们的 MOE(Mixture of Experts)训练和推理框架。该职位需要您具备扎实的分布式系统、高性能计算、深度学习框架以及硬件加速优化的相关知识,能够解决 MOE 训练和推理过程中的各种技术难题,并与算法团队紧密合作,确保算法的顺利实现。主要职责:1、设计并实现高效的 MOE 训练/推理框架:•设计并开发支持大规模分布式训练和推理的 MOE 框架,确保其在各种硬件配置下的高效运行;•优化训练和推理性能,通过算法优化、并行计算、缓存策略等方式,缩短训练和推理时间,提高效率;2、解决 MOE 训练/推理过程中的技术难题:•针对专家网络的选择问题,研究和实现有效的专家选择算法,确保模型在训练和推理过程中的稳定性和准确性;• 解决负载均衡问题,通过动态调整专家网络的负载分配,提高系统资源的利用率,避免过载或空闲状态;• 优化通信过程,减少分布式训练和推理中的通信开销,提高数据传输效率,缩短训练和推理时间3、与算法团队密切合作:•与算法团队保持密切沟通,了解算法需求,根据需求调整和优化训练和推理基础设施,确保算法的顺利实现;•跟踪业界最新技术动态,引入适合项目需求的新技术、新方法,提升团队整体技术水平; 职位要求 关键技能:分布式训练技术:•掌握分布式训练框架(如 Horovod、PyTorch Distributed)的使用和优化。•具备设计和实现高效分布式训练系统的能力。硬件加速优化:•熟悉 GPU、TPU 等硬件架构,能够进行硬件级性能调优。•了解 CUDA、cuDNN 等相关技术,能够利用硬件加速提升训练和推理效率。模型优化技术:•了解量化、剪枝、压缩等模型优化方法,以提升推理效率•能够在实际项目中应用这些技术,优化模型大小和推理速度•负载均衡与通信优化•能够设计高效的负载均衡策略和通信机制,以应对 MOE
AI院-GLM后训练团队-推理优化/推理Infra工程师(RL) 北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 1. 基于SGLang进行大模型推理引擎与服务侧开发,提升吞吐、降低时延与成本,保障线上稳定性。2. 支持RL训练相关的推理链路,包括rollout生成、打分/奖励模型推理等,优化训练闭环效率与资源利用。3. 建设推理侧的监控与性能分析能力,参与线上问题定位与故障处理。4. 与算法/训练团队协作,将模型与训练需求落地到可运行、可维护的推理系统,并输出必要的技术文档。 职位要求 1. 熟练使用Python/C++(至少一种),具备良好的工程能力与性能意识。2. 熟悉GPU推理与常见深度学习框架(如 PyTorch),了解分布式通信与并行基本概念(NCCL 等)。3. 了解并使用过SGLang(或能快速上手并承担核心模块开发与调优)。4. 理解RL训练中推理侧的作用,能够与训练流程协同推进落地。5. 具备线上系统排障能力,能通过日志/指标定位性能与稳定性问题。加分项6. 有大模型推理系统、RLHF/RL 推理链路或训练-推理协同经验。7. 有推理性能profiling、算子/运行时优化经验。8. 有MoE模型优化经验。 投递...
AI院-训练Infra工程师 北京 全职 互联网 / 电子 / 网游 职位描述 1、负责大规模预训练框架的研发、优化和维护,根据业务需求持续改进训练框架和策略,提升模型训练效率;2、分析和定位训练中的性能瓶颈,实施针对性优化措施,提升训练效率和稳定性;3、跟进业界技术进展,不断同步与集成最新训练优化策略。 职位要求 1、对自然语言处理、计算机视觉和多模态算法有深入理解,熟悉主流的 LLM 和 VLM 模型架构,有分布式训练经验;2、精通 Python 编程语言,熟悉 PyTorch 深度学习框架和 Megatron 分布式训练框架;3、有大规模预训练优化 / MoE 训练优化经验的优先考虑。 投递...
大模型算法工程师(Agent & 对话方向)- 北京/杭州 北京、杭州 社招 全职 职位 ID:A146155 职位描述 1. 智能体(Agent)系统核心建设:负责基于大语言模型(LLM)的智能体系统设计、开发与迭代。重点打造应用于 C 端 Chatbot(如智能导购、个人助理、AI 搜索)的 Agent 架构,引入安全护栏(Guardrails)机制以确保输出的确定性,全面提升全链路的用户体验与任务完成率。 2. Agent 编排与控制工程(Orchestration & Harness):探索通用、高质量的提示词范式,设计并构建管理工具调用、技能抽象与多智能体协同(Multi-Agent)的动态调度引擎。赋予系统多步骤编排、自主规划、记忆机制、执行结果反馈与安全纠错能力,大幅提升模型在复杂意图澄清、跨领域对比分析、多轮对话一致性等高难度任务中的表现。 3. LLM 模型领域后训练:建设模型评测集、做对比选型与领域后训练全流程建设(含 SFT、RLHF/RLAIF)。打通 C 端线上交互数据的自动化回流链路,构建数据飞轮;跟进学术与工业界前沿进展,持续提升模型在业务特定领域任务上的表现;联合 AI-infra 团队优化响应速度与训推资源。 4. 知识图谱与RAG建设:针对海量、异构业务数据(如视频、图文、车型库、商品 SKU),设计适合 Agent 引用与对齐的知识图谱与向量索引结构,引入自进化机制,并依托前沿的检索技术和上下文窗口压缩技术,与 LLM
大模型研究和工程实习生-MiMo 北京 校招 实习 算法类 职位描述 1.创新模型结构设计: - 参与大型语言模型核心架构设计与优化 - 探索Transformer及其变种的改进方案2. 原生多模态探索: - 研发原生多模态架构,实现文本、图像、音频等模态信息的深度融合 - 研究多模态对齐技术,实现不同模态的语义一致性3. 模型推理能力提升: - 借助强化学习+CoT,提升大语言模型推理能力 - 自研强化学习算法,搭建强化学习训练框架,设计奖励函数、构建环境、优化模型提升性能4. 大模型训练推理Infra - 开发和优化大规模分布式训练推理系统 - 优化大模型训练的内存使用和通信效率5. 科学评测体系构建: - 构建科学严谨的算法评测方法,系统评估模型的性能 - 探索模型能力的潜在机制,推动模型优化和创新 职位要求 职位要求1. 学术能力: - 精通深度学习、强化学习(RL)、自然语言处理(NLP)等领域,具备创新研究能力 -
MiMo算法研究员-音频&语音 北京 社招 全职 职位 ID:A32353 职位描述 我们在做什么?我们在通过探索 scaling 语音预训练和后训练,来让模型涌现出真正的语音超级智能。1. Data - 海量语音数据处理:建设超大规模真实语音数据发掘、采集、预处理与清洗的流水线 - 高质量语音数据处理:搭建在海量真实语音中对高质量数据进行定义、召回、标注的流水线2. Backbone & Infra - 语音原生架构:探索随着语音数据 scaling 收益上限最高的建模架构,不限于离散或者连续建模 - 高效训推框架:适配最契合语音模型架构的训练和推理框架,兼顾性能和效率3. Pretrain & Post-train - 定义语音生成式预训练:围绕可泛化的语音预训练模型展开前沿探索性研究,坚定 scaling 路线 - 强化学习后训练:为语音预训练模型的强大能力提供语音对话的交互方式,激发预训练潜力4. Evaluation & Product -
AI基础设施研发工程师(Sandbox / 容器化)-MiMo 北京 社招 全职 职位 ID:A229573 职位描述 MiMo 大模型团队正在寻找熟悉 sandbox、容器化和云原生基础设施的研发工程师,一起建设面向大规模强化学习训练的基础设施能力。随着大模型 Agent 和代码能力训练进入大规模 RL 阶段,我们需要构建稳定、安全、可扩展的任务执行环境。你将参与设计和实现 sandbox 执行系统、容器调度平台、训练任务环境、隔离与资源管理机制,为大规模 Agent 任务、代码执行任务和 RL 训练提供底层 infra 支撑。工作职责1. 设计和建设面向 RL 训练的 sandbox 执行环境,支持代码运行、工具调用、浏览器自动化、文件系统操作、网络访问控制等能力。2. 基于 Docker、Kubernetes 等技术,构建可大规模调度的容器化任务运行平台,支持高并发、多租户、可观测、可恢复的训练任务执行。3. 参与大规模 RL 训练 infra 的 scaling,包括任务分发、资源调度、环境复用、状态隔离、失败恢复、日志采集和性能优化。4.
MaaS-大客户技术服务经理 北京 全职 互联网 / 电子 / 网游 职位描述 【岗位职责】1. 售后服务管理:作为智谱MaaS战略客户售后第一责任人,全面负责客户售后技术服务与关系维护,深入理解客户AI业务场景,与技术支持团队配合落地项目交付、主动运维、质量管控与风险治理;总结智谱AI产品(大模型API、AI推理服务、AI工具链等)在客户实际场景中的最佳实践,沉淀可复用的行业AI服务案例,助力客户实现AI应用价值最大化,夯实客户留存基础,推动老客户续约与转介绍。2. 问题闭环与客户满意度提升:主动对接大客户KP,建立常态化沟通机制,及时响应客户在AI产品及服务使用过程中的核心问题(如模型效果优化、推理性能、AI安全合规等),快速协调内部技术团队(AI算法、产品、研发)协作解决,形成问题闭环;深度挖掘客户在AI驱动复杂业务场景(如AI Agent部署、大模型微调落地等)下的核心诉求与潜在需求,结合客户业务痛点输出针对性技术服务建议;追踪客户关键业务稳定性问题,协助客户完成治理优化,持续提升客户产品使用体验与满意度,规避客户流失风险,超越客户服务预期;负责设计应急预案,推动故障快速修复和复盘。3. AI创新落地与增购商机挖掘:充分了解客户AI应用场景需求和AI发展规划,运用AI大模型与平台工具,挖掘客户长期技术服务需求与增购商机,助力客户价值升级与公司业绩增长。4. 跨团队协作与交付保障:联动销售、售前、运维、研发等跨部门团队,高效推进大模型落地,确保交付质量与进度符合客户预期;从客户架构与价值视角出发,开展问题处置、护航保障与风险治理,沉淀输出行业最佳实践及工具产品,主动为大客户提供专项高阶技术服务,强化客户合作粘性。5. 抽象客户需求到模型能力:深度了解、挖掘并沉淀客户场景业务需求,精准解读其AI数字化转型诉求,为模型迭代提供有效输入。 职位要求 【职位要求】1. 学历与专业:本科及以上学历,计算机、人工智能、数据科学、信息技术、工程等相关专业优先;具备客户成功、大客户服务相关意识,理解B端大客户服务逻辑。2. 技术能力与经验:5年以上企业开发、运维、方案架构设计经验,其中至少1-2年AI相关项目(如大模型应用、AI Agent开发、机器学习)经验;熟悉JAVA、Python、GO中至少一门开发语言,熟悉常见中间件(如Redis、Nacos、Kafka等),有2年以上软件开发经验优先,能快速处理客户技术相关问题。3. 其他技术要求:对业务场景容灾、高可用系统架构及AI算力集群架构有深入理解,能快速响应客户技术需求。具备公有云、多云管理、容器、微服务、数据库、分布式存储等多方向交付运维经验;熟悉云计算产品(计算、存储、网络、数据库等)与技术原理,并有实操经验,能为客户提供专业技术支撑。了解AI infra、AI Agent等前沿技术应用者优先,能助力客户AI创新落地。4. 项目管理和团队协作经验:善于推动跨部门复杂AI项目实施(如跨算法、研发、产品团队的大模型落地项目),具备较强的资源整合能力;能够独立承担大客户项目,为客户提供全流程技术解决方案,保障项目落地与客户价值实现。5. 客户服务与沟通能力:具备优秀的客户成功思维,能够对话客户关键决策;擅长持续深度服务大客户,敏锐把控客户AI相关需求与新商机,协助销售拓展业务、推动续约增购;具备优秀的沟通表达、呈现与逻辑思维能力,有极强的服务意识和协作意识,责任心强;具备优秀的文档编写、演讲及技术培训能力,能输出专业的客户汇报材料,传递产品与服务价值。6. 其他要求:能够适应定期客户拜访或长期驻场,具备较强的抗压能力和执行力,高效响应客户需求。三、【加分项】1. 熟悉大模型开发框架(LangChain、Spring AI等),有提示词调优、大模型微调、RAG应用构建、大模型Agent开发等经验;有基于智谱相关平台构建大模型应用经验者优先,能更好适配公司产品服务客户2. 有客户成功经理、大客户技术服务、售前售后支撑相关工作经验者优先,熟悉B端大客户全生命周期管理流程。3. 有ACP(阿里云认证工程师)、ACE(阿里云认证专家)、RHCE & RHCSA、华为云HCIP&HCIE、ITIL、PMP等相关认证和实战经验者优先,能更好为客户提供专业技术服务。4. 有2年以上泛娱乐、零售、金融、教育等行业大型互联网或集团型企业应用的解决方案、架构设计、DevOps、AIOps、高可用改造经验者优先,能快速适配行业客户需求。5. 具备优秀的客户需求挖掘、续约谈判技巧,有成功推动大客户续约、增购的案例者优先。 投递...
Agent 技术工程师 北京 社招 全职 互联网 / 电子 / 网游 职位描述 我们正在重新定义人与软件的协作方式——与 AI 一起,构建下一代工程基础设施。希望你不只是「使用 AI」,而是参与定义下一代工程基础设施,与 AI 共同重塑软件工程范式。 职位要求 基础能力1. 扎实软件工程能力:Linux / 网络 / 并发 / 工程架构设计2. 精通 Java / Go / Python 任一核心语言3. 熟悉微服务、RPC、MQ、缓存、数据库等基础设施AI / Agent 能力1.
NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential