发布日期

技能

位置

工作类型

雇主/招聘方

所有筛选

Python Infra 招聘在北京 - 13 Job Positions Available

主要城市:

Beijing

python infra jobs nationwide

python infra 招聘在北京

1 – 13 的 13 招聘

AI Infra实习生

千寻智能（杭州）科技有限公司 ( Beijing )

AI Infra实习生北京实习研发 - 基础架构职位描述 1、负责构建支撑具身智能体的核心机器学习系统，开发面向机器人场景的VLA大模型训练与推理系统，支撑多模态感知、运动控制、任务规划等核心能力的持续进化；2、研发新一代具身智能系统工具链，涵盖数据采集、仿真训练、物理部署、持续优化全生命周期。职位要求 1、计算机、人工智能、软件工程等相关专业，硕士及以上学历，2026年及之后毕业； 2、熟练使用C++/Python/Pytorch/CUDA开发生态，具有嵌入式系统开发经验者优先；3、能至少保障3个月以上的实习时间，每周4天以上出勤；4、加分项：在以下一个或多个领域有深度实践： a. 大模型训练推理：多模态大模型分布式训练、端上推理加速、Transformer模型优化； b. 高性能计算：GPU Kernel编写，高性能通信（NCCL、RDMA），AI编译器（TVM、Triton），模型量化等； c. 机器人系统：ROS2、运动控制算法、传感器数据处理pipeline。投递...

Premium Full-time AI

千寻智能（杭州）科技有限公司 13天前发布

大模型训练与推理Infra工程师-MiMo

Xiaomi ( 北京 )

大模型训练与推理Infra工程师-MiMo 北京社招全职职位 ID：A14015 职位描述 1. 模型训练基础设施开发 - 设计和实现支持大规模分布式训练的计算平台，优化模型训练效率和资源利用率。 - 维护和扩展现有的分布式训练框架，确保平台的高性能和稳定性（如基于 PyTorch、TensorFlow 或 JAX）。 - 集成和优化高性能计算技术（如 CUDA、MPI、NCCL 等）。2. 模型推理基础设施开发 - 构建高效的推理框架，支持大模型的在线和离线推理需求。 - 优化推理速度、内存占用和能耗，支持多种硬件架构（GPU、NPU等）。 - 实现PD分离、Context Caching、模型量化、推敲编码等推理优化技术。3. 性能监控与优化 - 开发工具链和监控系统，跟踪训练与推理过程的性能瓶颈。 - 分析并优化数据加载、通信效率和硬件利用率等关键环节。4. 跨团队协作 - 与模型研究团队密切合作，理解模型需求，定制训练和推理策略。

Premium Remote Friendly Full-time AI Python

Xiaomi 5天前发布

上传简历 — 让雇主直接联系您

VLA训练infra算法工程师 - XiaomiRobotics

Xiaomi ( Beijing )

VLA训练infra算法工程师 - XiaomiRobotics 北京社招全职职位 ID：A243642 职位描述 1. 基于 PyTorch 生态（FSDP / DeepSpeed / Megatron 等）设计并实现 VLA 模型的分布式训练方案（DP / TP / PP / MoE），构建稳定高效的训练框架2. 推动混合精度（BF16 / FP8）与算子融合（FlashAttention / Triton kernel）3. 构建高吞吐数据pipeline，设计数据格式与 shard 策略，实现高效的数据加载4. 支持大规模实验追踪、管理、指标可视化职位要求

Premium Remote Friendly Full-time PyTorch Linux Kernel InfiniBand Python

Xiaomi 5天前发布

AI 院-MOE 训练/推理Infra工程师

Z.ai ( Beijing )

AI 院-MOE 训练/推理Infra工程师北京全职互联网 / 电子 / 网游职位描述我们正在寻找一位经验丰富的 MOE 训练/推理 Infra 开发工程师，负责设计、实现并优化我们的 MOE（Mixture of Experts）训练和推理框架。该职位需要您具备扎实的分布式系统、高性能计算、深度学习框架以及硬件加速优化的相关知识，能够解决 MOE 训练和推理过程中的各种技术难题，并与算法团队紧密合作，确保算法的顺利实现。主要职责：1、设计并实现高效的 MOE 训练/推理框架：•设计并开发支持大规模分布式训练和推理的 MOE 框架，确保其在各种硬件配置下的高效运行；•优化训练和推理性能，通过算法优化、并行计算、缓存策略等方式，缩短训练和推理时间，提高效率；2、解决 MOE 训练/推理过程中的技术难题：•针对专家网络的选择问题，研究和实现有效的专家选择算法，确保模型在训练和推理过程中的稳定性和准确性；• 解决负载均衡问题，通过动态调整专家网络的负载分配，提高系统资源的利用率，避免过载或空闲状态；• 优化通信过程，减少分布式训练和推理中的通信开销，提高数据传输效率，缩短训练和推理时间3、与算法团队密切合作：•与算法团队保持密切沟通，了解算法需求，根据需求调整和优化训练和推理基础设施，确保算法的顺利实现；•跟踪业界最新技术动态，引入适合项目需求的新技术、新方法，提升团队整体技术水平；职位要求关键技能：分布式训练技术：•掌握分布式训练框架（如 Horovod、PyTorch Distributed）的使用和优化。•具备设计和实现高效分布式训练系统的能力。硬件加速优化：•熟悉 GPU、TPU 等硬件架构，能够进行硬件级性能调优。•了解 CUDA、cuDNN 等相关技术，能够利用硬件加速提升训练和推理效率。模型优化技术：•了解量化、剪枝、压缩等模型优化方法，以提升推理效率•能够在实际项目中应用这些技术，优化模型大小和推理速度•负载均衡与通信优化•能够设计高效的负载均衡策略和通信机制，以应对 MOE

Premium Full-time MOE Linux AI

Z.ai 3天前发布

AI院-GLM后训练团队-推理优化/推理Infra工程师（RL）

Z.ai ( Beijing )

AI院-GLM后训练团队-推理优化/推理Infra工程师（RL）北京全职互联网 / 电子 / 网游 - 研发职位描述 1. 基于SGLang进行大模型推理引擎与服务侧开发，提升吞吐、降低时延与成本，保障线上稳定性。2. 支持RL训练相关的推理链路，包括rollout生成、打分/奖励模型推理等，优化训练闭环效率与资源利用。3. 建设推理侧的监控与性能分析能力，参与线上问题定位与故障处理。4. 与算法/训练团队协作，将模型与训练需求落地到可运行、可维护的推理系统，并输出必要的技术文档。职位要求 1. 熟练使用Python/C++（至少一种），具备良好的工程能力与性能意识。2. 熟悉GPU推理与常见深度学习框架（如 PyTorch），了解分布式通信与并行基本概念（NCCL 等）。3. 了解并使用过SGLang（或能快速上手并承担核心模块开发与调优）。4. 理解RL训练中推理侧的作用，能够与训练流程协同推进落地。5. 具备线上系统排障能力，能通过日志/指标定位性能与稳定性问题。加分项6. 有大模型推理系统、RLHF/RL 推理链路或训练-推理协同经验。7. 有推理性能profiling、算子/运行时优化经验。8. 有MoE模型优化经验。投递...

Premium Full-time

Z.ai 3天前发布

AI院-训练Infra工程师

Z.ai ( Beijing )

AI院-训练Infra工程师北京全职互联网 / 电子 / 网游职位描述 1、负责大规模预训练框架的研发、优化和维护，根据业务需求持续改进训练框架和策略，提升模型训练效率；2、分析和定位训练中的性能瓶颈，实施针对性优化措施，提升训练效率和稳定性；3、跟进业界技术进展，不断同步与集成最新训练优化策略。职位要求 1、对自然语言处理、计算机视觉和多模态算法有深入理解，熟悉主流的 LLM 和 VLM 模型架构，有分布式训练经验；2、精通 Python 编程语言，熟悉 PyTorch 深度学习框架和 Megatron 分布式训练框架；3、有大规模预训练优化 / MoE 训练优化经验的优先考虑。投递...

Premium Full-time MOE PyTorch Python

Z.ai 3天前发布

Get Hired 2x Faster
Connect with Top Employers Directly

大模型算法工程师（Agent & 对话方向）- 北京/杭州

Dcar ( Beijing )

大模型算法工程师（Agent & 对话方向）- 北京/杭州北京、杭州社招全职职位 ID：A146155 职位描述 1. 智能体（Agent）系统核心建设：负责基于大语言模型（LLM）的智能体系统设计、开发与迭代。重点打造应用于 C 端 Chatbot（如智能导购、个人助理、AI 搜索）的 Agent 架构，引入安全护栏（Guardrails）机制以确保输出的确定性，全面提升全链路的用户体验与任务完成率。 2. Agent 编排与控制工程（Orchestration & Harness）：探索通用、高质量的提示词范式，设计并构建管理工具调用、技能抽象与多智能体协同（Multi-Agent）的动态调度引擎。赋予系统多步骤编排、自主规划、记忆机制、执行结果反馈与安全纠错能力，大幅提升模型在复杂意图澄清、跨领域对比分析、多轮对话一致性等高难度任务中的表现。 3. LLM 模型领域后训练：建设模型评测集、做对比选型与领域后训练全流程建设（含 SFT、RLHF/RLAIF）。打通 C 端线上交互数据的自动化回流链路，构建数据飞轮；跟进学术与工业界前沿进展，持续提升模型在业务特定领域任务上的表现；联合 AI-infra 团队优化响应速度与训推资源。 4. 知识图谱与RAG建设：针对海量、异构业务数据（如视频、图文、车型库、商品 SKU），设计适合 Agent 引用与对齐的知识图谱与向量索引结构，引入自进化机制，并依托前沿的检索技术和上下文窗口压缩技术，与 LLM

Premium Remote Friendly Full-time C AI

Dcar 9天前发布

大模型研究和工程实习生-MiMo

小米科技 Xiaomi Technology ( Beijing )

大模型研究和工程实习生-MiMo 北京校招实习算法类职位描述 1.创新模型结构设计： - 参与大型语言模型核心架构设计与优化 - 探索Transformer及其变种的改进方案2. 原生多模态探索： - 研发原生多模态架构，实现文本、图像、音频等模态信息的深度融合 - 研究多模态对齐技术，实现不同模态的语义一致性3. 模型推理能力提升： - 借助强化学习+CoT，提升大语言模型推理能力 - 自研强化学习算法，搭建强化学习训练框架，设计奖励函数、构建环境、优化模型提升性能4. 大模型训练推理Infra - 开发和优化大规模分布式训练推理系统 - 优化大模型训练的内存使用和通信效率5. 科学评测体系构建： - 构建科学严谨的算法评测方法，系统评估模型的性能 - 探索模型能力的潜在机制，推动模型优化和创新职位要求职位要求1. 学术能力： - 精通深度学习、强化学习（RL）、自然语言处理（NLP）等领域，具备创新研究能力 -

Premium Full-time

小米科技 Xiaomi Technology 8天前发布

MiMo算法研究员-音频&语音

Xiaomi ( Beijing )

MiMo算法研究员-音频&语音北京社招全职职位 ID：A32353 职位描述我们在做什么？我们在通过探索 scaling 语音预训练和后训练，来让模型涌现出真正的语音超级智能。1. Data - 海量语音数据处理：建设超大规模真实语音数据发掘、采集、预处理与清洗的流水线 - 高质量语音数据处理：搭建在海量真实语音中对高质量数据进行定义、召回、标注的流水线2. Backbone & Infra - 语音原生架构：探索随着语音数据 scaling 收益上限最高的建模架构，不限于离散或者连续建模 - 高效训推框架：适配最契合语音模型架构的训练和推理框架，兼顾性能和效率3. Pretrain & Post-train - 定义语音生成式预训练：围绕可泛化的语音预训练模型展开前沿探索性研究，坚定 scaling 路线 - 强化学习后训练：为语音预训练模型的强大能力提供语音对话的交互方式，激发预训练潜力4. Evaluation & Product -

Premium Full-time C++ Python

Xiaomi 5天前发布

AI基础设施研发工程师（Sandbox / 容器化)-MiMo

Xiaomi ( Beijing )

AI基础设施研发工程师（Sandbox / 容器化)-MiMo 北京社招全职职位 ID：A229573 职位描述 MiMo 大模型团队正在寻找熟悉 sandbox、容器化和云原生基础设施的研发工程师，一起建设面向大规模强化学习训练的基础设施能力。随着大模型 Agent 和代码能力训练进入大规模 RL 阶段，我们需要构建稳定、安全、可扩展的任务执行环境。你将参与设计和实现 sandbox 执行系统、容器调度平台、训练任务环境、隔离与资源管理机制，为大规模 Agent 任务、代码执行任务和 RL 训练提供底层 infra 支撑。工作职责1. 设计和建设面向 RL 训练的 sandbox 执行环境，支持代码运行、工具调用、浏览器自动化、文件系统操作、网络访问控制等能力。2. 基于 Docker、Kubernetes 等技术，构建可大规模调度的容器化任务运行平台，支持高并发、多租户、可观测、可恢复的训练任务执行。3. 参与大规模 RL 训练 infra 的 scaling，包括任务分发、资源调度、环境复用、状态隔离、失败恢复、日志采集和性能优化。4.

Premium Remote Friendly Full-time Linux MIMO Kubernetes

Xiaomi 5天前发布

MaaS-大客户技术服务经理

Z.ai ( Beijing )

MaaS-大客户技术服务经理北京全职互联网 / 电子 / 网游职位描述【岗位职责】1. 售后服务管理：作为智谱MaaS战略客户售后第一责任人，全面负责客户售后技术服务与关系维护，深入理解客户AI业务场景，与技术支持团队配合落地项目交付、主动运维、质量管控与风险治理；总结智谱AI产品（大模型API、AI推理服务、AI工具链等）在客户实际场景中的最佳实践，沉淀可复用的行业AI服务案例，助力客户实现AI应用价值最大化，夯实客户留存基础，推动老客户续约与转介绍。2. 问题闭环与客户满意度提升：主动对接大客户KP，建立常态化沟通机制，及时响应客户在AI产品及服务使用过程中的核心问题（如模型效果优化、推理性能、AI安全合规等），快速协调内部技术团队（AI算法、产品、研发）协作解决，形成问题闭环；深度挖掘客户在AI驱动复杂业务场景（如AI Agent部署、大模型微调落地等）下的核心诉求与潜在需求，结合客户业务痛点输出针对性技术服务建议；追踪客户关键业务稳定性问题，协助客户完成治理优化，持续提升客户产品使用体验与满意度，规避客户流失风险，超越客户服务预期；负责设计应急预案，推动故障快速修复和复盘。3. AI创新落地与增购商机挖掘：充分了解客户AI应用场景需求和AI发展规划，运用AI大模型与平台工具，挖掘客户长期技术服务需求与增购商机，助力客户价值升级与公司业绩增长。4. 跨团队协作与交付保障：联动销售、售前、运维、研发等跨部门团队，高效推进大模型落地，确保交付质量与进度符合客户预期；从客户架构与价值视角出发，开展问题处置、护航保障与风险治理，沉淀输出行业最佳实践及工具产品，主动为大客户提供专项高阶技术服务，强化客户合作粘性。5. 抽象客户需求到模型能力：深度了解、挖掘并沉淀客户场景业务需求，精准解读其AI数字化转型诉求，为模型迭代提供有效输入。职位要求【职位要求】1. 学历与专业：本科及以上学历，计算机、人工智能、数据科学、信息技术、工程等相关专业优先；具备客户成功、大客户服务相关意识，理解B端大客户服务逻辑。2. 技术能力与经验：5年以上企业开发、运维、方案架构设计经验，其中至少1-2年AI相关项目（如大模型应用、AI Agent开发、机器学习）经验；熟悉JAVA、Python、GO中至少一门开发语言，熟悉常见中间件（如Redis、Nacos、Kafka等），有2年以上软件开发经验优先，能快速处理客户技术相关问题。3. 其他技术要求：对业务场景容灾、高可用系统架构及AI算力集群架构有深入理解，能快速响应客户技术需求。具备公有云、多云管理、容器、微服务、数据库、分布式存储等多方向交付运维经验；熟悉云计算产品（计算、存储、网络、数据库等）与技术原理，并有实操经验，能为客户提供专业技术支撑。了解AI infra、AI Agent等前沿技术应用者优先，能助力客户AI创新落地。4. 项目管理和团队协作经验：善于推动跨部门复杂AI项目实施（如跨算法、研发、产品团队的大模型落地项目），具备较强的资源整合能力；能够独立承担大客户项目，为客户提供全流程技术解决方案，保障项目落地与客户价值实现。5. 客户服务与沟通能力：具备优秀的客户成功思维，能够对话客户关键决策；擅长持续深度服务大客户，敏锐把控客户AI相关需求与新商机，协助销售拓展业务、推动续约增购；具备优秀的沟通表达、呈现与逻辑思维能力，有极强的服务意识和协作意识，责任心强；具备优秀的文档编写、演讲及技术培训能力，能输出专业的客户汇报材料，传递产品与服务价值。6. 其他要求：能够适应定期客户拜访或长期驻场，具备较强的抗压能力和执行力，高效响应客户需求。三、【加分项】1. 熟悉大模型开发框架（LangChain、Spring AI等），有提示词调优、大模型微调、RAG应用构建、大模型Agent开发等经验；有基于智谱相关平台构建大模型应用经验者优先，能更好适配公司产品服务客户2. 有客户成功经理、大客户技术服务、售前售后支撑相关工作经验者优先，熟悉B端大客户全生命周期管理流程。3. 有ACP（阿里云认证工程师）、ACE（阿里云认证专家）、RHCE & RHCSA、华为云HCIP&HCIE、ITIL、PMP等相关认证和实战经验者优先，能更好为客户提供专业技术服务。4. 有2年以上泛娱乐、零售、金融、教育等行业大型互联网或集团型企业应用的解决方案、架构设计、DevOps、AIOps、高可用改造经验者优先，能快速适配行业客户需求。5. 具备优秀的客户需求挖掘、续约谈判技巧，有成功推动大客户续约、增购的案例者优先。投递...

Premium Full-time

Z.ai 3天前发布

Agent 技术工程师

Soul APP ( Beijing )

Agent 技术工程师北京社招全职互联网 / 电子 / 网游职位描述我们正在重新定义人与软件的协作方式——与 AI 一起，构建下一代工程基础设施。希望你不只是「使用 AI」，而是参与定义下一代工程基础设施，与 AI 共同重塑软件工程范式。职位要求基础能力1. 扎实软件工程能力：Linux / 网络 / 并发 / 工程架构设计2. 精通 Java / Go / Python 任一核心语言3. 熟悉微服务、RPC、MQ、缓存、数据库等基础设施AI / Agent 能力1.

Premium Full-time Java CLI AI MCP Python

Soul APP 1天前发布

Solution Architecture Intern, AI in Industry - 2026

Nvidia ( Beijing )

NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential

Premium Full-time Solution Architecture Mechanisms Architecture Python Technical Support

Nvidia 18小时前发布

Upload Your ResumeLet employers contact you directly

Python Infra 招聘 在 北京 - 13 Job Positions Available

Subscribe for job alerts and resources to make your job search easier!

Python Infra 招聘在北京 - 13 Job Positions Available