Refine Reset All
通过
技能
工作类型
雇主/招聘方
发布日期
技能
工作类型
雇主/招聘方
所有筛选

Python Infra 招聘 在 Beijing (Peking) - 13 Job Positions Available

1 – 13 的 13 招聘
千寻智能(杭州)科技有限公司 招聘

AI Infra实习生 北京 实习 研发 - 基础架构 职位描述 1、负责构建支撑具身智能体的核心机器学习系统,开发面向机器人场景的VLA大模型训练与推理系统,支撑多模态感知、运动控制、任务规划等核心能力的持续进化;2、研发新一代具身智能系统工具链,涵盖数据采集、仿真训练、物理部署、持续优化全生命周期。 职位要求 1、计算机、人工智能、软件工程等相关专业,硕士及以上学历,2026年及之后毕业; 2、熟练使用C++/Python/Pytorch/CUDA开发生态,具有嵌入式系统开发经验者优先;3、能至少保障3个月以上的实习时间,每周4天以上出勤;4、加分项:在以下一个或多个领域有深度实践: a. 大模型训练推理:多模态大模型分布式训练、端上推理加速、Transformer模型优化; b. 高性能计算:GPU Kernel编写,高性能通信(NCCL、RDMA),AI编译器(TVM、Triton),模型量化等; c. 机器人系统:ROS2、运动控制算法、传感器数据处理pipeline。 投递...

Premium Full-time AI
千寻智能(杭州)科技有限公司  13天前发布
Xiaomi 招聘

大模型训练与推理Infra工程师-MiMo 北京 社招 全职 职位 ID:A14015 职位描述 1. 模型训练基础设施开发 - 设计和实现支持大规模分布式训练的计算平台,优化模型训练效率和资源利用率。 - 维护和扩展现有的分布式训练框架,确保平台的高性能和稳定性(如基于 PyTorch、TensorFlow 或 JAX)。 - 集成和优化高性能计算技术(如 CUDA、MPI、NCCL 等)。2. 模型推理基础设施开发 - 构建高效的推理框架,支持大模型的在线和离线推理需求。 - 优化推理速度、内存占用和能耗,支持多种硬件架构(GPU、NPU等 )。 - 实现PD分离、Context Caching、模型量化、推敲编码等推理优化技术。3. 性能监控与优化 - 开发工具链和监控系统,跟踪训练与推理过程的性能瓶颈。 - 分析并优化数据加载、通信效率和硬件利用率等关键环节。4. 跨团队协作 - 与模型研究团队密切合作,理解模型需求,定制训练和推理策略。

Xiaomi  5天前发布
Xiaomi 招聘

VLA训练infra算法工程师 - XiaomiRobotics 北京 社招 全职 职位 ID:A243642 职位描述 1. 基于 PyTorch 生态(FSDP / DeepSpeed / Megatron 等)设计并实现 VLA 模型的分布式训练方案(DP / TP / PP / MoE),构建稳定高效的训练框架2. 推动混合精度(BF16 / FP8)与算子融合(FlashAttention / Triton kernel)3. 构建高吞吐数据pipeline,设计数据格式与 shard 策略,实现高效的数据加载4. 支持大规模实验追踪、管理、指标可视化 职位要求

Xiaomi  5天前发布
Z.ai 招聘

AI 院-MOE 训练/推理Infra工程师 北京 全职 互联网 / 电子 / 网游 职位描述 我们正在寻找一位经验丰富的 MOE 训练/推理 Infra 开发工程师,负责设计、实现并优化我们的 MOE(Mixture of Experts)训练和推理框架。该职位需要您具备扎实的分布式系统、高性能计算、深度学习框架以及硬件加速优化的相关知识,能够解决 MOE 训练和推理过程中的各种技术难题,并与算法团队紧密合作,确保算法的顺利实现。主要职责:1、设计并实现高效的 MOE 训练/推理框架:•设计并开发支持大规模分布式训练和推理的 MOE 框架,确保其在各种硬件配置下的高效运行;•优化训练和推理性能,通过算法优化、并行计算、缓存策略等方式,缩短训练和推理时间,提高效率;2、解决 MOE 训练/推理过程中的技术难题:•针对专家网络的选择问题,研究和实现有效的专家选择算法,确保模型在训练和推理过程中的稳定性和准确性;• 解决负载均衡问题,通过动态调整专家网络的负载分配,提高系统资源的利用率,避免过载或空闲状态;• 优化通信过程,减少分布式训练和推理中的通信开销,提高数据传输效率,缩短训练和推理时间3、与算法团队密切合作:•与算法团队保持密切沟通,了解算法需求,根据需求调整和优化训练和推理基础设施,确保算法的顺利实现;•跟踪业界最新技术动态,引入适合项目需求的新技术、新方法,提升团队整体技术水平; 职位要求 关键技能:分布式训练技术:•掌握分布式训练框架(如 Horovod、PyTorch Distributed)的使用和优化。•具备设计和实现高效分布式训练系统的能力。硬件加速优化:•熟悉 GPU、TPU 等硬件架构,能够进行硬件级性能调优。•了解 CUDA、cuDNN 等相关技术,能够利用硬件加速提升训练和推理效率。模型优化技术:•了解量化、剪枝、压缩等模型优化方法,以提升推理效率•能够在实际项目中应用这些技术,优化模型大小和推理速度•负载均衡与通信优化•能够设计高效的负载均衡策略和通信机制,以应对 MOE

Premium Full-time MOE Linux AI
Z.ai  3天前发布
Z.ai 招聘

AI院-GLM后训练团队-推理优化/推理Infra工程师(RL) 北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 1. 基于SGLang进行大模型推理引擎与服务侧开发,提升吞吐、降低时延与成本,保障线上稳定性。2. 支持RL训练相关的推理链路,包括rollout生成、打分/奖励模型推理等,优化训练闭环效率与资源利用。3. 建设推理侧的监控与性能分析能力,参与线上问题定位与故障处理。4. 与算法/训练团队协作,将模型与训练需求落地到可运行、可维护的推理系统,并输出必要的技术文档。 职位要求 1. 熟练使用Python/C++(至少一种),具备良好的工程能力与性能意识。2. 熟悉GPU推理与常见深度学习框架(如 PyTorch),了解分布式通信与并行基本概念(NCCL 等)。3. 了解并使用过SGLang(或能快速上手并承担核心模块开发与调优)。4. 理解RL训练中推理侧的作用,能够与训练流程协同推进落地。5. 具备线上系统排障能力,能通过日志/指标定位性能与稳定性问题。加分项6. 有大模型推理系统、RLHF/RL 推理链路或训练-推理协同经验。7. 有推理性能profiling、算子/运行时优化经验。8. 有MoE模型优化经验。 投递...

Premium Full-time
Z.ai  3天前发布
Z.ai 招聘

AI院-训练Infra工程师 北京 全职 互联网 / 电子 / 网游 职位描述 1、负责大规模预训练框架的研发、优化和维护,根据业务需求持续改进训练框架和策略,提升模型训练效率;2、分析和定位训练中的性能瓶颈,实施针对性优化措施,提升训练效率和稳定性;3、跟进业界技术进展,不断同步与集成最新训练优化策略。 职位要求 1、对自然语言处理、计算机视觉和多模态算法有深入理解,熟悉主流的 LLM 和 VLM 模型架构,有分布式训练经验;2、精通 Python 编程语言,熟悉 PyTorch 深度学习框架和 Megatron 分布式训练框架;3、有大规模预训练优化 / MoE 训练优化经验的优先考虑。 投递...

Z.ai  3天前发布
Dcar 招聘

大模型算法工程师(Agent & 对话方向)- 北京/杭州 北京、杭州 社招 全职 职位 ID:A146155 职位描述 1. 智能体(Agent)系统核心建设:负责基于大语言模型(LLM)的智能体系统设计、开发与迭代。重点打造应用于 C 端 Chatbot(如智能导购、个人助理、AI 搜索)的 Agent 架构,引入安全护栏(Guardrails)机制以确保输出的确定性,全面提升全链路的用户体验与任务完成率。 2. Agent 编排与控制工程(Orchestration & Harness):探索通用、高质量的提示词范式,设计并构建管理工具调用、技能抽象与多智能体协同(Multi-Agent)的动态调度引擎。赋予系统多步骤编排、自主规划、记忆机制、执行结果反馈与安全纠错能力,大幅提升模型在复杂意图澄清、跨领域对比分析、多轮对话一致性等高难度任务中的表现。 3. LLM 模型领域后训练:建设模型评测集、做对比选型与领域后训练全流程建设(含 SFT、RLHF/RLAIF)。打通 C 端线上交互数据的自动化回流链路,构建数据飞轮;跟进学术与工业界前沿进展,持续提升模型在业务特定领域任务上的表现;联合 AI-infra 团队优化响应速度与训推资源。 4. 知识图谱与RAG建设:针对海量、异构业务数据(如视频、图文、车型库、商品 SKU),设计适合 Agent 引用与对齐的知识图谱与向量索引结构,引入自进化机制,并依托前沿的检索技术和上下文窗口压缩技术,与 LLM

Dcar  9天前发布
小米科技 Xiaomi Technology 招聘

大模型研究和工程实习生-MiMo 北京 校招 实习 算法类 职位描述 1.创新模型结构设计: - 参与大型语言模型核心架构设计与优化 - 探索Transformer及其变种的改进方案2. 原生多模态探索: - 研发原生多模态架构,实现文本、图像、音频等模态信息的深度融合 - 研究多模态对齐技术,实现不同模态的语义一致性3. 模型推理能力提升: - 借助强化学习+CoT,提升大语言模型推理能力 - 自研强化学习算法,搭建强化学习训练框架,设计奖励函数、构建环境、优化模型提升性能4. 大模型训练推理Infra - 开发和优化大规模分布式训练推理系统 - 优化大模型训练的内存使用和通信效率5. 科学评测体系构建: - 构建科学严谨的算法评测方法,系统评估模型的性能 - 探索模型能力的潜在机制,推动模型优化和创新 职位要求 职位要求1. 学术能力: - 精通深度学习、强化学习(RL)、自然语言处理(NLP)等领域,具备创新研究能力 -

Premium Full-time
小米科技 Xiaomi Technology  8天前发布
Xiaomi 招聘

MiMo算法研究员-音频&语音 北京 社招 全职 职位 ID:A32353 职位描述 我们在做什么?我们在通过探索 scaling 语音预训练和后训练,来让模型涌现出真正的语音超级智能。1. Data - 海量语音数据处理:建设超大规模真实语音数据发掘、采集、预处理与清洗的流水线 - 高质量语音数据处理:搭建在海量真实语音中对高质量数据进行定义、召回、标注的流水线2. Backbone & Infra - 语音原生架构:探索随着语音数据 scaling 收益上限最高的建模架构,不限于离散或者连续建模 - 高效训推框架:适配最契合语音模型架构的训练和推理框架,兼顾性能和效率3. Pretrain & Post-train - 定义语音生成式预训练:围绕可泛化的语音预训练模型展开前沿探索性研究,坚定 scaling 路线 - 强化学习后训练:为语音预训练模型的强大能力提供语音对话的交互方式,激发预训练潜力4. Evaluation & Product -

Premium Full-time C++ Python
Xiaomi  5天前发布
Xiaomi 招聘

AI基础设施研发工程师(Sandbox / 容器化)-MiMo 北京 社招 全职 职位 ID:A229573 职位描述 MiMo 大模型团队正在寻找熟悉 sandbox、容器化和云原生基础设施的研发工程师,一起建设面向大规模强化学习训练的基础设施能力。随着大模型 Agent 和代码能力训练进入大规模 RL 阶段,我们需要构建稳定、安全、可扩展的任务执行环境。你将参与设计和实现 sandbox 执行系统、容器调度平台、训练任务环境、隔离与资源管理机制,为大规模 Agent 任务、代码执行任务和 RL 训练提供底层 infra 支撑。工作职责1. 设计和建设面向 RL 训练的 sandbox 执行环境,支持代码运行、工具调用、浏览器自动化、文件系统操作、网络访问控制等能力。2. 基于 Docker、Kubernetes 等技术,构建可大规模调度的容器化任务运行平台,支持高并发、多租户、可观测、可恢复的训练任务执行。3. 参与大规模 RL 训练 infra 的 scaling,包括任务分发、资源调度、环境复用、状态隔离、失败恢复、日志采集和性能优化。4.

Xiaomi  5天前发布
Z.ai 招聘

MaaS-大客户技术服务经理 北京 全职 互联网 / 电子 / 网游 职位描述 【岗位职责】1. 售后服务管理:作为智谱MaaS战略客户售后第一责任人,全面负责客户售后技术服务与关系维护,深入理解客户AI业务场景,与技术支持团队配合落地项目交付、主动运维、质量管控与风险治理;总结智谱AI产品(大模型API、AI推理服务、AI工具链等)在客户实际场景中的最佳实践,沉淀可复用的行业AI服务案例,助力客户实现AI应用价值最大化,夯实客户留存基础,推动老客户续约与转介绍。2. 问题闭环与客户满意度提升:主动对接大客户KP,建立常态化沟通机制,及时响应客户在AI产品及服务使用过程中的核心问题(如模型效果优化、推理性能、AI安全合规等),快速协调内部技术团队(AI算法、产品、研发)协作解决,形成问题闭环;深度挖掘客户在AI驱动复杂业务场景(如AI Agent部署、大模型微调落地等)下的核心诉求与潜在需求,结合客户业务痛点输出针对性技术服务建议;追踪客户关键业务稳定性问题,协助客户完成治理优化,持续提升客户产品使用体验与满意度,规避客户流失风险,超越客户服务预期;负责设计应急预案,推动故障快速修复和复盘。3. AI创新落地与增购商机挖掘:充分了解客户AI应用场景需求和AI发展规划,运用AI大模型与平台工具,挖掘客户长期技术服务需求与增购商机,助力客户价值升级与公司业绩增长。4. 跨团队协作与交付保障:联动销售、售前、运维、研发等跨部门团队,高效推进大模型落地,确保交付质量与进度符合客户预期;从客户架构与价值视角出发,开展问题处置、护航保障与风险治理,沉淀输出行业最佳实践及工具产品,主动为大客户提供专项高阶技术服务,强化客户合作粘性。5. 抽象客户需求到模型能力:深度了解、挖掘并沉淀客户场景业务需求,精准解读其AI数字化转型诉求,为模型迭代提供有效输入。 职位要求 【职位要求】1. 学历与专业:本科及以上学历,计算机、人工智能、数据科学、信息技术、工程等相关专业优先;具备客户成功、大客户服务相关意识,理解B端大客户服务逻辑。2. 技术能力与经验:5年以上企业开发、运维、方案架构设计经验,其中至少1-2年AI相关项目(如大模型应用、AI Agent开发、机器学习)经验;熟悉JAVA、Python、GO中至少一门开发语言,熟悉常见中间件(如Redis、Nacos、Kafka等),有2年以上软件开发经验优先,能快速处理客户技术相关问题。3. 其他技术要求:对业务场景容灾、高可用系统架构及AI算力集群架构有深入理解,能快速响应客户技术需求。具备公有云、多云管理、容器、微服务、数据库、分布式存储等多方向交付运维经验;熟悉云计算产品(计算、存储、网络、数据库等)与技术原理,并有实操经验,能为客户提供专业技术支撑。了解AI infra、AI Agent等前沿技术应用者优先,能助力客户AI创新落地。4. 项目管理和团队协作经验:善于推动跨部门复杂AI项目实施(如跨算法、研发、产品团队的大模型落地项目),具备较强的资源整合能力;能够独立承担大客户项目,为客户提供全流程技术解决方案,保障项目落地与客户价值实现。5. 客户服务与沟通能力:具备优秀的客户成功思维,能够对话客户关键决策;擅长持续深度服务大客户,敏锐把控客户AI相关需求与新商机,协助销售拓展业务、推动续约增购;具备优秀的沟通表达、呈现与逻辑思维能力,有极强的服务意识和协作意识,责任心强;具备优秀的文档编写、演讲及技术培训能力,能输出专业的客户汇报材料,传递产品与服务价值。6. 其他要求:能够适应定期客户拜访或长期驻场,具备较强的抗压能力和执行力,高效响应客户需求。三、【加分项】1. 熟悉大模型开发框架(LangChain、Spring AI等),有提示词调优、大模型微调、RAG应用构建、大模型Agent开发等经验;有基于智谱相关平台构建大模型应用经验者优先,能更好适配公司产品服务客户2. 有客户成功经理、大客户技术服务、售前售后支撑相关工作经验者优先,熟悉B端大客户全生命周期管理流程。3. 有ACP(阿里云认证工程师)、ACE(阿里云认证专家)、RHCE & RHCSA、华为云HCIP&HCIE、ITIL、PMP等相关认证和实战经验者优先,能更好为客户提供专业技术服务。4. 有2年以上泛娱乐、零售、金融、教育等行业大型互联网或集团型企业应用的解决方案、架构设计、DevOps、AIOps、高可用改造经验者优先,能快速适配行业客户需求。5. 具备优秀的客户需求挖掘、续约谈判技巧,有成功推动大客户续约、增购的案例者优先。 投递...

Premium Full-time
Z.ai  3天前发布
Soul APP 招聘

Agent 技术工程师 北京 社招 全职 互联网 / 电子 / 网游 职位描述 我们正在重新定义人与软件的协作方式——与 AI 一起,构建下一代工程基础设施。希望你不只是「使用 AI」,而是参与定义下一代工程基础设施,与 AI 共同重塑软件工程范式。 职位要求 基础能力1. 扎实软件工程能力:Linux / 网络 / 并发 / 工程架构设计2. 精通 Java / Go / Python 任一核心语言3. 熟悉微服务、RPC、MQ、缓存、数据库等基础设施AI / Agent 能力1.

Soul APP  1天前发布
Nvidia 招聘

NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential

Nvidia  16小时前发布

Subscribe for job alerts and resources to make your job search easier!

确认邮件已发送至

请检查邮件并点击链接,开始接收招聘提醒。

接收这类最新招聘:

python infra 招聘 在 beijing

You also might be interested in:

AI

确认邮件已发送至

请检查邮件并点击链接,开始接收招聘提醒。

所有筛选 Apply
通过
技能
工作类型
雇主/招聘方