Date Posted

Location

Job Type

Employer/Recruiter

All Filters

Infiniband Jobs In China - 9 Job Positions Available

Top Cities:

infiniband jobs in China

1 – 9 of 9 jobs

互联架构师

XPENG ( Shanghai )

互联架构师急招上海全职芯片板块职位描述 Die2Die/Chip2Chip 互联架构师- 负责AI多核互连架构定义与方案设计- 负责AI多芯片/多卡分布式计算互连架构定义与设计- 主导过AI多核互连总线设计与性能交付- 主导过 InfiniBand/RoCE/RDMA/PCIe/CXL/NVLink 等架构设计与高速互连方案落地- 负责 AI 分布式集群互连架构设计：拓扑、带宽、时延、可靠性规划- 跟踪前沿互连技术，输出预研与落地 roadmap 职位要求 - 本科及以上，计算机/电子/通信相关，5 年+ 高速互连/网络/集群架构经验- 精通Mesh或Crossbar总线架构设计- 精通至少一类互连技术：InfiniBand、RoCE、PCIe、CXL、NVLink，有实战调优- 熟悉RDMA、路由交换、拥塞控制、故障排查- 具备端到端性能分析、压测、问题定位与跨团队推动能力加分项- 大模型分布式计算（NCCL/Megatron）通信优化经验投递...

Premium Full-time AI

XPENG 29 days ago

HPC Engineer

AlphaGrep Securities ( Shanghai )

关于我们 / About Us AlphaGrep 是一家全球领先的量化交易公司，专注于股票、商品、外汇及固定收益等资产的算法交易。我们在国际市场拥有显著份额，依托自主开发的超低延迟系统与严格的风控体系，持续构建高效能策略。 AlphaGrep is a leading global quantitative trading firm specializing in algorithmic strategies across equities, commodities, FX, and fixed income. We hold significant market share internationally, powered by proprietary low-latency infrastructure

Premium Full-time InfiniBand Wellness Blocking RDMA Fabric

AlphaGrep Securities 25 days ago

Upload Your Resume — Let employers contact you directly

Senior Project Delivery Manager - NVIS

Nvidia ( Beijing )

Do you thrive in a fast-paced, high-growth technology organization? Are you excited to help enterprises build next-generation digital infrastructures powered by cloud and accelerated computing? At NVIDIA, our team is passionate about parallel computing, visual computing,

Premium Full-time AI Notification Governance Project Delivery Computing

Nvidia 21 days ago

VLA训练infra算法工程师 - XiaomiRobotics

Xiaomi ( Beijing )

VLA训练infra算法工程师 - XiaomiRobotics 北京社招全职职位 ID：A243642 职位描述 1. 基于 PyTorch 生态（FSDP / DeepSpeed / Megatron 等）设计并实现 VLA 模型的分布式训练方案（DP / TP / PP / MoE），构建稳定高效的训练框架2. 推动混合精度（BF16 / FP8）与算子融合（FlashAttention / Triton kernel）3. 构建高吞吐数据pipeline，设计数据格式与 shard 策略，实现高效的数据加载4. 支持大规模实验追踪、管理、指标可视化

Premium Remote Friendly Full-time PyTorch CUDA Python C++ InfiniBand

Xiaomi 11 days ago

MiMo-大模型训练框架开发工程师

Xiaomi ( Beijing )

MiMo-大模型训练框架开发工程师北京社招全职职位 ID：A142530 职位描述 - 基于 PyTorch、DeepSpeed、Megatron-LM 等技术，参与大模型训练框架的设计、开发与优化，提升模型训练的效率、稳定性与扩展性，支撑大规模模型的高效训练和部署。- 解决万卡集群中大模型训练中的关键技术难题，包括分布式训练通信、内存显存优化、数据加载与预处理加速等，保障训练高效稳定，降低资源消耗。- 开展大模型框架性能评估和调优工作，构建并完善性能监控体系，通过实时监测训练指标，定位性能瓶颈，提出优化方案，确保在不同硬件上达到最优性能。职位要求 - 1–5 年高性能计算 / 分布式训练 / 深度学习系统研发经验；- 熟练阅读并修改 PyTorch/DeepSpeed/Megatron-LM 核心源码，有线上调优案例；- 熟练使用 nsight/NCCL profiler 分析任务训练性能瓶颈；- 熟悉 InfiniBand/RoCEv2 网络拓扑，能独立调优 DP/TP/PP/EP 切分策略，解决大规模下通信-计算重叠问题；- 具备 Python/C++ 混合开发能力，代码洁癖＋CI/CD 意识。

Premium Remote Friendly Full-time

Xiaomi 10 days ago

NCX Engineer, AI Accelerator

Nvidia ( Shanghai )

NVIDIA is seeking an NCX Engineer, AI Accelerator to join our AI Accelerator team, collaborating closely with strategic customers to implement and enhance groundbreaking AI workloads! You will deliver hands-on technical assistance for advanced AI deployments,

Premium Full-time PyTorch Infrastructure as code Ml Customer Success Architecture

Nvidia 7 days ago

Get Hired 2x Faster
Connect with Top Employers Directly

GPU 服务器集群管理

清程极智 Qingcheng.ai ( Beijing )

GPU 服务器集群管理北京、深圳全职本科及以上职位描述 1. 配置、管理高性能 GPU 服务器集群，确保其全天可用、性能可靠、可监控。2. 提升服务器集群的日常利用效率，减少闲置或拥挤。3. 通过标准化和自动化，协调管理不同型号、来自不同供应商的 GPU 服务器集群。4. 处理服务器故障等紧急情况。职位要求 1. 计算机科学或相关专业。2. 具备管理 GPU 集群 / HPC 集群 / 超算集群的经验。3. 熟练掌握 Linux 系统管理技能，包括网络、进程、软件包、日志、监控、权限等方面。4. 掌握 GPU 系统管理技能，包括 GPU 驱动、GPU 监控、处理 GPU

Premium Full-time Linux

清程极智 Qingcheng.ai 7 days ago

Sr Automated Test Engineer

Koch ( Dongguan )

Location(s) Shijie Town, Dongguan, Guangdong Company Molex Career Field Engineering Job Number 187280 PRIMARY PURPOSE: Perform electrical testing, high speed tester support used in the manufacturing of High Speed cable assemblies based on standards such as

Premium Full-time Circuit TQM Failure Modes MS SQL Corrective Actions

Koch 5 days ago

全栈云端计算平台工程师

XPENG ( Guangzhou )

全栈云端计算平台工程师广州全职通用智能板块职位描述职位描述1. 负责小鹏集团计算平台的架构设计与研发落地，构建云端模型开发，训练基础设施以及大规模数据生产基础设施；2. 设计并实现高性能数据编排与加载系统，支撑 PB 级多模态数据（文本、图像、视频、点云、传感器等）的高效处理、缓存加速，支持批式与流式数据生产；深度集成AI Coding Agent与 Data Pipeline，实现数据准备、清洗、标注、版本管理的自动化与智能化闭环；3. 负责云原生基础设施层的开发与优化，包括 GPU集群调度、弹性资源管理、容器化训练/推理工作负载编排，持续提升资源利用率与系统吞吐；4. 可以承担全栈职责，包括前端管理控制台到后端分布式服务的开发。职位要求1. 计算机 / 软件工程 / 数学 / 自动化等相关专业硕士及以上学历，或具备同等技术能力；3 年及以上后端/基础设施开发经验，其中 2 年及以上大规模 AI 平台或分布式系统研发经验；2. 精通Python，具备出色的工程化能力；熟练使用 Golang/Java/C++ 中至少一门语言进行系统性开发；3. 熟悉 AI Coding /

Premium Full-time CLI STAR AI Kubernetes

XPENG 3 days ago

Upload Your ResumeLet employers contact you directly

Infiniband Jobs In China - 9 Job Positions Available

Subscribe for job alerts and resources to make your job search easier!