发布日期

技能

位置

工作类型

雇主/招聘方

所有筛选

Rdma 招聘在中国 - 14 Job Positions Available

主要城市:

Shanghai

rdma 招聘在中国

1 – 14 的 14 招聘

具身算法引擎开发实习生

智元创新（上海）科技有限公司 ( 上海 )

具身算法引擎开发实习生上海实习职位描述 1. 训练框架开发：参与VLA等大模型训练框架研发与优化，包括数据并行、模型并行、流水并行等分布式训练能力的建设，提升千卡规模的训练稳定性与资源利用率。2. 推理系统优化：参与VLA等大模型的推理引擎开发与性能优化，包括算子优化、KV Cache管理、Prefill/Decode优化、Batch调度、低延迟Serving等核心能力建设，提升推理吞吐与响应速度。3. 分布式系统优化：参与多机多卡训练与推理系统建设，优化NCCL通信、AllReduce效率及IB/RDMA网络性能，提升大规模集群运行效率。4. 稳定性保障：解决大规模训练中的故障恢复、Checkpoint 管理、梯度异常等问题，确保长时间训练任务的稳定运行。5. 平台工程建设：参与训练/推理平台工程化建设，包括模型部署、监控、自动化测试、性能Benchmark及稳定性保障。职位要求 1. 本科及以上学历，计算机、人工智能、自动化、机器人等相关专业优先2. 熟悉Python或C++开发，具备良好的代码能力与工程习惯3. 精通 PyTorch 分布式训练机制（DDP/FSDP），熟悉 DeepSpeed、Megatron-LM 、vLLM、SGLang等大规模训练/推理框架的原理与使用4. 深入理解 3D 并行（Data Parallel / Tensor Parallel / Pipeline Parallel）的实现原理与适用场景，能够根据模型特点设计最优并行策略5. 熟练使用 PyTorch Profiler、NVIDIA Nsight 等工具进行性能分析，能够定位并解决计算、通信、I/O 瓶颈加分项：1.

智元创新（上海）科技有限公司 28天前发布

机器学习平台研发工程师

Z.ai ( Beijing )

机器学习平台研发工程师北京全职互联网 / 电子 / 网游 - 研发职位描述 -负责机器学习平台与算力基础设施的研发与演进，为模型训练、推理、评测及数据处理等流程提供稳定、高效、可扩展的平台能力，主要包括：- 参与并主导大规模算力平台的设计与研发，覆盖资源调度、任务编排、容器与运行时管理等关键方向，持续提升集群整体资源利用率，保障训练与推理场景的稳定运行；- 基于 Kubernetes、Docker 等云原生技术，参与调度器扩展及 CRD/Controller 等核心能力建设，支撑大规模分布式训练与推理场景。- 持续推进平台的易用性与性能优化，完善工具链与开发体验，降低算法与模型团队的使用门槛，提升整体研发效率。职位要求 - 本科及以上学历，3 年及以上研发经验，有大规模容器集群或平台型系统建设经验，有千卡及以上规模集群管理或调度经验者优先；- 熟练掌握 Golang，具备扎实的数据结构与算法基础，能够独立定位和解决复杂系统问题；- 熟悉 Kubernetes 核心机制与组件（如调度、网络、存储、Controller/CRD 等），了解容器运行时及云原生相关技术体系；- 熟悉常见分布式数据处理或计算框架（如 Ray / Spark / Flink 等），理解其架构设计与运行模型；-

Premium Full-time Openmp Kubernetes Flink MPI OpenMP

Z.ai 25天前发布

上传简历 — 让雇主直接联系您

AI基础架构工程师-大规模集群方向

上海创智学院 Shanghai Innovation Institute ( Shanghai )

AI基础架构工程师-大规模集群方向上海工程类本科及以上 5-7 年职位描述 1.大规模集群管理：负责千卡/万卡级 GPU 集群（如 NVIDIA A100/H100）的日常运维、稳定性保障及容量规划，确保高可用性和高资源利用率。2.容器化平台建设：基于 Kubernetes (K8s) 构建和优化 AI 训练平台，负责调度系统（Scheduler）的优化，解决资源隔离、优先级调度及断点续训（Checkpointing）等问题。3.故障排查与性能优化：深入排查分布式训练过程中的疑难杂症（如 NCCL Timeout、GPU 掉卡、网络拥塞等），针对训练任务进行软硬件层面的性能调优。4.底层环境维护：维护底层驱动（CUDA, cuDNN）、NCCL 通信库及异构硬件的监控体系（Prometheus/Grafana），实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接：支持主流深度学习框架（PyTorch, TensorFlow, Megatron-LM 等）在集群上的高效运行，优化 Dataloader 和分布式训练启动流程。职位要求 1. 基础架构与容器技术：精通

Premium Full-time AI Python PyTorch RDMA Kubernetes

上海创智学院 Shanghai Innovation Institute 25天前发布

互联架构师

XPENG ( 上海 )

互联架构师急招上海全职芯片板块职位描述 Die2Die/Chip2Chip 互联架构师- 负责AI多核互连架构定义与方案设计- 负责AI多芯片/多卡分布式计算互连架构定义与设计- 主导过AI多核互连总线设计与性能交付- 主导过 InfiniBand/RoCE/RDMA/PCIe/CXL/NVLink 等架构设计与高速互连方案落地- 负责 AI 分布式集群互连架构设计：拓扑、带宽、时延、可靠性规划- 跟踪前沿互连技术，输出预研与落地 roadmap 职位要求 - 本科及以上，计算机/电子/通信相关，5 年+ 高速互连/网络/集群架构经验- 精通Mesh或Crossbar总线架构设计- 精通至少一类互连技术：InfiniBand、RoCE、PCIe、CXL、NVLink，有实战调优- 熟悉RDMA、路由交换、拥塞控制、故障排查- 具备端到端性能分析、压测、问题定位与跨团队推动能力加分项- 大模型分布式计算（NCCL/Megatron）通信优化经验投递...

Premium Full-time AI

XPENG 21天前发布

NCCL芯片互联软件高级/资深/专家工程师

XPENG ( Shanghai )

NCCL芯片互联软件高级/资深/专家工程师上海全职芯片板块职位描述 NCCL芯片互联软件高级/资深/专家工程师：工作职责:1.负责CUDA NCCL互联库的设计开发2.互联库的性能分析与定位职位要求职位要求:1.有NCCL开发经验，C/C++编程功底扎实2.熟悉GPGPU架构，熟悉芯片互联架构，比如NVLINK/RDMA/pcie3.工作积极主动，良好的分析和解决问题能力投递...

Premium Full-time

XPENG 21天前发布

深度学习平台研发工程师

XPENG ( Guangzhou )

深度学习平台研发工程师广州全职通用智能板块职位描述建设高效的深度学习基础服务，保障大规模训练稳定，为各类模型研发提供技术支撑，优化计算效率，支持算法团队业务需求落地【主要职责】：1. 负责深度学习平台的系统架构设计和研发工作，提供端到端的模型交付能力2. 集成云原生能力，负责模型研发、训练、推理等相关功能，提升平台资源利用率和计算效率3. 负责大模型训练/推理的监控、排障和容错4. 持续运营，改进平台性能、易用性和稳定性，优化用户体验【基本资格】：5. 计算机科学，工程或相关领域的学士学位6. 熟悉Linux开发环境，掌握Golang/Python等语言，具备良好的代码规范意识和文档编写能力7. 熟悉云原生相关技术，如kubernetes、kubeflow、volcano等，具备二次开发经验8. 熟悉微服务、数据库、分布式系统、缓存技术、消息队列等相关技术9. 强大的解决问题能力，热爱技术，有较强的自我驱动学习能力，持续关注前沿技术发展【期望资格】：10. 相关领域的硕士学位11. 深入理解深度学习理论，熟悉主流训练推理框架Pytorch/Deepspeed/Megatron/Triton/Vllm，故障定位和性能调优方向有相关项目经验12. 参与过AI Infra相关项目，熟悉FlashAttantion、DLRover、Pytorch Elastic等社区项目13. 具备大规模GPU集群的研发和实践经验，了解通用GPU架构、GPU虚拟化、RDMA高速网络和分布式存储技术职位要求 - 投递...

Premium Full-time

XPENG 21天前发布

Get Hired 2x Faster
Connect with Top Employers Directly

大模型平台 & Infra 工程师

XPENG ( Shanghai )

大模型平台 & Infra 工程师深圳、北京、上海全职智能机器人板块职位描述负责大模型训练、推理和评测的基础设施研发，为算法团队提供高效稳定的工程底座。1、训练系统：设计和优化大规模分布式训练架构（Pretrain/SFT/RL），解决千卡级训练的通信、调度、容错问题；2、推理部署：基于 vLLM 等框架优化大模型推理性能，支撑 VLT/Omni 等模型在 XP5 端侧和云端的部署；3、评测平台：开发 DeepInsight 评测系统，支持 LLM/VLM/WBC/VLA 多类模型的自动化评测、报告生成和 CI/CD 集成；4、MLOps 工具链：构建模型版本管理、实验追踪、数据管理、资源调度等基础设施，提升研发效率；5、RL 训练环境：构建分布式强化学习训练系统，支持 Agent-环境大规模并行交互。职位要求 1、本科及以上学历，计算机、软件工程等相关专业；2、精通 Python，熟练掌握 C++/Go 至少一门；3、在以下至少一个方向有 2 年以上经验：- 分布式训练系统（Megatron-LM/DeepSpeed/FSDP）；- GPU 编程与高性能计算（CUDA/NCCL/RDMA）；- ML 平台开发（Kubernetes/Ray/Airflow）；-

Premium Full-time PyTorch Ml

XPENG 21天前发布

具身高性能通信工程师

XPENG ( Shanghai )

具身高性能通信工程师深圳、北京、上海全职智能机器人板块职位描述负责人形机器人内部和外部通信系统的架构设计与性能优化，保障多芯片、多设备间的高速可靠数据传输。1、设计和实现机器人内部多芯片（XP5-A/B/C、HRU）之间的高性能以太网通信架构，保障控制指令和传感器数据的低延迟传输；2、深度优化机器人在 5G、WiFi 等无线网络环境下的通信性能，解决网络适配、带宽瓶颈、信号稳定性等问题；3、设计和开发 DDS Bridge 系统，支持 WebSocket/UDP/WebRTC 等多协议到 DDS 总线的高效桥接；4、主导无线图传系统的架构设计与延迟优化（端到端采集→编码→传输→解码→渲染），支撑遥操作和远程监控场景；5、制定通信协议规范和测试标准，建立通信链路的自动化测试和监控体系。职位要求 1、本科及以上学历，计算机、通信工程、电子工程等相关专业；2、精通 TCP/IP 协议栈，具备 3 年以上网络通信系统开发经验；3、熟悉 DDS（FastDDS/CycloneDDS/自研 xDDS）或类似发布-订阅中间件；4. 有以下至少一项深入经验：- 实时音视频传输（WebRTC/RTP/H.264/H.265 编解码）；- 高性能网络编程（epoll/io_uring/DPDK/RDMA）；- 无线网络优化（5G/WiFi 6/蓝牙）；5. 精通 C/C++，熟悉 Linux 网络子系统。加分项：- 有机器人或自动驾驶系统的通信架构设计经验；- 熟悉 EtherCAT 工业通信协议；-

Premium Remote Friendly Full-time Linux TCP/IP Bridge

XPENG 21天前发布

全栈云端计算平台工程师

XPENG ( 广州 )

全栈云端计算平台工程师广州全职通用智能板块职位描述职位描述1. 负责小鹏集团计算平台的架构设计与研发落地，构建云端模型开发，训练基础设施以及大规模数据生产基础设施；2. 设计并实现高性能数据编排与加载系统，支撑 PB 级多模态数据（文本、图像、视频、点云、传感器等）的高效处理、缓存加速，支持批式与流式数据生产；深度集成AI Coding Agent与 Data Pipeline，实现数据准备、清洗、标注、版本管理的自动化与智能化闭环；3. 负责云原生基础设施层的开发与优化，包括 GPU集群调度、弹性资源管理、容器化训练/推理工作负载编排，持续提升资源利用率与系统吞吐；4. 可以承担全栈职责，包括前端管理控制台到后端分布式服务的开发。职位要求1. 计算机 / 软件工程 / 数学 / 自动化等相关专业硕士及以上学历，或具备同等技术能力；3 年及以上后端/基础设施开发经验，其中 2 年及以上大规模 AI 平台或分布式系统研发经验；2. 精通Python，具备出色的工程化能力；熟练使用 Golang/Java/C++ 中至少一门语言进行系统性开发；3. 熟悉 AI Coding /

Premium Full-time CLI STAR AI Kubernetes

XPENG 21天前发布

HPC Engineer

AlphaGrep Securities ( Shanghai )

关于我们 / About Us AlphaGrep 是一家全球领先的量化交易公司，专注于股票、商品、外汇及固定收益等资产的算法交易。我们在国际市场拥有显著份额，依托自主开发的超低延迟系统与严格的风控体系，持续构建高效能策略。 AlphaGrep is a leading global quantitative trading firm specializing in algorithmic strategies across equities, commodities, FX, and fixed income. We hold significant market share internationally, powered by proprietary low-latency infrastructure

Premium Full-time Derivatives RDMA CUDA Linux Quantitative Research

AlphaGrep Securities 17天前发布

高性能网络研发实习生

MiniMax ( Shanghai )

高性能网络研发实习生上海、北京校招实习研发 - 通信工程 2027届实习生招聘职位描述我们致力于构建下一代超低时延、高吞吐的高性能网络体系，支撑大规模AI训练、推理及数据传输等核心业务场景。如果你对深入网络底层、优化系统性能、快速定位与解决分布式系统故障充满热情，欢迎加入我们，共同推动高速互联技术的演进。主要职责1. 重点参与大规模作业下的网络故障诊断与性能调优，快速定位分布式环境中的节点与通信问题；2. 参与设计并研发面向AI训练、推理及数据传输的高性能网络系统，提升多节点分布式任务的通信效率与稳定性；3. 负责用户态网络协议栈、零拷贝通信、网络IO加速等关键组件的实现与调优，深入底层进行性能挖掘；4. 跟踪并整合先进硬件能力（如智能网卡、RDMA等），对接驱动与固件层，实现网络通信的极致优化；5. 构建高性能网络与平台系统的深度融合机制，提升系统整体可观测性与运维效率；6. 探索并推动高速网络技术的创新，持续降低通信延迟、提升带宽利用率。职位要求职位要求1. 扎实的计算机网络基础，熟悉TCP/IP、网络编程及常见网络协议；2. 精通至少一门主流编程语言（C/C++/Python/Go等），具备良好的代码实现与调试能力；3. 了解网络与系统领域的前沿技术趋势，对高性能通信、硬件加速等方向有强烈兴趣；具备以下经验者优先：1. 数据中心网络、RDMA、用户态协议栈、高性能通信框架开发2. 分布式系统开发与调优3. 网络故障诊断、性能 profiling 或系统级调优我们也欢迎虽经验尚浅，但对该方向有浓厚兴趣、学习能力强、乐于钻研底层技术的同学加入。投递...

Premium Full-time Profiling

MiniMax 10天前发布

高性能网络研发工程师-2026届

MiniMax ( Shanghai )

高性能网络研发工程师-2026届上海、北京校招正式研发 - 基础架构 2026届校园招聘职位描述 1.负责公司在 AI 训练、推理、数据传输等核心场景下的高性能网络系统设计与研发2.设计并实现用户态网络协议栈、零拷贝通信、网络 IO 加速组件，提升多节点分布式系统通信效率；3.跟踪主流硬件的能力，对接底层驱动进行优化调优；4.推进高性能网络与平台系统之间的深度融合；5.支持网络协议分析、性能调优、故障排查等系统级问题解决，提升系统整体稳定性与可观测性；6.通过技术创新推动高速网络技术的持续演进，打造下一代的超低时延高速互联技术。职位要求 1.精通计算机网络和网络编程；2.精通至少一门主流编程语言，比如C/C++, Python, Go等；3.熟悉当前网络和系统领域的最新进展；4.有数据中心网络，RDMA，用户态协议栈，高性能通信框架等开发经验者优先；5.有分布式系统开发经验者优先。投递...

Premium Full-time IO AI

MiniMax 4天前发布

VLA训练infra算法工程师 - XiaomiRobotics

Xiaomi ( 北京 )

VLA训练infra算法工程师 - XiaomiRobotics 北京社招全职职位 ID：A243642 职位描述 1. 基于 PyTorch 生态（FSDP / DeepSpeed / Megatron 等）设计并实现 VLA 模型的分布式训练方案（DP / TP / PP / MoE），构建稳定高效的训练框架2. 推动混合精度（BF16 / FP8）与算子融合（FlashAttention / Triton kernel）3. 构建高吞吐数据pipeline，设计数据格式与 shard 策略，实现高效的数据加载4. 支持大规模实验追踪、管理、指标可视化

Premium Remote Friendly Full-time Python PyTorch RDMA Linux CUDA

Xiaomi 3天前发布

AGI 推理引擎工程师 — 下一代 KVCache 存储与缓存加速

MiniMax ( Shanghai )

AGI 推理引擎工程师 — 下一代 KVCache 存储与缓存加速上海、北京社招全职互联网 / 电子 / 网游职位描述一、为什么加入我们1. 离 GPU 最近的工程：你写的每一行代码都直接换算成显存、吞吐和成本——KVCache 是当下大模型推理性价比的核心战场，价值看得见、摸得着；2. AI First 文化：我们用 AI 重新定义开发范式，鼓励工程师把 AI 工具用到极致，也用 AI 加速自己的系统研发；3. 真实的大规模场景：千卡集群、千亿 token/天的在线推理，长上下文、高并发下的存储与调度挑战，是普通业务后端给不了的成长曲线；4. 扁平高效的团队：和推理引擎、算法、存储团队并肩作战，方案当天讨论、当天落地。二、我们在做什么MiniMax 正在构建驱动下一代 AGI 的推理基础设施。当上下文越来越长、模型越来越深，KVCache 已经成为推理时显存占用和成本的主导因素——谁能把

Premium Full-time C++ Rust AI Agis Python

MiniMax 9小时前发布

Jobs
Rdma

Upload Your ResumeLet employers contact you directly

Rdma 招聘 在 中国 - 14 Job Positions Available

Subscribe for job alerts and resources to make your job search easier!

Rdma 招聘在中国 - 14 Job Positions Available