Refine Reset All
通过
位置
工作类型
雇主/招聘方
发布日期
位置
工作类型
雇主/招聘方
所有筛选

Rdma 招聘 在 中国 - 13 Job Positions Available

主要城市:
1 – 13 的 13 招聘
智元创新(上海)科技有限公司 招聘

具身算法引擎开发实习生 上海 实习 职位描述 1. 训练框架开发:参与VLA等大模型训练框架研发与优化,包括数据并行、模型并行、流水并行等分布式训练能力的建设,提升千卡规模的训练稳定性与资源利用率。2. 推理系统优化:参与VLA等大模型的推理引擎开发与性能优化,包括算子优化、KV Cache管理、Prefill/Decode优化、Batch调度、低延迟Serving等核心能力建设,提升推理吞吐与响应速度。3. 分布式系统优化:参与多机多卡训练与推理系统建设,优化NCCL通信、AllReduce效率及IB/RDMA网络性能,提升大规模集群运行效率。4. 稳定性保障:解决大规模训练中的故障恢复、Checkpoint 管理、梯度异常等问题,确保长时间训练任务的稳定运行。5. 平台工程建设:参与训练/推理平台工程化建设,包括模型部署、监控、自动化测试、性能Benchmark及稳定性保障。 职位要求 1. 本科及以上学历,计算机、人工智能、自动化、机器人等相关专业优先2. 熟悉Python或C++开发,具备良好的代码能力与工程习惯3. 精通 PyTorch 分布式训练机制(DDP/FSDP),熟悉 DeepSpeed、Megatron-LM 、vLLM、SGLang等大规模训练/推理框架的原理与使用4. 深入理解 3D 并行(Data Parallel / Tensor Parallel / Pipeline Parallel)的实现原理与适用场景,能够根据模型特点设计最优并行策略5. 熟练使用 PyTorch Profiler、NVIDIA Nsight 等工具进行性能分析,能够定位并解决计算、通信、I/O 瓶颈加分项:1.

智元创新(上海)科技有限公司  28天前发布
Z.ai 招聘

机器学习平台研发工程师 北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 -负责机器学习平台与算力基础设施的研发与演进,为模型训练、推理、评测及数据处理等流程提供稳定、高效、可扩展的平台能力,主要包括:- 参与并主导大规模算力平台的设计与研发,覆盖资源调度、任务编排、容器与运行时管理等关键方向,持续提升集群整体资源利用率,保障训练与推理场景的稳定运行;- 基于 Kubernetes、Docker 等云原生技术,参与调度器扩展及 CRD/Controller 等核心能力建设,支撑大规模分布式训练与推理场景。- 持续推进平台的易用性与性能优化,完善工具链与开发体验,降低算法与模型团队的使用门槛,提升整体研发效率。 职位要求 - 本科及以上学历,3 年及以上研发经验,有大规模容器集群或平台型系统建设经验,有千卡及以上规模集群管理或调度经验者优先;- 熟练掌握 Golang,具备扎实的数据结构与算法基础,能够独立定位和解决复杂系统问题;- 熟悉 Kubernetes 核心机制与组件(如调度、网络、存储、Controller/CRD 等),了解容器运行时及云原生相关技术体系;- 熟悉常见分布式数据处理或计算框架(如 Ray / Spark / Flink 等),理解其架构设计与运行模型;-

Z.ai  24天前发布
上海创智学院 Shanghai Innovation Institute 招聘

AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1. 基础架构与容器技术:精通

上海创智学院 Shanghai Innovation Institute  24天前发布
XPENG 招聘

互联架构师 急招 上海 全职 芯片板块 职位描述 Die2Die/Chip2Chip 互联架构师- 负责AI多核互连架构定义与方案设计- 负责AI多芯片/多卡分布式计算互连架构定义与设计- 主导过AI多核互连总线设计与性能交付- 主导过 InfiniBand/RoCE/RDMA/PCIe/CXL/NVLink 等架构设计与高速互连方案落地- 负责 AI 分布式集群互连架构设计:拓扑、带宽、时延、可靠性规划- 跟踪前沿互连技术,输出预研与落地 roadmap 职位要求 - 本科及以上,计算机/电子/通信相关,5 年+ 高速互连/网络/集群架构经验- 精通Mesh或Crossbar总线架构设计- 精通至少一类互连技术:InfiniBand、RoCE、PCIe、CXL、NVLink,有实战调优- 熟悉RDMA、路由交换、拥塞控制、故障排查- 具备端到端性能分析、压测、问题定位与跨团队推动能力加分项- 大模型分布式计算(NCCL/Megatron)通信优化经验 投递...

Premium Full-time AI
XPENG  21天前发布
XPENG 招聘

NCCL芯片互联软件高级/资深/专家工程师 上海 全职 芯片板块 职位描述 NCCL芯片互联软件高级/资深/专家工程师:工作职责:1.负责CUDA NCCL互联库的设计开发2.互联库的性能分析与定位 职位要求 职位要求:1.有NCCL开发经验,C/C++编程功底扎实2.熟悉GPGPU架构,熟悉芯片互联架构,比如NVLINK/RDMA/pcie3.工作积极主动,良好的分析和解决问题能力 投递...

Premium Full-time
XPENG  20天前发布
XPENG 招聘

深度学习平台研发工程师 广州 全职 通用智能板块 职位描述 建设高效的深度学习基础服务,保障大规模训练稳定,为各类模型研发提供技术支撑,优化计算效率,支持算法团队业务需求落地【主要职责】:1. 负责深度学习平台的系统架构设计和研发工作,提供端到端的模型交付能力2. 集成云原生能力,负责模型研发、训练、推理等相关功能,提升平台资源利用率和计算效率3. 负责大模型训练/推理的监控、排障和容错4. 持续运营,改进平台性能、易用性和稳定性,优化用户体验【基本资格】:5. 计算机科学,工程或相关领域的学士学位6. 熟悉Linux开发环境,掌握Golang/Python等语言,具备良好的代码规范意识和文档编写能力7. 熟悉云原生相关技术,如kubernetes、kubeflow、volcano等,具备二次开发经验8. 熟悉微服务、数据库、分布式系统、缓存技术、消息队列等相关技术9. 强大的解决问题能力,热爱技术,有较强的自我驱动学习能力,持续关注前沿技术发展【期望资格】:10. 相关领域的硕士学位11. 深入理解深度学习理论,熟悉主流训练推理框架Pytorch/Deepspeed/Megatron/Triton/Vllm,故障定位和性能调优方向有相关项目经验12. 参与过AI Infra相关项目,熟悉FlashAttantion、DLRover、Pytorch Elastic等社区项目13. 具备大规模GPU集群的研发和实践经验,了解通用GPU架构、GPU虚拟化、RDMA高速网络和分布式存储技术 职位要求 - 投递...

Premium Full-time
XPENG  20天前发布
XPENG 招聘

大模型平台 & Infra 工程师 深圳、北京、上海 全职 智能机器人板块 职位描述 负责大模型训练、推理和评测的基础设施研发,为算法团队提供高效稳定的工程底座。1、训练系统:设计和优化大规模分布式训练架构(Pretrain/SFT/RL),解决千卡级训练的通信、调度、容错问题;2、推理部署:基于 vLLM 等框架优化大模型推理性能,支撑 VLT/Omni 等模型在 XP5 端侧和云端的部署;3、评测平台:开发 DeepInsight 评测系统,支持 LLM/VLM/WBC/VLA 多类模型的自动化评测、报告生成和 CI/CD 集成;4、MLOps 工具链:构建模型版本管理、实验追踪、数据管理、资源调度等基础设施,提升研发效率;5、RL 训练环境:构建分布式强化学习训练系统,支持 Agent-环境大规模并行交互。 职位要求 1、本科及以上学历,计算机、软件工程等相关专业;2、 精通 Python,熟练掌握 C++/Go 至少一门;3、在以下至少一个方向有 2 年以上经验:- 分布式训练系统(Megatron-LM/DeepSpeed/FSDP);- GPU 编程与高性能计算(CUDA/NCCL/RDMA);- ML 平台开发(Kubernetes/Ray/Airflow);-

Premium Full-time PyTorch Ml
XPENG  20天前发布
XPENG 招聘

具身高性能通信工程师 深圳、北京、上海 全职 智能机器人板块 职位描述 负责人形机器人内部和外部通信系统的架构设计与性能优化,保障多芯片、多设备间的高速可靠数据传输。1、设计和实现机器人内部多芯片(XP5-A/B/C、HRU)之间的高性能以太网通信架构,保障控制指令和传感器数据的低延迟传输;2、深度优化机器人在 5G、WiFi 等无线网络环境下的通信性能,解决网络适配、带宽瓶颈、信号稳定性等问题;3、设计和开发 DDS Bridge 系统,支持 WebSocket/UDP/WebRTC 等多协议到 DDS 总线的高效桥接;4、主导无线图传系统的架构设计与延迟优化(端到端采集→编码→传输→解码→渲染),支撑遥操作和远程监控场景;5、制定通信协议规范和测试标准,建立通信链路的自动化测试和监控体系。 职位要求 1、本科及以上学历,计算机、通信工程、电子工程等相关专业;2、精通 TCP/IP 协议栈,具备 3 年以上网络通信系统开发经验;3、熟悉 DDS(FastDDS/CycloneDDS/自研 xDDS)或类似发布-订阅中间件;4. 有以下至少一项深入经验:- 实时音视频传输(WebRTC/RTP/H.264/H.265 编解码);- 高性能网络编程(epoll/io_uring/DPDK/RDMA);- 无线网络优化(5G/WiFi 6/蓝牙);5. 精通 C/C++,熟悉 Linux 网络子系统。加分项:- 有机器人或自动驾驶系统的通信架构设计经验;- 熟悉 EtherCAT 工业通信协议;-

XPENG  20天前发布
XPENG 招聘

全栈云端计算平台工程师 广州 全职 通用智能板块 职位描述 职位描述1. 负责小鹏集团计算平台的架构设计与研发落地,构建云端模型开发,训练基础设施以及大规模数据生产基础设施;2. 设计并实现高性能数据编排与加载系统,支撑 PB 级多模态数据(文本、图像、视频、点云、传感器等)的高效处理、缓存加速,支持批式与流式数据生产;深度集成AI Coding Agent与 Data Pipeline,实现数据准备、清洗、标注、版本管理的自动化与智能化闭环;3. 负责云原生基础设施层的开发与优化,包括 GPU集群调度、弹性资源管理、容器化训练/推理工作负载编排,持续提升资源利用率与系统吞吐;4. 可以承担全栈职责,包括前端管理控制台到后端分布式服务的开发。职位要求1. 计算机 / 软件工程 / 数学 / 自动化等相关专业硕士及以上学历,或具备同等技术能力;3 年及以上后端/基础设施开发经验,其中 2 年及以上大规模 AI 平台或分布式系统研发经验;2. 精通Python,具备出色的工程化能力;熟练使用 Golang/Java/C++ 中至少一门语言进行系统性开发;3. 熟悉 AI Coding /

XPENG  21天前发布
AlphaGrep Securities 招聘

关于我们 / About Us AlphaGrep 是一家全球领先的量化交易公司,专注于股票、商品、外汇及固定收益等资产的算法交易。我们在国际市场拥有显著份额,依托自主开发的超低延迟系统与严格的风控体系,持续构建高效能策略。 AlphaGrep is a leading global quantitative trading firm specializing in algorithmic strategies across equities, commodities, FX, and fixed income. We hold significant market share internationally, powered by proprietary low-latency infrastructure

AlphaGrep Securities  17天前发布
MiniMax 招聘

高性能网络研发实习生 上海、北京 校招 实习 研发 - 通信工程 2027届实习生招聘 职位描述 我们致力于构建下一代超低时延、高吞吐的高性能网络体系,支撑大规模AI训练、推理及数据传输等核心业务场景。如果你对深入网络底层、优化系统性能、快速定位与解决分布式系统故障充满热情,欢迎加入我们,共同推动高速互联技术的演进。主要职责1. 重点参与大规模作业下的网络故障诊断与性能调优,快速定位分布式环境中的节点与通信问题;2. 参与设计并研发面向AI训练、推理及数据传输的高性能网络系统,提升多节点分布式任务的通信效率与稳定性;3. 负责用户态网络协议栈、零拷贝通信、网络IO加速等关键组件的实现与调优,深入底层进行性能挖掘;4. 跟踪并整合先进硬件能力(如智能网卡、RDMA等),对接驱动与固件层,实现网络通信的极致优化;5. 构建高性能网络与平台系统的深度融合机制,提升系统整体可观测性与运维效率;6. 探索并推动高速网络技术的创新,持续降低通信延迟、提升带宽利用率。 职位要求 职位要求1. 扎实的计算机网络基础,熟悉TCP/IP、网络编程及常见网络协议;2. 精通至少一门主流编程语言(C/C++/Python/Go等),具备良好的代码实现与调试能力;3. 了解网络与系统领域的前沿技术趋势,对高性能通信、硬件加速等方向有强烈兴趣;具备以下经验者优先:1. 数据中心网络、RDMA、用户态协议栈、高性能通信框架开发2. 分布式系统开发与调优3. 网络故障诊断、性能 profiling 或系统级调优我们也欢迎虽经验尚浅,但对该方向有浓厚兴趣、学习能力强、乐于钻研底层技术的同学加入。 投递...

MiniMax  9天前发布
MiniMax 招聘

高性能网络研发工程师-2026届 上海、北京 校招 正式 研发 - 基础架构 2026届校园招聘 职位描述 1.负责公司在 AI 训练、推理、数据传输等核心场景下的高性能网络系统设计与研发2.设计并实现用户态网络协议栈、零拷贝通信、网络 IO 加速组件,提升多节点分布式系统通信效率;3.跟踪主流硬件的能力,对接底层驱动进行优化调优;4.推进高性能网络与平台系统之间的深度融合;5.支持网络协议分析、性能调优、故障排查等系统级问题解决,提升系统整体稳定性与可观测性;6.通过技术创新推动高速网络技术的持续演进,打造下一代的超低时延高速互联技术。 职位要求 1.精通计算机网络和网络编程;2.精通至少一门主流编程语言,比如C/C++, Python, Go等;3.熟悉当前网络和系统领域的最新进展;4.有数据中心网络,RDMA,用户态协议栈,高性能通信框架等开发经验者优先;5.有分布式系统开发经验者优先。 投递...

Premium Full-time IO AI
MiniMax  3天前发布
Xiaomi 招聘

VLA训练infra算法工程师 - XiaomiRobotics 北京 社招 全职 职位 ID:A243642 职位描述 1. 基于 PyTorch 生态(FSDP / DeepSpeed / Megatron 等)设计并实现 VLA 模型的分布式训练方案(DP / TP / PP / MoE),构建稳定高效的训练框架2. 推动混合精度(BF16 / FP8)与算子融合(FlashAttention / Triton kernel)3. 构建高吞吐数据pipeline,设计数据格式与 shard 策略,实现高效的数据加载4. 支持大规模实验追踪、管理、指标可视化

Xiaomi  3天前发布

Subscribe for job alerts and resources to make your job search easier!

确认邮件已发送至

请检查邮件并点击链接,开始接收招聘提醒。

接收这类最新招聘:

rdma

确认邮件已发送至

请检查邮件并点击链接,开始接收招聘提醒。

所有筛选 Apply
通过
位置
工作类型
雇主/招聘方