Gpfs 招聘在中国 - 3 Job Positions Available

主要城市:

gpfs 招聘在中国

1 – 3 的 3 招聘

AI基础架构工程师-大规模集群方向

上海创智学院 Shanghai Innovation Institute ( Shanghai )

AI基础架构工程师-大规模集群方向上海工程类本科及以上 5-7 年职位描述 1.大规模集群管理：负责千卡/万卡级 GPU 集群（如 NVIDIA A100/H100）的日常运维、稳定性保障及容量规划，确保高可用性和高资源利用率。2.容器化平台建设：基于 Kubernetes (K8s) 构建和优化 AI 训练平台，负责调度系统（Scheduler）的优化，解决资源隔离、优先级调度及断点续训（Checkpointing）等问题。3.故障排查与性能优化：深入排查分布式训练过程中的疑难杂症（如 NCCL Timeout、GPU 掉卡、网络拥塞等），针对训练任务进行软硬件层面的性能调优。4.底层环境维护：维护底层驱动（CUDA, cuDNN）、NCCL 通信库及异构硬件的监控体系（Prometheus/Grafana），实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接：支持主流深度学习框架（PyTorch, TensorFlow, Megatron-LM 等）在集群上的高效运行，优化 Dataloader 和分布式训练启动流程。职位要求 1.

Premium Full-time Golang AI RDMA PyTorch Kubernetes

上海创智学院 Shanghai Innovation Institute 28天前发布

高级基础设施运维工程师（大模型/AIGC）

帆书 ( Shanghai )

高级基础设施运维工程师（大模型/AIGC）上海、北京全职互联网 / 电子 / 网游 - 研发职位描述 1、从0到1算力平台建设：负责大模型训练集群的物理规划与资逻辑部署，包括GPU服务器选型、高速无损网络（RoCEV2/IB）架构设计及计算存储资源分配2、大模型训练保障：深度参与百卡级大模型训练任务的运维，优化NCCL通信性能，解决训练过程中的掉卡、慢卡、断点续训及存储IO瓶颈问题3、模型账号网关开发：从零搭建企业级三方模型（OpenAl、Claude、文心一言等）账号聚合网关，实现Token计费统计、多租户限流、Key池自动轮询与容灾切换4、调度与平台化：维护基于Kubernetes（KubeRay/Volcano）或Slurm的高效调度系统，提升GPU资源利用率5、监控与安全：建立精细化的GPU硬件监控体系（如DCGNM），负责API调用的安全审计与内容过滤机制职位要求 1、硬核背景：3年以上基础设施运维经验，至少完整参与过一个大模型（LLM）从环境搭建到持续训练的生命周期2、网关能力：精通Golang、Python或Java至少一种后端语言，具备模型API网关或反向代理系统的开发经验，熟悉高并发下的流量治理3、算力专家：深入理解NVIDIAGPU架构，熟悉并行计算框架（DeepSpeed、Megatron-LM）在底层资源上的映射与调优4、网络与存储：熟练配置RoCEv2无损网络（PFC/ECN），了解Lustre、GPFS或JuiceFS等并行文件系统在Al场景下的最佳实践5、工程素养：具备极强的故障排查能力，对系统稳定性有执念，能通过自动化手段（MCP、Ansible、Terraform）解决规模化运维难题加分项：· 有国内外主流模型（如GPT,Claude,DeepSeek,Qwen）深度集成与成本优化经验· 在GitHub有知名Al基础设施、网关或模型运维相关开源项目页献· 熟悉国产算力平台(华为异腾、寒武纪等)的适配与混合训服投递...

Premium Remote Friendly Full-time

帆书 11天前发布

上传简历 — 让雇主直接联系您

发动机系统控制高级/资深工程师

XPENG ( Shanghai )

发动机系统控制高级/资深工程师广州、上海全职动力三电板块职位描述 1、负责整车启动、怠速控制、燃油系统闭环，混合气、爆震、排放、GPF、排温模型标定工作；2、参与三高道路试验标定、并按要求提供试验报告；3、编制项目开发计划并按照项目开发节点提供软件及测试文档；4、跨部门合作，与NVH部门协同优化整车NVH性能，与能量管理部门协同优化整车油耗性能；5、参与解决开发过程中和售后出现的标定技术问题；6、编写标定报告、测试用例、问题分析报告及技术规范，确保数据可追溯；职位要求 1、本科以上学历，4年以上工作经验，熟悉整车和发动机结构及工作原理；2、熟悉发动机启动、燃油系统闭环、混合气、爆震及排放标定；3、了解整车开发流程和整车标定开发流程；4、具有发动机控制系统策略、软件或标定开发经验；5、具备良好的沟通协调能力，思路清晰，工作积极主动，抗压能力强，吃苦耐劳；6、具备AI意识，且熟练使用AI工具者优先。投递...

Premium Remote Friendly Full-time

XPENG 4天前发布