Lustre Jobs In China - 5 Job Positions Available

Top Cities:

lustre jobs in China

1 – 5 of 5 jobs

AI基础架构工程师-大规模集群方向

上海创智学院 Shanghai Innovation Institute ( Shanghai )

AI基础架构工程师-大规模集群方向上海工程类本科及以上 5-7 年职位描述 1.大规模集群管理：负责千卡/万卡级 GPU 集群（如 NVIDIA A100/H100）的日常运维、稳定性保障及容量规划，确保高可用性和高资源利用率。2.容器化平台建设：基于 Kubernetes (K8s) 构建和优化 AI 训练平台，负责调度系统（Scheduler）的优化，解决资源隔离、优先级调度及断点续训（Checkpointing）等问题。3.故障排查与性能优化：深入排查分布式训练过程中的疑难杂症（如 NCCL Timeout、GPU 掉卡、网络拥塞等），针对训练任务进行软硬件层面的性能调优。4.底层环境维护：维护底层驱动（CUDA, cuDNN）、NCCL 通信库及异构硬件的监控体系（Prometheus/Grafana），实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接：支持主流深度学习框架（PyTorch, TensorFlow, Megatron-LM 等）在集群上的高效运行，优化 Dataloader 和分布式训练启动流程。职位要求 1.

Premium Full-time AI Python Golang Kubernetes InfiniBand

上海创智学院 Shanghai Innovation Institute 26 days ago

HPC Engineer

AlphaGrep Securities ( Shanghai )

关于我们 / About Us AlphaGrep 是一家全球领先的量化交易公司，专注于股票、商品、外汇及固定收益等资产的算法交易。我们在国际市场拥有显著份额，依托自主开发的超低延迟系统与严格的风控体系，持续构建高效能策略。 AlphaGrep is a leading global quantitative trading firm specializing in algorithmic strategies across equities, commodities, FX, and fixed income. We hold significant market share internationally, powered by proprietary low-latency infrastructure

Premium Full-time Market Share Linux System Administration CUDA Blocking Equities

AlphaGrep Securities 19 days ago

Upload Your Resume — Let employers contact you directly

高级基础设施运维工程师（大模型/AIGC）

帆书 ( Shanghai )

高级基础设施运维工程师（大模型/AIGC）上海、北京全职互联网 / 电子 / 网游 - 研发职位描述 1、从0到1算力平台建设：负责大模型训练集群的物理规划与资逻辑部署，包括GPU服务器选型、高速无损网络（RoCEV2/IB）架构设计及计算存储资源分配2、大模型训练保障：深度参与百卡级大模型训练任务的运维，优化NCCL通信性能，解决训练过程中的掉卡、慢卡、断点续训及存储IO瓶颈问题3、模型账号网关开发：从零搭建企业级三方模型（OpenAl、Claude、文心一言等）账号聚合网关，实现Token计费统计、多租户限流、Key池自动轮询与容灾切换4、调度与平台化：维护基于Kubernetes（KubeRay/Volcano）或Slurm的高效调度系统，提升GPU资源利用率5、监控与安全：建立精细化的GPU硬件监控体系（如DCGNM），负责API调用的安全审计与内容过滤机制职位要求 1、硬核背景：3年以上基础设施运维经验，至少完整参与过一个大模型（LLM）从环境搭建到持续训练的生命周期2、网关能力：精通Golang、Python或Java至少一种后端语言，具备模型API网关或反向代理系统的开发经验，熟悉高并发下的流量治理3、算力专家：深入理解NVIDIAGPU架构，熟悉并行计算框架（DeepSpeed、Megatron-LM）在底层资源上的映射与调优4、网络与存储：熟练配置RoCEv2无损网络（PFC/ECN），了解Lustre、GPFS或JuiceFS等并行文件系统在Al场景下的最佳实践5、工程素养：具备极强的故障排查能力，对系统稳定性有执念，能通过自动化手段（MCP、Ansible、Terraform）解决规模化运维难题加分项：· 有国内外主流模型（如GPT,Claude,DeepSeek,Qwen）深度集成与成本优化经验· 在GitHub有知名Al基础设施、网关或模型运维相关开源项目页献· 熟悉国产算力平台(华为异腾、寒武纪等)的适配与混合训服投递...

Premium Remote Friendly Full-time

帆书 9 days ago

AI 存储-高级研发工程师

Xiaomi ( Wuhan )

AI 存储-高级研发工程师武汉社招全职职位 ID：A211036 职位描述 1. 负责内部文件/对象/块存储系统的研发迭代，打造业内一流的存储基建2. 支持大数据/云原生/AI 等业务场景，解决大规模、高吞吐、高性能存储需求挑战3. 探索存储新技术方向，推进存储技术在内部落地，助力业务提效降本职位要求 1. 具有扎实的计算机专业基础，熟练掌握 Go/C++/Java 至少1门语言2. 具有优秀的自我驱动和学习能力，责任心强，追求卓越，对解决有挑战的问题充满热情3. 具有三年以上分布式存储研发经验，有较深的系统认知理解，有内核级别优化经验4. 熟悉 HDFS/JuiceFS/CubeFS/Ceph/Lustre/块/对象等相关存储系统优先，开源社区活跃贡献者优先投递...

Premium Full-time AI

Xiaomi 3 days ago

GPU 服务器集群管理

清程极智 Qingcheng.ai ( Beijing )

GPU 服务器集群管理北京、深圳全职本科及以上职位描述 1. 配置、管理高性能 GPU 服务器集群，确保其全天可用、性能可靠、可监控。2. 提升服务器集群的日常利用效率，减少闲置或拥挤。3. 通过标准化和自动化，协调管理不同型号、来自不同供应商的 GPU 服务器集群。4. 处理服务器故障等紧急情况。职位要求 1. 计算机科学或相关专业。2. 具备管理 GPU 集群 / HPC 集群 / 超算集群的经验。3. 熟练掌握 Linux 系统管理技能，包括网络、进程、软件包、日志、监控、权限等方面。4. 掌握 GPU 系统管理技能，包括 GPU 驱动、GPU 监控、处理 GPU

Premium Full-time Linux

清程极智 Qingcheng.ai 1 day ago