Refine Reset All
Sort by
Location
Job Type
Employer/Recruiter
Date Posted
Location
Job Type
Employer/Recruiter
All Filters

Lustre Jobs In China - 5 Job Positions Available

Top Cities:
1 – 5 of 5 jobs
上海创智学院 Shanghai Innovation Institute jobs

AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1.

上海创智学院 Shanghai Innovation Institute  26 days ago
AlphaGrep Securities jobs

关于我们 / About Us AlphaGrep 是一家全球领先的量化交易公司,专注于股票、商品、外汇及固定收益等资产的算法交易。我们在国际市场拥有显著份额,依托自主开发的超低延迟系统与严格的风控体系,持续构建高效能策略。 AlphaGrep is a leading global quantitative trading firm specializing in algorithmic strategies across equities, commodities, FX, and fixed income. We hold significant market share internationally, powered by proprietary low-latency infrastructure

AlphaGrep Securities  19 days ago
帆书 jobs

高级基础设施运维工程师(大模型/AIGC) 上海、北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 1、从0到1算力平台建设:负责大模型训练集群的物理规划与资逻辑部署,包括GPU服务器选型、高速无损网络(RoCEV2/IB)架构设计及计算存储资源分配2、大模型训练保障:深度参与百卡级大模型训练任务的运维,优化NCCL通信性能,解决训练过程中的掉卡、慢卡、断点续训及存储IO瓶颈问题3、模型账号网关开发:从零搭建企业级三方模型(OpenAl、Claude、文心一言等)账号聚合网关,实现Token计费统计、多租户限流、Key池自动轮询与容灾切换4、调度与平台化:维护基于Kubernetes(KubeRay/Volcano)或Slurm的高效调度系统,提升GPU资源利用率5、监控与安全:建立精细化的GPU硬件监控体系(如DCGNM),负责API调用的安全审计与内容过滤机制 职位要求 1、硬核背景:3年以上基础设施运维经验,至少完整参与过一个大模型(LLM)从环境搭建到持续训练的生命周期2、网关能力:精通Golang、Python或Java至少一种后端语言,具备模型API网关或反向代理系统的开发经验,熟悉高并发下的流量治理3、算力专家:深入理解NVIDIAGPU架构,熟悉并行计算框架(DeepSpeed、Megatron-LM)在底层资源上的映射与调优4、网络与存储:熟练配置RoCEv2无损网络(PFC/ECN),了解Lustre、GPFS或JuiceFS等并行文件系统在Al场景下的最佳实践5、工程素养:具备极强的故障排查能力,对系统稳定性有执念,能通过自动化手段(MCP、Ansible、Terraform)解决规模化运维难题加分项:· 有国内外主流模型(如GPT,Claude,DeepSeek,Qwen)深度集成与成本优化经验· 在GitHub有知名Al基础设施、网关或模型运维相关开源项目页献· 熟悉国产算力平台(华为异腾、寒武纪等)的适配与混合训服 投递...

帆书  9 days ago
Xiaomi jobs

AI 存储-高级研发工程师 武汉 社招 全职 职位 ID:A211036 职位描述 1. 负责内部文件/对象/块存储系统的研发迭代,打造业内一流的存储基建2. 支持大数据/云原生/AI 等业务场景,解决大规模、高吞吐、高性能存储需求挑战3. 探索存储新技术方向,推进存储技术在内部落地,助力业务提效降本 职位要求 1. 具有扎实的计算机专业基础,熟练掌握 Go/C++/Java 至少1门语言2. 具有优秀的自我驱动和学习能力,责任心强,追求卓越,对解决有挑战的问题充满热情3. 具有三年以上分布式存储研发经验,有较深的系统认知理解,有内核级别优化经验4. 熟悉 HDFS/JuiceFS/CubeFS/Ceph/Lustre/块/对象等相关存储系统优先,开源社区活跃贡献者优先 投递...

Premium Full-time AI
Xiaomi  3 days ago
清程极智 Qingcheng.ai jobs

GPU 服务器集群管理 北京、深圳 全职 本科及以上 职位描述 1. 配置、管理高性能 GPU 服务器集群,确保其全天可用、性能可靠、可监控。2. 提升服务器集群的日常利用效率,减少闲置或拥挤。3. 通过标准化和自动化,协调管理不同型号、来自不同供应商的 GPU 服务器集群。4. 处理服务器故障等紧急情况。 职位要求 1. 计算机科学或相关专业。2. 具备管理 GPU 集群 / HPC 集群 / 超算集群的经验。3. 熟练掌握 Linux 系统管理技能,包括网络、进程、软件包、日志、监控、权限等方面。4. 掌握 GPU 系统管理技能,包括 GPU 驱动、GPU 监控、处理 GPU

Premium Full-time Linux
清程极智 Qingcheng.ai  1 day ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

lustre

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Location
Job Type
Employer/Recruiter