Refine Reset All
Sort by
Location
Job Type
Employer/Recruiter
Date Posted
Location
Job Type
Employer/Recruiter
All Filters

Ceph Jobs In China - 5 Job Positions Available

Top Cities:
1 – 5 of 5 jobs
MiniMax jobs

基础设施研发架构师上海社招全职研发 - 基础架构职位描述职位描述1. 负责设计并构建服务于AI业务的基础设施即服务(IaaS)架构,主导从物理资源(计算、存储、网络)到标准化、服务化、可编排的逻辑资源的抽象、封装与管理体系。2. 规划与设计IaaS核心控制平面与数据平面的整体架构,确保资源调度、供给、运维、治理的自动化与高效率,并与上层AI平台(训练/推理/大模型)无缝对接。3. 主导计算服务架构:设计涵盖GPU/CPU等异构算力的资源池化、弹性供给、性能隔离与生命周期管理方案。4. 主导存储服务架构:设计满足AI数据密集型工作负载的存储服务体系,包括高性能并行文件系统、对象存储、缓存加速等服务的统一抽象与供给。5. 主导网络服务架构:设计并优化数据中心网络与服务网络,构建高性能、高可用的网络互联、负载均衡、多租户隔离及安全策略管理能力。6. 负责IaaS层与平台层(CMDB、流程引擎、资源管理平台) 的深度融合架构设计,打通资源定义、审批、供给、监控、回收的全闭环自动化链路。7. 制定IaaS服务的技术标准、API规范、多租户模型与配额管理体系,驱动基础设施的云化与服务化转型,提升资源利用率和运营效率。8. 作为基础设施架构的核心决策者,与硬件、运维、安全及AI平台团队紧密协作,规划和落地面向未来大规模AI业务的技术架构演进路线。职位要求1. 本科及以上学历,计算机、软件工程等相关专业,5年以上基础设施领域研发与架构经验,其中至少2年专注于IaaS、云计算底层或大规模私有云架构设计。2. 精通至少两个核心IaaS领域(计算虚拟化/容器化、软件定义存储、软件定义网络)的架构原理与主流技术栈(如KVM/VMware,Kubernetes,Ceph,软件定义网络方案等)。3. 具备大规模(千节点以上)数据中心或云平台基础设施的端到端架构设计经验,深刻理解从物理资源到服务交付的全链路技术挑战。4. 熟练掌握Go/Java/Python等至少一门语言,具备通过代码清晰表达架构意图和进行关键技术验证的能力。5. 对分布式系统设计、高可用性、可扩展性及容错性有深厚的理论功底和丰富的实战经验。6. 具备优秀的战略思考、复杂问题分解及跨领域技术整合能力,能够高效与各层级技术及非技术人员沟通,推动重大架构决策落地。投递...

Premium Full-time
MiniMax  26 days ago
Pony.ai jobs

存储开发工程师 - 海外项目 广州 全职 职位描述 负责自动驾驶项目的存储功能开发以及持续交付 职位要求 1. 计算机相关专业本科或以上学历2. 了解常见的开源存储(ceph,hdfs等等)以及日志监控系统(ELK, Prometheus, Grafana等)3. 熟练掌握 C++、Java、Python 中至少一门编程语言,具备良好的编码与调试能力;4. 有责任心,沟通积极,有良好的文档习惯,能使用英语进行书面的沟通加分项:1. 熟悉至少一家公有云厂商及其存储/监控组件(阿里云、腾讯云、Azure、AWS 等);2. 具备存储相关运维或开发经验,有分布式存储或大数据存储项目经验者优先;3. 有容器化(Docker、Kubernetes)和云原生实践经验。 投递...

Premium Full-time
Pony.ai  8 days ago
Pony.ai jobs

Infra 开发工程师(云资源与存储工具链方向)-广州 广州 全职 职位描述 岗位职责:1. 负责自动驾驶项目基础设施能力的开发和落地,重点支持云资源使用和存储工具链建设。2. 参与公有云资源的接入、管理和优化,包括存储、网络、权限、监控等组件。3. 开发存储相关工具和平台能力,支持数据上传下载、迁移、清理、权限管理、容量统计和问题排查。4. 参与对象存储、文件存储、分布式存储等系统的接入、优化和稳定性建设。5. 维护相关技术文档、使用规范和自动化流程,支持项目持续交付。 职位要求 任职要求:1. 计算机相关专业本科或以上学历。2. 熟悉至少一家公有云厂商及其存储、网络、监控组件,如阿里云、腾讯云、Azure等。3. 了解常见存储系统和使用场景,如对象存储、NAS、HDFS、Ceph、S3 等。4. 熟练掌握 C++、Java、Python 中至少一门编程语言,具备良好的编码与调试能力。5. 熟悉 Linux 环境,具备基本的问题排查和自动化脚本开发能力。6. 有责任心,沟通积极,有良好的文档习惯;有使用 AI 辅助开发的经验。加分项:1. 具备存储相关运维或开发经验,有分布式存储或大数据存储项目经验者优先。2. 有容器化(Docker、Kubernetes)和云原生实践经验。3. 有云资源治理、成本优化、监控告警或内部工具链开发经验。 投递...

Premium Full-time Linux AI
Pony.ai  7 days ago
Xiaomi jobs

AI 存储-高级研发工程师 武汉 社招 全职 职位 ID:A211036 职位描述 1. 负责内部文件/对象/块存储系统的研发迭代,打造业内一流的存储基建2. 支持大数据/云原生/AI 等业务场景,解决大规模、高吞吐、高性能存储需求挑战3. 探索存储新技术方向,推进存储技术在内部落地,助力业务提效降本 职位要求 1. 具有扎实的计算机专业基础,熟练掌握 Go/C++/Java 至少1门语言2. 具有优秀的自我驱动和学习能力,责任心强,追求卓越,对解决有挑战的问题充满热情3. 具有三年以上分布式存储研发经验,有较深的系统认知理解,有内核级别优化经验4. 熟悉 HDFS/JuiceFS/CubeFS/Ceph/Lustre/块/对象等相关存储系统优先,开源社区活跃贡献者优先 投递...

Premium Full-time AI
Xiaomi  6 days ago
上海创智学院 Shanghai Innovation Institute jobs

AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1.

上海创智学院 Shanghai Innovation Institute  4 days ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

ceph

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Location
Job Type
Employer/Recruiter