基础设施研发架构师上海社招全职研发 - 基础架构职位描述职位描述1. 负责设计并构建服务于AI业务的基础设施即服务(IaaS)架构,主导从物理资源(计算、存储、网络)到标准化、服务化、可编排的逻辑资源的抽象、封装与管理体系。2. 规划与设计IaaS核心控制平面与数据平面的整体架构,确保资源调度、供给、运维、治理的自动化与高效率,并与上层AI平台(训练/推理/大模型)无缝对接。3. 主导计算服务架构:设计涵盖GPU/CPU等异构算力的资源池化、弹性供给、性能隔离与生命周期管理方案。4. 主导存储服务架构:设计满足AI数据密集型工作负载的存储服务体系,包括高性能并行文件系统、对象存储、缓存加速等服务的统一抽象与供给。5. 主导网络服务架构:设计并优化数据中心网络与服务网络,构建高性能、高可用的网络互联、负载均衡、多租户隔离及安全策略管理能力。6. 负责IaaS层与平台层(CMDB、流程引擎、资源管理平台) 的深度融合架构设计,打通资源定义、审批、供给、监控、回收的全闭环自动化链路。7. 制定IaaS服务的技术标准、API规范、多租户模型与配额管理体系,驱动基础设施的云化与服务化转型,提升资源利用率和运营效率。8. 作为基础设施架构的核心决策者,与硬件、运维、安全及AI平台团队紧密协作,规划和落地面向未来大规模AI业务的技术架构演进路线。职位要求1. 本科及以上学历,计算机、软件工程等相关专业,5年以上基础设施领域研发与架构经验,其中至少2年专注于IaaS、云计算底层或大规模私有云架构设计。2. 精通至少两个核心IaaS领域(计算虚拟化/容器化、软件定义存储、软件定义网络)的架构原理与主流技术栈(如KVM/VMware,Kubernetes,Ceph,软件定义网络方案等)。3. 具备大规模(千节点以上)数据中心或云平台基础设施的端到端架构设计经验,深刻理解从物理资源到服务交付的全链路技术挑战。4. 熟练掌握Go/Java/Python等至少一门语言,具备通过代码清晰表达架构意图和进行关键技术验证的能力。5. 对分布式系统设计、高可用性、可扩展性及容错性有深厚的理论功底和丰富的实战经验。6. 具备优秀的战略思考、复杂问题分解及跨领域技术整合能力,能够高效与各层级技术及非技术人员沟通,推动重大架构决策落地。投递...
存储开发工程师 - 海外项目 广州 全职 职位描述 负责自动驾驶项目的存储功能开发以及持续交付 职位要求 1. 计算机相关专业本科或以上学历2. 了解常见的开源存储(ceph,hdfs等等)以及日志监控系统(ELK, Prometheus, Grafana等)3. 熟练掌握 C++、Java、Python 中至少一门编程语言,具备良好的编码与调试能力;4. 有责任心,沟通积极,有良好的文档习惯,能使用英语进行书面的沟通加分项:1. 熟悉至少一家公有云厂商及其存储/监控组件(阿里云、腾讯云、Azure、AWS 等);2. 具备存储相关运维或开发经验,有分布式存储或大数据存储项目经验者优先;3. 有容器化(Docker、Kubernetes)和云原生实践经验。 投递...
Infra 开发工程师(云资源与存储工具链方向)-广州 广州 全职 职位描述 岗位职责:1. 负责自动驾驶项目基础设施能力的开发和落地,重点支持云资源使用和存储工具链建设。2. 参与公有云资源的接入、管理和优化,包括存储、网络、权限、监控等组件。3. 开发存储相关工具和平台能力,支持数据上传下载、迁移、清理、权限管理、容量统计和问题排查。4. 参与对象存储、文件存储、分布式存储等系统的接入、优化和稳定性建设。5. 维护相关技术文档、使用规范和自动化流程,支持项目持续交付。 职位要求 任职要求:1. 计算机相关专业本科或以上学历。2. 熟悉至少一家公有云厂商及其存储、网络、监控组件,如阿里云、腾讯云、Azure等。3. 了解常见存储系统和使用场景,如对象存储、NAS、HDFS、Ceph、S3 等。4. 熟练掌握 C++、Java、Python 中至少一门编程语言,具备良好的编码与调试能力。5. 熟悉 Linux 环境,具备基本的问题排查和自动化脚本开发能力。6. 有责任心,沟通积极,有良好的文档习惯;有使用 AI 辅助开发的经验。加分项:1. 具备存储相关运维或开发经验,有分布式存储或大数据存储项目经验者优先。2. 有容器化(Docker、Kubernetes)和云原生实践经验。3. 有云资源治理、成本优化、监控告警或内部工具链开发经验。 投递...
AI 存储-高级研发工程师 武汉 社招 全职 职位 ID:A211036 职位描述 1. 负责内部文件/对象/块存储系统的研发迭代,打造业内一流的存储基建2. 支持大数据/云原生/AI 等业务场景,解决大规模、高吞吐、高性能存储需求挑战3. 探索存储新技术方向,推进存储技术在内部落地,助力业务提效降本 职位要求 1. 具有扎实的计算机专业基础,熟练掌握 Go/C++/Java 至少1门语言2. 具有优秀的自我驱动和学习能力,责任心强,追求卓越,对解决有挑战的问题充满热情3. 具有三年以上分布式存储研发经验,有较深的系统认知理解,有内核级别优化经验4. 熟悉 HDFS/JuiceFS/CubeFS/Ceph/Lustre/块/对象等相关存储系统优先,开源社区活跃贡献者优先 投递...
AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1.