高级存储工程师惠州全职职位描述1. 全栈存储运维管理对象存储、块存储、分布式存储、云存储(AWS S3/阿里云OSS)及高性能存储(Lustre/GPFS),涵盖部署、监控、调优与故障处理针对传统业务与HPC场景(CAE仿真/AI训练)优化存储架构,提升IO效率与资源利用率2. 性能与可靠性保障建立跨平台监控体系,分析IOPS/延迟/吞吐量等指标,实施QoS策略与负载均衡设计PB级数据容灾方案,包括备份恢复、多活架构及超算存储容灾标准3. 技术演进规划推动混合云/多云存储落地,探索超算与云存储融合架构(如热数据分级迁移)研究存储新技术(软件定义存储/STaaS/NVMe-oF)并推动试点职位要求1. 5年以上存储运维经验,含2年超算/HPC存储管理(Lustre/GPFS/BeeGFS)2. 精通以下至少两个领域:云存储集成(Terraform/AWS EBS)、HPC优化(MPI-IO调优/RDMA网络/元数据扩展)、容灾方案(Veeam/异地多活)3. 熟练使用Python/Shell实现运维自动化优先条件:1. 有PB级存储集群管理经验,熟悉超算硬件(DDN/HPE Apollo)2. 持云平台存储认证(AWS/Azure)或HPC认证(Intel HPC Academy)3. 熟悉容器存储(Kubernetes CSI)及AI训练数据管道投递...
混合云架构师惠州全职职位描述(一)混合云平台管理(40%)1. 负责腾讯云、阿里云、华为云等公有云平台的统一管理与资源调度,维护本地私有云与公有云混合架构,保障数据一致性。2. 实施跨云平台资源监控、性能优化及故障排查,根据业务负载动态调度资源,实现公有云与私有云弹性伸缩。3. 优化跨云网络架构,保障数据传输安全与低延迟;建立多云成本管理体系,推行精细化成本优化策略。4. 制定并落地混合云环境统一安全策略,确保符合等保2.0、GDPR等合规要求,管理跨云访问控制、数据加密及审计日志。(二)智算云平台运维管理(50%)1. 负责GPU、NPU等异构算力资源调度与管理,维护智算中心服务器、存储、网络等基础设施,应用并优化液冷、风冷等绿色节能技术。2. 支撑DeepSeek、千问等国产大模型本地化部署与运维,优化大模型训练集群性能,提升GPU利用率;管理模型推理服务,保障高并发场景稳定性。3. 开发自动化运维工具,搭建AI驱动的故障预测与根因分析系统,实施AIOps解决方案,提升运维效率与系统可靠性。4. 实现CPU、GPU、存储、网络等资源统一调度,优化算力分配策略与需求预测模型,提升整体资源利用率与供给精准度。(三)平台建设与创新(10%)1. 参与混合云与智算云平台技术架构设计,推动DPU、RoCE网络、液冷技术等新技术落地应用。2. 制定平台标准化、自动化建设方案,建立完善的运维流程与SOP,推动运维模式从被动响应向主动预防转变。3. 积累并分享运维知识库与最佳实践,完善平台运维体系。职位要求1. 本科及以上学历,计算机、通信、电子工程等相关专业。2. 5年以上云计算或数据中心运维经验,其中3年以上智算/云平台管理经验。(一)技术能力1. 精通腾讯云、阿里云、华为云等主流云平台的管理与运维。2. 熟练掌握Kubernetes、Docker等容器化技术,具备大规模集群管理经验。3. 精通Python/Shell脚本,熟悉Ansible、Terraform等自动化工具。4. 深入理解SDN、VPC、负载均衡等网络技术,熟悉RoCE、InfiniBand等高性能网络。5. 熟悉分布式存储、对象存储、块存储等存储技术。(二)智算平台专项技能1. 熟悉GPU服务器架构、NVIDIA、华为昇腾等AI芯片特性与优化方法。2. 具备大规模AI训练集群运维经验,熟悉模型训练与推理优化技术。3. 了解液冷、PUE优化等绿色节能技术。4. 具备系统性能分析、瓶颈定位与调优能力。投递...