Date Posted

Skills

Location

Job Type

Employer/Recruiter

Experience

All Filters

Sre Devops Jobs In Shanghai - 9 Job Positions Available

Top Cities:

sre devops jobs nationwide

sre devops jobs in Shanghai

1 – 8 of 9 jobs

【技术保障】高级Devops架构师/TL

得物App ( Shanghai )

【技术保障】高级Devops架构师/TL 上海全职互联网 / 电子 / 网游 - 研发技术类职位描述 1、负责运维开发体系设计和主导建设，根据业务和运维的当前现状制定合适的演进路线；2、负责devops系统的整体架构设计、产品形态定义、核心代码逻辑编写等；3、和业务开发、运维保持良好的沟通，密切配合，开发合适的工具提升整体研发效率；4、关注业内devops体系发展，结合内部实际引入最佳实践。职位要求 1、计算机相关专业本科毕业，5年以上的工作经验；2、熟悉Java、Python、Golang任一编程语言，并有丰富的实践和调优经验；3、熟悉运维体系，对于监控、SRE、故障应急响应等都有一定的了解，最好有相关产品的设计和开发经验；4、熟悉常用的中间件，比如Kafka、MQ、Nginx等等，熟悉K8s和Docker；5、有AIOPS相关经验的优先考虑。投递...

Premium Full-time

得物App 28 days ago

高级 SRE 工程师（AI-INF-基础设施）

VAST ( Shanghai )

高级 SRE 工程师（AI-INF-基础设施） Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地：负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维；能够独立对接业务团队，完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障：负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优；负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维：保障大模型训练和推理任务的稳定运行，熟悉异构算力（如 NVIDIA GPU）服务器的驱动、网络（InfiniBand/RoCE）及监控排障，优化GPU资源调度与利用率。4、CI/CD 与自动化流水线：设计并优化持续集成与持续交付（CI/CD）流水线（如 GitHub Actions, GitLab CI, ArgoCD），推动基础设施即代码（IaC，如Terraform）的落地，提升研发交付效率。5、可观测性系统建设：负责构建和优化全链路监控与告警体系，深入应用 Prometheus、Grafana、Alertmanager等开源工具，制定核心业务的SLI/SLO/SLA，建立高效的故障应急响应流程。6、运维平台自研开发：深入研发团队痛点，能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统，用工程化手段消除组织内的“脏活累活”（Toil）。7、应急响应与 On-Call：参与生产环境的On-Call值班，对线上突发事件进行快速响应、定位、止血与复盘，沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验：计算机或相关专业本科及以上学历，5年以上SRE、DevOps或运维开发经验（有AI算力集群或大规模 K8s 运维经验者优先）。2、公有云专长：熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系，熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握：深入理解 Kubernetes 架构与底层原理，熟练掌握常用组件（Ingress, CoreDNS, Flannel/Calico等），具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验（硬性加分项）：熟悉大模型分布式训练（如 Megatron-LM, DeepSpeed）或模型推理（如 vLLM,

Premium Full-time Kubernetes AI GitHub Prometheus GitLab

VAST 19 days ago

Upload Your Resume — Let employers contact you directly

DevOps Engineer (Altium)

Renesas Electronics ( Shanghai )

Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient

Premium Full-time Project Management GitLab Eras Alibaba Cloud Continuous Delivery

Renesas Electronics 19 days ago

DevOps Engineer, Perpetuals

Pepperstone ( Shanghai ) +1 other locations

Introduction The Pepperstone story started in 2010. We know what it’s like to trade the world’s markets. Our team describes us as a place for the curious and the driven, and we like to do things

Premium Remote Friendly Full-time Hybrid Agility Computational Fluid Dynamics DDoS Futures Trading

Pepperstone 3 days ago

【集团】业财系统技术架构师

极兔速递 (J&T Express) ( Shanghai )

【集团】业财系统技术架构师上海全职职位描述 1. 技术架构设计与规划：主导业财系统数据架构集成架构设计，制定技术标准与规范，构建支撑全球业务的业财一体化平台；主导技术选型（开发语言、框架、中间件、数据库），把控技术债务与演进节奏。2. 核心模块研发与攻关：负责业财系统核心模块（应收应付、会计引擎）的设计与核心代码实现，主导技术难点攻关，确保系统高性能、高可用、易扩展。3. 跨国系统集成：主导业财系统与SAP/NCC、快递业务系统、支付系统、银行系统、税务系统等上下游系统的集成设计与开发，解决跨系统事务一致性、数据同步等复杂问题。4. 运维体系建设：建立业财系统运维体系，设计并落地监控告警、日志分析、故障应急、容量规划等能力，保障系统7×24稳定运行；推动DevOps/SRE实践，提升团队交付效率与系统可靠性。5. 复杂项目群管理：作为技术负责人，协同研发、测试、业务方及外部供应商，推动大型跨模块项目按时高质量落地；对项目优先级、技术风险、资源冲突做出高效决策。职位要求技术要求1. 后端技术能力- 精通 Java（Spring Boot / Spring Cloud / MyBatis / JPA），具备高并发、高可用企业级系统开发经验- 精通微服务架构（服务拆分、API网关、分布式事务 Seata/Saga、服务治理灰度发布）- 精通消息队列（Kafka / RabbitMQ）在财务场景中的应用（如异步对账、事件驱动结算）2. 数据库与存储- 精通 MySQL / PostgreSQL 设计与调优，熟悉读写分离、分库分表、数据库中间件（ShardingSphere/MyCat）- 熟悉

Premium Full-time MyBatis REST API RFCs Informatica Docker

极兔速递 (J&T Express) 28 days ago

资深运维开发工程师

Bambu Lab ( Shanghai )

资深运维开发工程师热招上海全职研发职位描述我们正在寻找一位兼具稳定性治理能力与运维开发能力的资深工程师，加入云端 SRE 团队，负责支撑业务增长阶段下的多云、多集群云原生基础设施稳定运行与持续优化。你将面向业务增长带来的稳定性、性能、容量和成本挑战，参与 Kubernetes 集群治理、Elasticsearch 等关键基础组件优化、线上故障治理、容量规划和变更风险控制。同时，你也将推动自动化运维平台和工具链建设，将线上问题沉淀为平台能力、工程规范和长期机制，提升研发、数据、安全、合规等团队的协作效率。1. 稳定性治理：负责云端基础设施及关键基础组件的稳定性建设，定位并解决线上性能瓶颈、容量风险和可用性问题，保障业务系统稳定运行；2. 性能优化：针对 Elasticsearch 等核心组件开展性能调优、容量评估、资源治理和架构优化，提升系统吞吐、查询效率和服务可靠性；3. 云原生基础设施：负责 Kubernetes 集群及 CNCF 云原生生态组件的日常运维、架构优化和稳定性提升，支撑并保障多个 Kubernetes 集群的可靠运行；4. 多云平台治理：参与阿里云 ACK、AWS EKS、GCP GKE 等多云托管 Kubernetes 环境的运维、治理和优化，提升多云环境下的可观测性、弹性、成本效率和运维一致性；5. 故障与变更管理：负责线上告警处理、故障应急、根因分析、复盘改进和生产变更管理，建立可持续的稳定性改进机制；6. 自动化与平台建设：开发和维护自动化运维平台、工具链和流程系统，提升发布、变更、巡检、告警、权限、资源交付等环节的自动化水平；7. 跨团队协作：与后端研发、数据、安全、合规等团队紧密协作，推动基础设施问题定位、流程规范、权限治理、合规要求和稳定性改进落地。

Premium Full-time ElasticSearch AI Kubernetes

Bambu Lab 27 days ago

Get Hired 2x Faster
Connect with Top Employers Directly

系统研发工程师（云原生方向）

MiniMax ( Shanghai )

系统研发工程师（云原生方向）上海、北京社招全职互联网 / 电子 / 网游职位描述 - 参与建设和维护 AI Infra 相关的平台系统，包括但不限于 CMDB（配置管理数据库）、流程引擎、工单系统、故障流转系统、业务资源平台、底层资产平台等；- 负责平台系统的架构设计、核心模块研发、性能优化与可扩展性改造，提升系统稳定性与工程效率；- 打通资源编排、调度平台与 CMDB/工单/流程系统的数据链路，构建覆盖资源生命周期的自动化管理能力；- 支撑 AI 训练/推理/大模型平台对底层资源的自动化获取、管控与治理能力，服务于模型全生命周期管理；- 设计和实现高可用、模块化、服务化的系统组件，保障在大规模机器和多业务环境下的可扩展性；- 与算法平台、调度系统、SRE 运维团队协同，对接跨团队需求，推动平台系统落地与演进；- 编写高质量文档、推动平台规范制定，提升系统可运维性、可观测性、可复用性。职位要求 - 本科及以上学历，计算机、软件工程等相关专业，3 年以上平台系统研发经验；- 熟练掌握 Go / Java / Python 等主流语言中的一到两种，具备良好的系统设计与编码能力；-

Premium Full-time Java AI Python

MiniMax 13 days ago

DevOps Engineer (Altium)

Altium ( Shanghai )

Full-time Fostering Packer MySQL Architecting Eras

Altium 1 day ago

Upload Your ResumeLet employers contact you directly

Sre Devops Jobs In Shanghai - 9 Job Positions Available

Subscribe for job alerts and resources to make your job search easier!