Refine Reset All
Sort by
Skills
Location
Job Type
Employer/Recruiter
Experience
Date Posted
Skills
Location
Employer/Recruiter
Experience
All Filters

You refined by

Full-time

Devops Sre Jobs In China - 13 Job Positions Available

Top Cities:
1 – 13 of 13 jobs
Bambu Lab jobs

SRE工程师热招深圳全职研发热招职位职位描述1、负责业务基础环境建设与维护,保障系统稳定运行;2、推进DevSecOps,协同安全部门落实安全要求与政策,提升企业安全水平;3、维护容器平台稳定性,完善监控与应急机制,确保故障快速定位与恢复;4、建设与优化流量治理、可观测和应急响应体系;5、通过自动化工具链与平台的构建,持续优化并提升交付效率与质量。职位要求1. 本科及以上学历,计算机科学、软件工程或相关专业优先;2. 3年以上系统运维/SRE/DevOps经验;有大规模容器集群管理或云环境项目经验者优先,制造业/全球分布式系统背景加分;3. 容器与编排:精通Docker与Kubernetes(K8s),具备大规模集群管理、升级/迁移经验(如100+节点环境),熟悉Helm/Kustomize包管理;4、掌握安全集成方法,如容器安全基线(CIS Benchmarks)、CI/CD安全插件(SonarQube、Trivy)、配置管理安全(Secrets管理、RBAC);5、熟悉AWS(EKS/ECS)、阿里云(ACK)或GCP(GKE)等主流服务,包括云网络、存储与安全配置;有混合云部署经验优先;6、掌握至少一门脚本语言(如Python/Go/Shell),用于工具开发、API集成与自动化运维(如Ansible playbook、Python监控脚本);7、软性素质: - 高度责任心:对系统可靠性有强主人翁感,能主动识别风险并推动改进; - 沟通协作能力:跨团队(开发、安全、业务)高效协调,善于根因分析与问题复盘; - 应对挑战:高压环境下保持冷静,快速学习新技术,支持24/7 on-call(轮值响应)。投递...

Bambu Lab  29 days ago
得物App jobs

【技术保障】高级Devops架构师/TL 上海 全职 互联网 / 电子 / 网游 - 研发 技术类 职位描述 1、负责运维开发体系设计和主导建设,根据业务和运维的当前现状制定合适的演进路线;2、负责devops系统的整体架构设计、产品形态定义、核心代码逻辑编写等;3、和业务开发、运维保持良好的沟通,密切配合,开发合适的工具提升整体研发效率;4、关注业内devops体系发展,结合内部实际引入最佳实践。 职位要求 1、计算机相关专业本科毕业,5年以上的工作经验;2、熟悉Java、Python、Golang任一编程语言,并有丰富的实践和调优经验;3、熟悉运维体系,对于监控、SRE、故障应急响应等都有一定的了解,最好有相关产品的设计和开发经验;4、熟悉常用的中间件,比如Kafka、MQ、Nginx等等,熟悉K8s和Docker;5、有AIOPS相关经验的优先考虑。 投递...

Premium Full-time
得物App  19 days ago
VAST jobs

高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SREDevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如 vLLM,

VAST  10 days ago
Renesas Electronics jobs

Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient

Renesas Electronics  9 days ago
HSBC Group jobs

Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to

HSBC Group  5 days ago
米可世界 MICO WORLD jobs

AI Agent 研发工程师 北京 全职 互联网 / 电子 / 网游 职位描述 关于团队:米可世界是国内领先的社交娱乐公司,服务全球数千万用户。我们正在用 AI Agent 重塑内部研发模式——从研发环境管理、高可用治理到质量保障,全链路 AI 化是未来三年最重要的技术战略之一。加入我们,你将在真实的高并发社交业务场景中,主导 Agent 应用从 0 到 1 的落地,与团队一起定义AI 原生的研发范式。1、Agent 应用落地:围绕研发环境管理、高可用治理、质量保障等方向,主导 AI Agent 应用的设计、开发与部署,推动 AI 在社交业务核心场景的规模化落地。2、大模型应用全栈开发:参与从模型接入、Prompt / 上下文工程、RAG 优化、MCP 与工具开发,到数据与训练工程的端到端建设。3、Agent 体系建设:搭建并持续打磨 Agent

米可世界 MICO WORLD  23 days ago
SAP jobs

We help the world run better At SAP, we keep it simple: you bring your best to us, and well bring out the best in you. Were builders touching over 20 industries and 80% of global

SAP  18 days ago
极兔速递 (J&T Express) jobs

【集团】业财系统技术架构师 上海 全职 职位描述 1. 技术架构设计与规划:主导业财系统数据架构集成架构设计,制定技术标准与规范,构建支撑全球业务的业财一体化平台;主导技术选型(开发语言、框架、中间件、数据库),把控技术债务与演进节奏。2. 核心模块研发与攻关:负责业财系统核心模块(应收应付、会计引擎)的设计与核心代码实现,主导技术难点攻关,确保系统高性能、高可用、易扩展。3. 跨国系统集成:主导业财系统与SAP/NCC、快递业务系统、支付系统、银行系统、税务系统等上下游系统的集成设计与开发,解决跨系统事务一致性、数据同步等复杂问题。4. 运维体系建设:建立业财系统运维体系,设计并落地监控告警、日志分析、故障应急、容量规划等能力,保障系统7×24稳定运行;推动DevOps/SRE实践,提升团队交付效率与系统可靠性。5. 复杂项目群管理:作为技术负责人,协同研发、测试、业务方及外部供应商,推动大型跨模块项目按时高质量落地;对项目优先级、技术风险、资源冲突做出高效决策。 职位要求 技术要求1. 后端技术能力- 精通 Java(Spring Boot / Spring Cloud / MyBatis / JPA),具备高并发、高可用企业级系统开发经验- 精通 微服务架构(服务拆分、API网关、分布式事务 Seata/Saga、服务治理灰度发布)- 精通 消息队列(Kafka / RabbitMQ)在财务场景中的应用(如异步对账、事件驱动结算)2. 数据库与存储- 精通 MySQL / PostgreSQL 设计与调优,熟悉读写分离、分库分表、数据库中间件(ShardingSphere/MyCat)- 熟悉

极兔速递 (J&T Express)  19 days ago
Bambu Lab jobs

资深运维开发工程师 热招 上海 全职 研发 职位描述 我们正在寻找一位兼具 稳定性治理能力 与 运维开发能力 的资深工程师,加入云端 SRE 团队,负责支撑业务增长阶段下的多云、多集群云原生基础设施稳定运行与持续优化。你将面向业务增长带来的稳定性、性能、容量和成本挑战,参与 Kubernetes 集群治理、Elasticsearch 等关键基础组件优化、线上故障治理、容量规划和变更风险控制。同时,你也将推动自动化运维平台和工具链建设,将线上问题沉淀为平台能力、工程规范和长期机制,提升研发、数据、安全、合规等团队的协作效率。1. 稳定性治理:负责云端基础设施及关键基础组件的稳定性建设,定位并解决线上性能瓶颈、容量风险和可用性问题,保障业务系统稳定运行;2. 性能优化:针对 Elasticsearch 等核心组件开展性能调优、容量评估、资源治理和架构优化,提升系统吞吐、查询效率和服务可靠性;3. 云原生基础设施:负责 Kubernetes 集群及 CNCF 云原生生态组件的日常运维、架构优化和稳定性提升,支撑并保障多个 Kubernetes 集群的可靠运行;4. 多云平台治理:参与阿里云 ACK、AWS EKS、GCP GKE 等多云托管 Kubernetes 环境的运维、治理和优化,提升多云环境下的可观测性、弹性、成本效率和运维一致性;5. 故障与变更管理:负责线上告警处理、故障应急、根因分析、复盘改进和生产变更管理,建立可持续的稳定性改进机制;6. 自动化与平台建设:开发和维护自动化运维平台、工具链和流程系统,提升发布、变更、巡检、告警、权限、资源交付等环节的自动化水平;7. 跨团队协作:与后端研发、数据、安全、合规等团队紧密协作,推动基础设施问题定位、流程规范、权限治理、合规要求和稳定性改进落地。

Bambu Lab  18 days ago
HSBC Group jobs

Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to

HSBC Group  9 days ago
Calix jobs

Calix is a cloud and appliance-based platform and managed services company. Broadband service providers leverage the Calix broadband platform, cloud, and managed services to simplify operations, engagement, and service, innovate for their consumer, business. and municipal

Calix  5 days ago
MiniMax jobs

系统研发工程师(云原生方向) 上海、北京 社招 全职 互联网 / 电子 / 网游 职位描述 - 参与建设和维护 AI Infra 相关的平台系统,包括但不限于 CMDB(配置管理数据库)、流程引擎、工单系统、故障流转系统、业务资源平台、底层资产平台等;- 负责平台系统的架构设计、核心模块研发、性能优化与可扩展性改造,提升系统稳定性与工程效率;- 打通资源编排、调度平台与 CMDB/工单/流程系统的数据链路,构建覆盖资源生命周期的自动化管理能力;- 支撑 AI 训练/推理/大模型平台对底层资源的自动化获取、管控与治理能力,服务于模型全生命周期管理;- 设计和实现高可用、模块化、服务化的系统组件,保障在大规模机器和多业务环境下的可扩展性;- 与算法平台、调度系统、SRE 运维团队协同,对接跨团队需求,推动平台系统落地与演进;- 编写高质量文档、推动平台规范制定,提升系统可运维性、可观测性、可复用性。 职位要求 - 本科及以上学历,计算机、软件工程等相关专业,3 年以上平台系统研发经验;- 熟练掌握 Go / Java / Python 等主流语言中的一到两种,具备良好的系统设计与编码能力;-

MiniMax  3 days ago
Altium jobs

Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient

Altium  1 hour ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

devops sre

You also might be interested in:

AI

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Skills
Location
Job Type
Employer/Recruiter
Experience