【集团】资深运维工程师(Linux / 监控方向) 上海 全职 职位描述 岗位定位负责公司 Linux 基础设施、服务器运维及监控体系建设,保障业务系统稳定、安全、高效运行;主导监控平台、告警机制、自动化运维及故障治理能力的持续优化。该岗位需要能够从“日常运维”提升到“稳定性治理”和“平台化建设”层面,既能处理复杂故障,也能推动规范、工具、流程与自动化能力落地。岗位职责负责 Linux 服务器、虚拟机及云主机的日常运维、配置管理、容量管理与性能优化。负责业务系统运行环境的部署、变更、巡检、升级及故障处理,保障系统高可用。负责监控平台建设与持续优化,包括主机、应用、中间件、数据库、网络及业务指标监控。负责告警体系设计,包括告警分级、告警收敛、告警降噪、通知策略及升级机制。主导 Prometheus、Zabbix、Grafana、ELK、OpenSearch、日志平台等监控与日志体系建设。负责服务器性能分析与问题定位,包括 CPU、内存、磁盘、网络、IO、负载等指标排查。负责线上复杂故障应急响应、问题复盘及根因分析,推动问题闭环和长期治理。负责建立并持续完善巡检、备份、变更、发布、应急、故障处理等运维标准。推动自动化运维能力建设,包括 Shell、Python、Ansible 等工具开发与批量运维。参与系统架构评审,从运维和稳定性角度提出优化建议,包括高可用、容灾、容量与监控设计。建立 SLA、SLO、告警 MTTA、故障 MTTR 等稳定性指标,并持续跟踪优化。与开发、网络、安全、供应商等团队协作,推动跨团队问题解决。 职位要求 基础能力本科及以上学历,计算机、网络、软件等相关专业。5 年及以上 Linux 运维经验,具备中大型生产环境运维经验。熟悉 CentOS、Red Hat、Ubuntu 等 Linux 系统,能够独立完成安装、配置、排障及优化。熟悉 TCP/IP、DNS、HTTP、HTTPS、Nginx、Keepalived、LVS 等基础网络与高可用技术。熟悉 VMware、KVM 或云平台运维经验,了解阿里云、腾讯云、AWS、Azure 中至少一种。Linux 能力要求精通 Linux