MaaS-SRE/DBA 北京 全职 互联网 / 电子 / 网游 职位描述 【岗位职责】1. 稳定性保障(核心):负责MySQL、Redis等核心存储组件的稳定性,建设全方位的监控告警体系(Prometheus/Grafana),实现故障的早发现、快止损,保障MaaS平台在高并发场景下的99.99%可用性。2. 架构治理与演进: 主导数据库架构升级,包括读写分离、冷热分离、分库分表及异地多活(双活)容灾体系的建设。3. 深度调优与质量管控: 建立标准化的SQL审核与发布流程,负责慢 SQL 治理、大表治理及数据库参数深度调优,解决数据库性能瓶颈。4. 自动化平台建设: 基于SRE理念,开发数据库自动化运维平台(Python/Go),实现备份恢复、高可用切换、自动扩缩容及账号权限管理的自动化。5. 应急响应与预案: 负责突发故障(如宕机、带宽拥塞)的应急响应,制定并定期演练标准化恢复预案(SOP),降低故障平均恢复时间(MTTR)。6. 容量规划与成本管理: 结合业务增长模型进行容量预测与压测,优化资源利用率,制定降本增效策略。【岗位要求】1. 学历与经验: 本科及以上学历,计算机相关专业;3 年以上大规模互联网数据库管理(DBA)或 SRE 经验,有高并发、大流量系统保障经验者极佳。2. 数据库精通: 精通 MySQL 原理(InnoDB 引擎、事务锁机制、索引优化、主从复制),精通 Redis(集群模式、缓存一致性、热 Key/大 Key 处理);熟悉其高可用架构(MHA/Orchestrator/Sentinel/Cluster)。3. SRE 与编程能力: 具备良好的编码能力,熟练掌握
AI院-GLM团队-SRE运维工程师 北京 全职 研发 - 运维 职位描述 岗位职责:1.负责TOC相关业务的稳定性建设,包括但不限于Web服务、APP后端、API网关2.负责Kubernetes集群的建设与稳定性保障,包括版本升级、故障排查、资源利用率优化3.设计高可用架构,解决APIServer性能瓶颈、etcd存储压力等大规模集群特有问题。4.主导容器化架构调优(如Pod调度策略、网络插件选型、存储方案设计),优化资源请求/限制配置以减少资源争用。5.建立容器安全防护体系,包括漏洞扫描、运行时安全监控(如Falco)、合规审计。5.深度参与自动化运维工具链建设,CI/CD流水线混沌工程测试、智能扩缩容(HPA/VPA)推动Al0ns落地,其于时字数据合析预洲售群负裁并实现自愈。7. 解决生产环境疑难问题(如 OOM、网络延迟、存储性能瓶颈),输出标准化SOP文档车8.协同研发团队优化微服务架构,推动ServiceMesh等新技术落地, 职位要求 1.教育背景-统招本科及以上学历,计算机、软件工程、云计算相关专业优先。2.工作经验-3年以上容器运维经验,主导或深度参与过千级 Pod规模的集群维护。-熟悉生产环境容器化全生命周期管理,包括部署、监控、扩缩容、故障恢复等场景。-有多云环境/混合云管理经验-头部互联网/云计算大厂优先3.技术能力精通Kubernetes架构及生态工具(如Etcd、Calico、Istio),具备集群性能调优经验(如APIServer负载均衡、节点调度优化);熟练使用Docker、Prometheus、Grafana、ELK、CI/CD等工具链,熟悉云原生安全体系(如镜像扫描、RBAC策略、网络策略);具备运维开发能力,能使用Python/Go开发自动化工具(如自定义Operator、监控告警脚本)。 投递...
高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SRE、DevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如 vLLM,
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
SRE实习生-2027届 南京 校招 实习 软件研发类 职位描述 1、负责小米各业务的SRE工作,比如AIoT、小米商城、互联网业务、小米手机核心应用、视频技术等2、工作涵盖容量管理、灾备管理、活动重保、日常Oncall、troubleshooting、业务巡检、故障预案、架构优化、技术运营等;3、与DEVS共同设计产品后端架构,实现分布式、全球集群化运维管理,制定并实施相关运维技术方案,确保服务高效、稳定的运行; 4、研发设计自动化运维工具,减少日常重复性工作,用DevOps工具化思维解决业务问题,提升运维效率; 5、通过技术手段进行成本控制及优化,通过工具化及流程提升服务管理效率。 职位要求 1、熟练至少一种编程语言:Go/Python/Bash/C/C++/Java;2、熟悉Linux/Unix系统;3、乐于分享、开源,具备服务精神,良好的沟通能力和团队合作精神;4、优秀的分析和解决问题能力,勇于解决难题,有”问题到我为止“的精神。 投递...
SRE 工程师 18-25KCNY/月 杭州 全职 支持 大专及以上 职位描述 1. 负责服务器、网络、存储等基础设施的部署、运维、监控、故障处理与优化,保障系统稳定运行;2. 负责容量规划、性能调优和架构优化,提升系统可用性并支撑业务增长;3. 开发自动化工具和运维平台,推动配置管理、服务部署、任务编排等工作标准化、自动化;4. 维护和优化监控告警体系,提升问题发现、定位和处理效率; 5. 负责公司防火墙及 WAF 的日常运维、策略配置与持续优化,保障基础网络与应用访问安全;6. 编写和维护技术文档、操作流程及故障复盘,推动运维体系持续改进。 职位要求 1. 熟练掌握 Python、Go、Shell、Node.js 中至少一种,具备自动化开发能力;2. 熟悉 Linux 操作系统及常见网络协议,具备较强的问题排查能力;3. 熟悉 Nginx、PostgreSQL、VictoriaMetrics 等常见组件的部署、运维或调优;4. 具备防火墙或 WAF 相关运维经验,能够根据业务需求进行基础安全策略配置与优化;5. 具备良好的文档编写习惯,能够输出清晰的技术方案、架构说明、SOP 和故障复盘文档,并能熟练阅读英文技术文档。加分项1. 有开源项目贡献经验;2. 有大型系统迁移、调优或高可用建设经验;3. 有虚拟化、云原生或安全平台相关经验。
前端工程师(基础架构团队) 北京 社招 全职 互联网 / 电子 / 网游 职位描述 1. 负责 AI 基础架构团队的前端开发,覆盖 GPU 集群管理、节点运维、资产管理、工单系统等多个业务平台;2. 实现大规模表格/表单、数据可视化仪表盘、网络拓扑图、在线代码编辑器等交互场景,持续优化平台性能与易用性;3. 与后端、SRE等团队深度协作,将基础设施运维流程产品化、平台化,持续提升运维效率与体验。4. 学习 & 探索AI coding 链路 职位要求 1. 1–3 年前端开发经验,精通 JavaScript / TypeScript,具备良好的代码规范与工程素养;2. 熟练掌握 React / Vue,理解其核心原理与生态(状态管理、路由、组件设计等);3. 理解前端工程化思想,熟悉 Webpack /
DBA工程师 Beijing Full-time Internet / Electronics / Games Responsibilities - 负责公司核心 MySQL 集群的部署、监控、备份、扩容、高可用架构设计与日常运维;- 快速定位并解决线上 MySQL 性能瓶颈、慢查询、锁冲突、主从延迟、复制异常等复杂问题;- 深度优化 SQL 与索引,参与数据库设计评审,推动开发写出“不炸库”的 SQL;- 运维 Redis 集群(主从、哨兵、Cluster),保障缓存高可用与数据一致性;- 熟悉 Kafka / RabbitMQ 等消息中间件,能排查消息积压、消费异常、集群故障等运维问题;- 编写自动化脚本(Shell/Python/Go),提升数据库部署、巡检、故障自愈效率;- 参与数据库容量规划、灾备演练、压测方案设计,保障业务 7x24 稳定运行;- 对线上突发数据库故障能快速响应、冷静处理、复盘改进,形成知识沉淀;- 保持对数据库新技术的好奇心,主动研究源码、内核机制、性能调优技巧,乐于分享。 我们希望你:- 不满足于“重启解决”
Calix is a cloud and appliance-based platform and managed services company. Broadband service providers leverage the Calix broadband platform, cloud, and managed services to simplify operations, engagement, and service, innovate for their consumer, business. and municipal
系统研发工程师(云原生方向) 上海、北京 社招 全职 互联网 / 电子 / 网游 职位描述 - 参与建设和维护 AI Infra 相关的平台系统,包括但不限于 CMDB(配置管理数据库)、流程引擎、工单系统、故障流转系统、业务资源平台、底层资产平台等;- 负责平台系统的架构设计、核心模块研发、性能优化与可扩展性改造,提升系统稳定性与工程效率;- 打通资源编排、调度平台与 CMDB/工单/流程系统的数据链路,构建覆盖资源生命周期的自动化管理能力;- 支撑 AI 训练/推理/大模型平台对底层资源的自动化获取、管控与治理能力,服务于模型全生命周期管理;- 设计和实现高可用、模块化、服务化的系统组件,保障在大规模机器和多业务环境下的可扩展性;- 与算法平台、调度系统、SRE 运维团队协同,对接跨团队需求,推动平台系统落地与演进;- 编写高质量文档、推动平台规范制定,提升系统可运维性、可观测性、可复用性。 职位要求 - 本科及以上学历,计算机、软件工程等相关专业,3 年以上平台系统研发经验;- 熟练掌握 Go / Java / Python 等主流语言中的一到两种,具备良好的系统设计与编码能力;-
About ClickHouse Recognized on the 2025 Forbes Cloud 100 list, ClickHouse is one of the most innovative and fast-growing private cloud companies. With more than 3,000 customers and ARR that has grown over 250 percent year
ABOUT THE POSITION We are looking for a Principal AI Engineer to drive the design and delivery of agentic AI systems that power R&D tooling for video game asset pipelines and production workflows. You will set
ABOUT THE POSITION We are looking for a Senior AI Engineer to help design and deliver agentic AI systems that power R&D tooling for video game asset pipelines and production workflows. You will help shape the
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
开放平台运维研发工程师 北京、上海 社招 全职 互联网 / 电子 / 网游 - 研发 职位描述 - 负责开放平台核心业务系统的稳定性保障,覆盖支付交易、计费结算、账号认证等关键链路。- 建设监控告警体系,推动核心链路指标打点和报警覆盖,提升问题发现和定位效率。- 推动 SLO/SLI 体系落地,量化各业务域的服务可用性,用数据驱动架构优化决策。- 负责容量规划、变更管理、故障应急和根因分析,建立规范的线上变更和故障分级处理流程。- 配合多个业务域的架构重构,提供灰度发布、双跑验证、回滚保障的基础设施支持。- 建设自动化运维工具,提升故障定位和恢复效率。- 参与 On-Call 轮值,快速响应和处理线上故障。 职位要求 - 2 年以上 SRE 或后端开发经验,有核心业务链路的稳定性保障经验。- 具备后端研发能力,能独立阅读业务代码,能主动在关键链路上补充指标打点和埋点。- 熟悉监控告警体系(Prometheus / Grafana),有建设和完善监控体系的经验。- 熟悉 Linux 系统,熟练掌握至少一门编程语言(Go
系统运维工程师(高效安全办公) 深圳 全职 研发 职位描述 1、AI 工具栈运维:负责内部 AI Coding 工具(Cursor / Claude Code CLI / MCP 等)的企业内部部署、版本治理与日常运维,保障研发工具可用性;2、内网底盘运维:参与内网平台(代理池、API 网关、SSO、反向代理)的运维与迭代,承担模块级开发、配置变更与上线;3、SaaS 安全接入:参与主流 SaaS(设计 / 协作 / 网盘 / 通讯)的内网安全合规接入,承担反向代理配置、SSO 集成、流量管控规则编写;4、安全工具运维:承接信息安全工具(EDR / HIDS / DLP / IDS / 终端沙箱 /
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to