资深平台运维SRE工程师上海互联网 / 电子 / 网游技术岗位职位描述1. 系统架构与业务稳定性保障:负责参与Kubernetes云原生部署、优化及日常运维,参与架构评审;从可运维性、可靠性、可观测性、基建成本等角度提出专业建议,保障系统与业务的稳定运行。2.Oncall与流程建设:具备Oncall意识,参与线上Oncall流程;深入理解和执行运维规范、变更流程、故障处理流程;对日常Case具备Owner意识,主动提出优化建议并能够推进落地,提升团队协作效率。职位要求 - Linux平台3-8年运维或SRE工作经验,有强烈的责任心和Owner意识,能够独立思考和解决问题 - 云原生: 深入理解Kubernetes架构原理,有大规模Kubernetes集群(生产环境200+节点)的运维经验;熟悉Docker容器技术,理解网络、存储、安全等相关原理;有云原生项目架构规划及落地经验。具备AWS、阿里云、火山引擎等多云厂商的生产运维经验,对常见云产品(SaaS、PaaS、FaaS等)有较深入理解。 - 编程能力: 熟练使用Shell/Python/Golang中的至少两种语言,能够独立完成自动化工具、Operator或运维平台的开发. - Devops理念: 以自动化运维为导向,具备CI/CD流水线(GitLab CI/Jenkins/ArgoCD)实践能力,通过工具驱动运维效率持续提升 - 可观测建设: 有Prometheus、Grafana、Loki、ELK、Jaeger等开源监控、日志、链路追踪组件的在生产环境的使用经验. - 安全意识: 熟悉TCP/IP、HTTP/HTTPS协议,对负载均衡、DNS、安全组、WAF等有实际配置经验;对运维安全有一定理解,能够在运维层面落实安全基线。 - 综合能力: 对新技术有热情、具备良好的自主学习能力,关注云原生生态发展,能够独立思考和技术选型、逻辑思维严谨,技术理解力强,能够从原理层面分析问题做出合理判断、良好的文档编写能力和团队协作精神加分项: - 独立负责过中大型项目运维SRE经验优先 - 有一线互联网大厂的运维SRE经验优先 - 有AIOps、FinOps、ChatOps中一个或多个落地实践经验优先投递...
Devops工程师南京全职互联网 / 电子 / 网游职位描述岗位职责:1. 负责系统运维架构的设计及业务系统的发布、变更、维护等工作;2. 负责 DevOps 体系实践工作,建立和实施系统部署自动化和标准化、实现持续集成、持续交付;3. 参与系统监控和应急响应,保障服务的持续运行;4. 运维文档的建立、维护、更新;职位要求岗位要求:1. 大学本科及以上学历,计算机及相关专业;2. 3年以上的线上运维经验,具备完善的运维知识体系;3. 1年以上python或者golang开发经验;4. 熟悉 Linux操作系统,熟悉常见数据库(mysql/redis);5. 熟悉 Kubernetes 生态,例如 Docker,Kubernetes, Prometheus,etcd等,拥有Kubernetes证书者优先;6. 有 AWS 或者其他云平台使用经验,拥有云平台证书者优先;7. 具备Kafka,ClickHouse运维经验其中一项者优先.投递...
运维开发/SRE实习生北京、苏州实习互联网 / 电子 / 网游日常实习生职位描述岗位职责:1、负责各产品线服务的稳定、高效运行,跟踪用户体验,优化运维架构;2、及时响应各类故障报警,快速解决问题恢复业务;职位要求岗位要求:1、计算机相关专业,就读于211/985院校,可稳定工作6个月及以上,每周出勤不少于4天;2、熟练掌握 Linux 基本操作和相关命令,了解 Linux 操作系统基本原理;3、熟悉 Elk、Prometheus、Grafana 等监控日志工具使用;4、熟悉虚拟化和容器技术,如 Esxi、Docker、Kubernetes,了解其原理并能够熟练配置;5、熟悉 Python 开发及常用 web 框架的使用,如 Flask、SQLAlchemy 等,能够熟练进项项目编码;6、对 Kubernetes 有深入了解者优先投递...
后台开发工程师上海社招全职互联网 / 电子 / 网游职位描述1、负责研发效能平台后端系统的架构设计、开发和优化,支撑高并发、高可用的业务场景。2、使用Golang开发高性能微服务,优化API响应速度,保障系统稳定性和扩展性。3、负责数据库设计及优化,熟练使用 MySQL/PostgreSQL,并合理应用 Redis/Kafka 等中间件提升系统性能。4、与前端、测试、产品团队协作,完成需求分析、接口设计及联调,确保项目按时高质量交付。5、持续优化系统架构,提升代码质量,参与技术方案评审,推动DevOps及自动化测试落地。6、结合业务发展,能够独立进行项目规划与设计。职位要求技术能力1、5年以上后端开发经验,至少3年Go语言开发经验,熟悉 Gin/Echo/Fiber 等框架,熟悉领域驱动设计和应用2、熟悉 RESTful API 设计,了解 gRPC 或 GraphQL 加分。3、精通 MySQL/PostgreSQL,熟悉MongoDB,掌握索引优化、事务处理及分库分表策略。4、熟悉 Redis 缓存、消息队列(Kafka/RabbitMQ)及分布式锁应用。5、有微服务架构经验,熟悉使用 Docker/Kubernetes 及云服务(AWS/阿里云/腾讯云)。加分项1、拥有效能平台开发经验者优先(如流水线、监控、日志、测试管理等),如有智能驾驶或互联网相关行业更佳。2、熟悉 Prometheus/Grafana 监控,或 ELK 日志分析。3、了解 CI/CD 流程,有 Jenkins/argoCD等实践经验。4、熟悉使用大模型工具提升工作效率。软技能1、良好的编码习惯,追求高性能、可维护的代码。2、逻辑清晰,能独立解决问题,具备良好的团队协作精神投递...
【中国】资深系统运维(IDC运维)上海全职职位描述一、岗位概述IDC运维工程师负责保障数据中心基础设施及IT系统的稳定运行,涵盖硬件维护、系统监控、故障处理、网络管理、安全管理等核心职责。需具备跨领域技术能力,适应7×24小时轮班或应急响应机制,确保数据中心高可用性。二、核心职责1.基础设施运维①负责机房服务器、存储设备、网络设备(交换机、路由器、防火墙)的物理安装、配置及日常巡检。②监控电力、制冷、消防等环境系统,确保符合数据中心运行标准(如温度、湿度、供电稳定性)。③管理设备上下架、综合布线,协调施工方完成机房整改或扩容项目。2.数据库优化备份①执行数据备份策略,定期验证备份数据的完整性与可恢复性。②制定数据库优化管理方案,保障数据库稳定运行。(oracle、mysql等主流数据库)③参与制定灾备方案,组织应急演练,确保业务连续性。3.系统运维及云、虚拟化①安装、配置及优化主流操作系统(Linux/Windows)及虚拟化平台(VMware)。②管理公有云资源,云服务配置及维护。(阿里、腾讯、火山等主流云平台)。③使用Ansible等工具实现配置管理自动化、编写Shell/Python脚本优化日常任务。4.监控与故障处理①通过Zabbix、Nagios等工具实时监控服务器性能(CPU、内存、磁盘I/O)、网络流量及业务应用状态。②快速响应硬件故障(如磁盘损坏、电源故障)、软件崩溃或网络攻击,执行数据恢复或系统回滚操作。③编写故障分析报告,总结根因并推动预防措施落地。职位要求1.技术能力①精通Linux系统管理,熟悉文件系统、权限控制及服务配置。②精通数据库运维管理,如oracle,mysql等。③精通虚拟化技术,如vsan等。④了解分布式系统(Hadoop、HBase)或容器技术(Docker、Kubernetes)者优先。2.工具与脚本①熟练使用监控工具(Prometheus、Grafana)及自动化运维平台。②具备Shell/Python脚本编写能力,能独立完成任务调度或数据清洗。3.软技能①良好的跨部门协作能力,能清晰传达技术方案至开发、测试或业务团队。②具备高压环境下的问题解决能力,通过时间管理平衡紧急任务与长期优化。4.资质与经验①计算机、网络通信相关专业优先。②3年以上IDC运维经验,熟悉数据中心,有数据中心建设经验或备份容灾实施经验者优先。③有oracle认证优先。投递...
DevOps / SRE 实习生上海实习职位描述参与 CI/CD 流水线的搭建、优化与日常维护(Jenkins / GitHub Actions / ArgoCD)协助维护 Kubernetes 集群,处理 Pod 调度、资源配额、健康检查等日常问题 参与监控告警体系建设,配置 Prometheus / Grafana 告警规则和 Dashboard 协助故障排查与复盘,输出 Postmortem 文档 编写和维护基础设施自动化脚本(Shell / Python) 参与值班轮班,学习线上问题响应和处置流程 整理内部运维文档与 Runbook 职位要求在校本科或研究生,计算机、软件工程、网络工程等相关专业熟悉 Linux 基础命令,能独立完成文件管理、进程排查、网络诊断有至少一门编程语言基础:Python / Go / Shell理解
For over 25 years, NVIDIA has been at the forefront of transforming computer graphics, PC gaming, and accelerated computing, driven by a legacy of continuous innovation and exceptional talent. We are now leveraging the immense potential
The Trading Infrastructure team is building a high-performance, front-to-back Trading Platform that supports multi-asset trading. The platform is designed to handle financial instruments with low-latency execution, robust risk controls, and seamless integration across trading, risk, operations,
全栈工程师-汽车专项-实习南京校招实习整车与系统工程类职位描述1. 负责公司 AI 安全平台的后端系统开发,设计并实现支持多路摄像头并发接入的微服务架构,支撑 YOLO 等目标检测模型的高吞吐、低延迟推理服务;2. 设计可扩展的微服务模块(如任务调度、告警中心、设备管理),确保系统在高负载下的稳定性与可观测性;3. 与通信协议团队协作,构建基于 MQTT/WebSocket/CoAP 的高并发设备接入层,支持百级摄像头实时数据流接入与 Web 端可视化调试;4. 封装 CV 模型(如 YOLOv5/v8)为标准化推理接口,实现模型动态加载、资源隔离与异常熔断机制;职位要求- 计算机、通信、电子或相关专业硕士及以上学历;- 扎实的 Python 后端开发能力,有 Flask/FastAPI 实际项目经验。熟悉异步编程、连接池、缓存策略等高并发优化手段;- 熟悉微服务架构设计原则,具备服务拆分、API 网关、服务注册发现、限流熔断等实践经验;- 熟练使用 MySQL / PostgreSQL、Redis和对象存储。掌握消息队列(Kafka / RabbitMQ)在解耦与削峰中的应用;熟悉 Nginx 配置与调优,能基于 Nginx 实现反向代理、负载均衡、限流及静态资源服务,支持高并发 API 的稳定访问;-
Joining NVIDIAs DGX Cloud Team means contributing to the infrastructure that powers our innovative AI research. This team focuses on optimizing efficiency and resiliency of AI workloads, as well as developing scalable AI and Data infrastructure
About BJAK BJAK is building the next-generation insurance and financial services platform - designed to be intuitive, intelligent and personalised. Presently we are the largest insurance platform in Southeast Asia, and expanding globally with a strong
【27届实习】可观测性后端研发工程师(全栈) 上海 实习 技术类 2027届实习生项目 职位描述 2027届实习生项目:面向27届毕业生(毕业时间2026年9月-2027年8月),为符合岗位要求的同学提供转正机会; 1. 设计并实施系统和应用程序的监控、日志记录和追踪方案;2. 开发和维护可观测性平台工具和仪表盘,提供实时的系统健康和性能可视化;3. 分析和优化系统的性能和可靠性,通过监控数据和追踪信息识别瓶颈和故障点;4. 与开发团队协作,确保应用程序在开发过程中充分考虑可观测性需求;5. AI 工程化基础:熟悉大模型相关技术架构,包括但不限于 Prompt Engineering、RAG (检索增强生成)、LangChain 或 LlamaIndex 等开发框架6. 模型评估逻辑:了解如何评估 LLM 在特定运维任务中的表现(如准确率、幻觉控制、响应时延优化等) 职位要求 1. 2027届毕业生,本科及以上学历,计算机、软件工程相关专业;2. 具备良好的编程基础,熟悉一种或多种编程语言(如 Java、Go、Python、Rust 等);3. 了解分布式系统原理,并对微服务架构有一定的理解;4. 熟悉常见的监控和可观测性工具(如 Prometheus、Grafana、ELK Stack、Jaeger、OpenTelemetry 等);5. 具备良好的问题解决能力和沟通能力,能够与跨职能团队有效协作;6. 对新技术和新工具保持强烈的好奇心和学习热情;加分项:1. 有实习或项目经验,特别是在大规模分布式系统领域;2.
运维工程师 上海 全职 互联网 / 电子 / 网游 职位描述 我们是一个成熟稳重的团队,大部分时间跟机器设备打交道,机器只认规则,我们主旨是规则为先,凡事先想好再做。团队大部分是大老爷们,干脆利落,氛围不会差,日常活动主要是吃吃玩玩。岗位职责:1. 负责线上游戏、WEB等应用系统的监控、优化、更新维护以及故障处理;2. 负责日常运维工具的开发及优化;3. 负责管理并完善运维监控平台及发布平台;4. 参与全球项目及各大云服务商平台的日常运维工作;5. 参与公司自动化运维体系的建设,应用新技术,优化运维架构,提升运维效率;6. 根据领导安排,完成其他相关工作内容。任职资格:1. 全日制大学本科及以上学历,计算机相关专业;2. 熟练使用Shell/Python/Go中的一种或者多种,拥有良好的linux性能tuning能力,具备独立排错的能力和意识;3. 熟悉k8s基础架构,了解云原生工具链如Rancher、Argocd、istio、Higress或者各类ingress controller等,有生产业务应用经验优先;3. 熟练操作Linux操作系统,熟悉Linux下常见运维工具和服务的安装配置及使用,包括但不限于Tomcat、Nginx、Rsync、Ansible、Zabbix、Prometheus、ELK等;4. 熟悉CI/CD流程以及常用工具链,如Gitlab、Jenkins等,至少一年以上游戏及WEB应用的运维工作经验;5. 英语读写熟练,熟悉自动化运维开发,Devops者优先;6. 工作认真负责,有较强的沟通协调能力,具备团队协作精神,能承受一定的工作压力,偶尔需要夜间维护。我们秉承“BE WILD. BE FREE.”的品牌主张,坚持始终创业、简单务实、开放包容、勇于担当的文化理念。在这里——【态度】我们讲求自驱,不设边界,没有人能定义你的舞台和天花板;【氛围】内部真·扁平,新人的意见、不同的观点都有可能成为波克前行的关键;【成长】入职即有指导人和成长伙伴双cover,内部分享+外聘大神助你突破自我;【生活】一日三餐下午茶,房补公寓任你选,节日社团境外游.让游戏不只是工作,更是你的生活! 投递...
【技术保障】业务SRE专家 上海 全职 互联网 / 电子 / 网游 - 研发 技术类 职位描述 1. 负责公司业务系统运维工作,提升业务稳定性和工程效率,与业务方保持高效沟通,建立良好合作关系;2. 负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作;3. 参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代;4. 负责线上重大问题排查,紧急事故处理,后续事故分析与优化;5. 负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复;6. 负责应用高可用建议及管理,包括限流、降级,容错、容灾,同城多活,确保应用质量;7. 建立SLA评估标准,计算故障对SLA影响,并对SLA后续改进措施进行跟进;8. 负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。 职位要求 1. 至少5年以上互联网公司运维相关经验;2. 熟悉JVM虚拟机的内存机制、GC机制,能进行JAVA进程异常的故障定位及排查;3. 熟悉Nginx,Zookeeper, Kafka, RocketMQ等常用WEB中间件的维护与使用;4. 熟悉常见监控系统,如Zabbix,Grafana,Prometheus等;5. 熟悉Memcache、Redis、Twemproxy等开源缓存解决方案;6. 有丰富的系统故障排查和解决经验,突出的分析和解决问题的能力;7. 良好的troubleshooting思路与经验,能够快速解决线上事故;8. 至少能掌握Python/Shell/GO等一至两种语言,有项目开发经验者优先;9. 熟悉SRE运维体系者优先;10. 熟悉高并发、高可用、微服务系统架构运维者优先。 投递...
【2026届春招】业务运维工程师 上海 正式 互联网 / 电子 / 网游 技术岗位 2026届春季校园招聘 职位描述 负责游戏业务的部署、新版本的发布、服务端的变更;负责与游戏运营的日常沟通交流,接受并处理项目组提出的运维需求;负责日常运维工作的自动化、工具化建设;负责游戏业务运行状况监控,及时处理游戏运行中出现的故障,保证游戏服务的正常提供; 职位要求 专业不限,计算机、软件工程、信息管理类优先,本科或以上学历;熟悉linux操作系统,熟练使用各种linux日常命令,熟悉shell、python、golang等至少一种语言;熟悉使用mysql数据库,熟悉日常的sql语句,能够对数据库进行管理、配置、部署;了解zabbix、prometheus等至少一种开源监控方案;了解docker容器,k8s/kubernetes容器编排工具;了解各类公有云服务器、网络、安全、存储等设备和服务;具有良好文档编写和文字表达能力,以及独立思考并解决问题的能力;具有良好的沟通能力和团队合作精神。 投递...
推理部署工程师(北京上海) 北京、上海 全职 智能制造 / 工业互联网 / 工业自动化 职位描述 1 负责AI模型在生产环境中的高效推理部署,优化模型推理性能(延迟、吞吐量、资源利用率等)。2 设计并实现分布式推理架构,支持高并发、低延迟的实时推理服务。3 与算法团队协作,完成模型压缩、量化、剪枝等优化,提升模型在边缘端/云端部署的可行性。4 监控推理服务稳定性,定位并解决线上性能瓶颈和故障问题。5 探索新兴推理框架(如TensorRT、ONNX Runtime等)在生产环境的应用落地。 职位要求 1 精通Python/C++,熟悉深度学习框架(PyTorch/TensorFlow),了解模型部署全流程(训练→优化→部署)。2 熟悉Linux系统调优、Docker容器化、Kubernetes集群管理。3 具备分布式系统设计经验,熟悉RPC、消息队列等技术。4 了解GPU/TPU加速推理原理,掌握CUDA/OpenCL等并行计算技术。工程能力1 有大规模AI模型推理服务落地经验(如推荐系统、NLP、CV等场景)。2 熟悉模型监控工具(Prometheus、Grafana)及日志分析(ELK)。3 具备A/B测试、灰度发布等工程实践经验。 投递...
推理部署 上海、北京 全职 智能制造 / 工业互联网 / 工业自动化 职位描述 1 负责AI模型在生产环境中的高效推理部署,优化模型推理性能(延迟、吞吐量、资源利用率等)。2 设计并实现分布式推理架构,支持高并发、低延迟的实时推理服务。3 与算法团队协作,完成模型压缩、量化、剪枝等优化,提升模型在边缘端/云端部署的可行性。4 监控推理服务稳定性,定位并解决线上性能瓶颈和故障问题。5 探索新兴推理框架(如TensorRT、ONNX Runtime等)在生产环境的应用落地。 职位要求 职位要求1 精通Python/C++,熟悉深度学习框架(PyTorch/TensorFlow),了解模型部署全流程(训练→优化→部署)。2 熟悉Linux系统调优、Docker容器化、Kubernetes集群管理。3 具备分布式系统设计经验,熟悉RPC、消息队列等技术。4 了解GPU/TPU加速推理原理,掌握CUDA/OpenCL等并行计算技术。工程能力1 有大规模AI模型推理服务落地经验(如推荐系统、NLP、CV等场景)。2 熟悉模型监控工具(Prometheus、Grafana)及日志分析(ELK)。3 具备A/B测试、灰度发布等工程实践经验。 投递...
2026届秋招-运维工程师 上海 正式 互联网 / 电子 / 网游 技术 职位描述 职位描述1. 业务全生命周期管理:负责全球业务系统(包含容器化应用及传统应用)的部署上线、变更配置、扩缩容及版本回滚;2. 全球化CI/CD建设:维护并优化基于 GitLab/Jenkins 的自动化发布流水线,确保在不同网络环境下的构建与分发效率;3. 多云资源管理:负责全球各大云厂商(AWS/Google/阿里/腾讯等)的资源申请、网络规划(VPC/CDN/专线)及成本控制;4. 稳定性保障与排障:利用 Prometheus、ELK、ebpf 等工具建立立体化监控体系,负责线上故障(Web应用、数据库、网络层)的快速响应与根因定位;5. 自动化提效:使用 Shell/Python/GOLANG等语言 开发运维小工具,屏蔽异构环境差异,提升日常运维工作的自动化水平。 职位要求 职位要求1. 学历背景:985/211院校全日制统招本科及以上学历,计算机、网络工程、通信等相关专业2026届毕业生;2. Linux 基础:理解 Linux 操作系统原理,能操作常用命令,并对系统性能(CPU/内存/磁盘IO)进行基本分析;3. 网络协议:因涉及全球业务,需理解 TCP/IP、HTTP/HTTPS、DNS、CDN 原理,具备网络抓包分析能力;4. 技术栈认知: 1. 混合架构:既了解 Docker/Kubernetes 等云原生技术,也对
Saalex is seeking an Computer Software Engineer in China Lake, CA. Saalex is an Engineering and Information Technology Services company with a focus on Test Range Operations and Management, Engineering and Logistics Services, Data Analytics and
存储开发工程师 - 海外项目 广州 全职 职位描述 负责自动驾驶项目的存储功能开发以及持续交付 职位要求 1. 计算机相关专业本科或以上学历2. 了解常见的开源存储(ceph,hdfs等等)以及日志监控系统(ELK, Prometheus, Grafana等)3. 熟练掌握 C++、Java、Python 中至少一门编程语言,具备良好的编码与调试能力;4. 有责任心,沟通积极,有良好的文档习惯,能使用英语进行书面的沟通加分项:1. 熟悉至少一家公有云厂商及其存储/监控组件(阿里云、腾讯云、Azure、AWS 等);2. 具备存储相关运维或开发经验,有分布式存储或大数据存储项目经验者优先;3. 有容器化(Docker、Kubernetes)和云原生实践经验。 投递...