运维开发工程师南京全职互联网 / 电子 / 网游职位描述1. 国绕数据平台,设计开发任务调度平台(Restful,Cli 工貝等)2.理解业务需求,设计、开发、测试、维护机器数据平台的工程部分3.数据中心的运维平台自动化工具链/系统开发4. 设计建设并持续优化报警平台,设计开发健康检测以增强告警实时性并提高系统稳定性5. 梳理优化系统中的数据变化流程,保障运维数据准确、安全有效的传递6. 设计开发并推动各项预案建设,容灾系统,持续提升硏发效率7. 关注性能和可用性,并持续不断进行优化职位要求1. 具有5年或以上 Python 开发经验2. 熟悉 Django/Flask/FastAPI 等任意 Web 框架一种或者多种3.熟悉 PostgresQL 或 MySQL 数据库操作,熟悉SQL 语句编写和性能调优4. 理解并使用过源码管理工具/单元测试框架 /自动化测试工貝5.熟悉 Linux/Unix 系统 网络硬件等相关知识,具有较强的问题定位能力6. 熟悉至少一种监控平台:Grafana+Prometheus,EKS, zabbix7.至少使用过一种自动化部署工具 Ansitble,Terraform, ArgoCD8.对以下工具部分有所了解的优先: Vagrant /Docker / ClickHouse
Objectives: Conduct electrical product safety test as well as performance test on electrical products according to standards or testing methods Duties & Responsibilities: Respect and apply the test program defined by the offer. Pick the samples
SRE工程师热招深圳全职研发热招职位职位描述1、负责业务基础环境建设与维护,保障系统稳定运行;2、推进DevSecOps,协同安全部门落实安全要求与政策,提升企业安全水平;3、维护容器平台稳定性,完善监控与应急机制,确保故障快速定位与恢复;4、建设与优化流量治理、可观测和应急响应体系;5、通过自动化工具链与平台的构建,持续优化并提升交付效率与质量。职位要求1. 本科及以上学历,计算机科学、软件工程或相关专业优先;2. 3年以上系统运维/SRE/DevOps经验;有大规模容器集群管理或云环境项目经验者优先,制造业/全球分布式系统背景加分;3. 容器与编排:精通Docker与Kubernetes(K8s),具备大规模集群管理、升级/迁移经验(如100+节点环境),熟悉Helm/Kustomize包管理;4、掌握安全集成方法,如容器安全基线(CIS Benchmarks)、CI/CD安全插件(SonarQube、Trivy)、配置管理安全(Secrets管理、RBAC);5、熟悉AWS(EKS/ECS)、阿里云(ACK)或GCP(GKE)等主流服务,包括云网络、存储与安全配置;有混合云部署经验优先;6、掌握至少一门脚本语言(如Python/Go/Shell),用于工具开发、API集成与自动化运维(如Ansible playbook、Python监控脚本);7、软性素质: - 高度责任心:对系统可靠性有强主人翁感,能主动识别风险并推动改进; - 沟通协作能力:跨团队(开发、安全、业务)高效协调,善于根因分析与问题复盘; - 应对挑战:高压环境下保持冷静,快速学习新技术,支持24/7 on-call(轮值响应)。投递...
About BJAK BJAK is building the next-generation insurance and financial services platform - designed to be intuitive, intelligent and personalised. Presently we are the largest insurance platform in Southeast Asia, and expanding globally with a strong
资深运维开发工程师 热招 上海 全职 研发 职位描述 我们正在寻找一位兼具 稳定性治理能力 与 运维开发能力 的资深工程师,加入云端 SRE 团队,负责支撑业务增长阶段下的多云、多集群云原生基础设施稳定运行与持续优化。你将面向业务增长带来的稳定性、性能、容量和成本挑战,参与 Kubernetes 集群治理、Elasticsearch 等关键基础组件优化、线上故障治理、容量规划和变更风险控制。同时,你也将推动自动化运维平台和工具链建设,将线上问题沉淀为平台能力、工程规范和长期机制,提升研发、数据、安全、合规等团队的协作效率。1. 稳定性治理:负责云端基础设施及关键基础组件的稳定性建设,定位并解决线上性能瓶颈、容量风险和可用性问题,保障业务系统稳定运行;2. 性能优化:针对 Elasticsearch 等核心组件开展性能调优、容量评估、资源治理和架构优化,提升系统吞吐、查询效率和服务可靠性;3. 云原生基础设施:负责 Kubernetes 集群及 CNCF 云原生生态组件的日常运维、架构优化和稳定性提升,支撑并保障多个 Kubernetes 集群的可靠运行;4. 多云平台治理:参与阿里云 ACK、AWS EKS、GCP GKE 等多云托管 Kubernetes 环境的运维、治理和优化,提升多云环境下的可观测性、弹性、成本效率和运维一致性;5. 故障与变更管理:负责线上告警处理、故障应急、根因分析、复盘改进和生产变更管理,建立可持续的稳定性改进机制;6. 自动化与平台建设:开发和维护自动化运维平台、工具链和流程系统,提升发布、变更、巡检、告警、权限、资源交付等环节的自动化水平;7. 跨团队协作:与后端研发、数据、安全、合规等团队紧密协作,推动基础设施问题定位、流程规范、权限治理、合规要求和稳定性改进落地。
主要职责: 监督云计算基础设施系统和服务的日常技术运营。开发和维护Azure和AWS登陆区、云枢纽共享服务系统。 负责提供端到端交付,支持云网络服务,涵盖云、VPN、Direct Connect/ExpressRoute、本地数据中心和广域网。 与同行合作,制定和维护流程、程序、政策、控制标准,并提供创新解决方案。通过咨询和实践专业知识,推动和扩展运营任务的自动化与协调。构建并维护基础设施即代码(IaC)用于资源管理。 配置、部署并实施区域性云枢纽网络结构。为初级团队成员提供技术指导。协调与亚太区及全球团队的网络变更。 提供云服务中的基础设施和网络的专业支持。设计、构建并实施可观察性的工具,与团队标准保持一致,确保安全部署,并为所有本地业务单位和IT应用项目执行合规和安全标准。 提供支持和专业知识,帮助排查支持云计算平台及工作负载上的问题。参与解决IT事故和分析事故原因。根据需要参与安全事件响应和调查。 需要根据突发情况在非工作时间随时支持工作开展。 管理所有系统、应用、安全变更、升级及新项目的文档编写。 与其他团队合作,建立新技术解决方案并部署测试环境。 管理供应商合同及服务协议,控制成本。 职位要求: 擅长于AWS / Azure网络、VPC、vNet、ExpressRoute、Direct Connect、VPN。熟悉Azure vWAN、AWS云域网架构、网关和负载均衡器。云网络和流量监控,诊断技能。枢纽网络架构设计。防火墙、DNS和云AD服务。还包括本地DC网络技能、广域网、交换机、路由器和路由协议。 Azure 和 AWS 服务,如策略、蓝图、ARM 模板、备份与站点恢复、安全中心、IAM、AD、CloudFormation、日志、控制塔、护栏、ECS、EKS、AKS、RDS、Azure SQL 等各种云原生代码开发和部署工具。 Azure DevOps、Github、Jira 经验、配置、编程和脚本语言/工具,例如 Powershell、Cloud Formation、Bash、Python、JSON、YUML 等。 扎实的Terraform(IaC)编程技能和Terraform云平台经验。 拥有管理多样化云基础设施环境的经验。 领导能力强。能够与多地理地点合作,协作工作环境。 良好的工作态度和强大的解决问题沟通能力。 主要职责: 监督云计算基础设施系统和服务的日常技术运营。开发和维护Azure和AWS登陆区、云枢纽共享服务系统。
高级云原生架构师 (多云与网关方向) Shanghai Experienced Full-time Responsibilities 定位:主攻全球 AWS + 国内阿里云的双云架构,解决跨域网络、存储、计算以及 Service Mesh 的演进。【我们在做什么】1、TripoAI 正在构建全球领先的 3D 生成式 AI 平台。我们的用户遍布全球,这意味着我们需要一套真正具备全球化视野的底层架构。2、对于 Infra 团队,我们的使命不仅是“系统不挂”,而是重新定义 AI 时代的云计算架构。3、我们需要一位能在全球 AWS 和国内阿里云之间游刃有余的云原生架构师,来构建高可用、低延迟的全球算力与流量底座。如果你厌倦了在单一机房里修修补补,渴望操盘横跨大洋的多云架构,设计支撑海量 3D 数据流的高性能网关,这里是你的战场。【你将面临的挑战与职责】1、多云与混合云架构设计:主导 TripoAI 基于全球 AWS 和国内阿里云的基础设施建设,统一网络、计算和存储的标准化接入,屏蔽底层云厂商差异。2、全球化高可用网关:设计并演进高性能的 API 网关与算法网关,处理跨区域(Multi-Region)的流量调度、容灾切换,确保全球用户访问的极低延迟。3、Service Mesh 与微服务治理:与现有的 Mesh 专家配合,深化微服务治理体系,解决
高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SRE、DevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如
运维工程师(云原生与数据库方向) 北京 全职 本科及以上 职位描述 1. 云平台管理:负责阿里云日常运维与架构优化,深度使用 ACK、CEN、ECI、ACR、ECS、VPC、SLB、OSS 等产品;构建操作审计与合规追踪体系。2. 容器化运维:管理 ACK 集群生命周期,掌握核心组件原理;编写高质量 Dockerfile 及 K8s YAML/Helm Charts;负责容器资源调优、启动加速及底层问题排查。3. 数据库与缓存:维护 TiDB 集群的扩容、备份及 SQL 调优,理解 TiKV 机制;维护 Redis 高可用架构,处理性能瓶颈与持久化策略。4. CI/CD 与 GitLab:维护自托管 GitLab 及 Runner,设计并优化多阶段 CI/CD 流水线,管理代码库权限与分支策略。5. 系统与网络排查:精通 Linux
Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Join us as an Assistant Manager, DevOps and lead our cloud infrastructure and DevOps operations. Oversee cloud environments to ensure performance, security, and scalability, while guiding a skilled team toward operational excellence. The Job: 1. DevOps
Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient
¿Qué buscamos? Perfil técnico sólido en AWS (arquitectura y desarrollo). Experiencia en frameworks Cloud: IaC, CI/CD y ciclo DevOps. Experiencia práctica con: AWS Terraform GitHub Actions Snowflake Docker / ECR Kubernetes / EKS Airflow / MWAA Experiencia