About BJAK BJAK is building the next-generation insurance and financial services platform - designed to be intuitive, intelligent and personalised. Presently we are the largest insurance platform in Southeast Asia, and expanding globally with a strong
资深运维开发工程师 热招 上海 全职 研发 职位描述 我们正在寻找一位兼具 稳定性治理能力 与 运维开发能力 的资深工程师,加入云端 SRE 团队,负责支撑业务增长阶段下的多云、多集群云原生基础设施稳定运行与持续优化。你将面向业务增长带来的稳定性、性能、容量和成本挑战,参与 Kubernetes 集群治理、Elasticsearch 等关键基础组件优化、线上故障治理、容量规划和变更风险控制。同时,你也将推动自动化运维平台和工具链建设,将线上问题沉淀为平台能力、工程规范和长期机制,提升研发、数据、安全、合规等团队的协作效率。1. 稳定性治理:负责云端基础设施及关键基础组件的稳定性建设,定位并解决线上性能瓶颈、容量风险和可用性问题,保障业务系统稳定运行;2. 性能优化:针对 Elasticsearch 等核心组件开展性能调优、容量评估、资源治理和架构优化,提升系统吞吐、查询效率和服务可靠性;3. 云原生基础设施:负责 Kubernetes 集群及 CNCF 云原生生态组件的日常运维、架构优化和稳定性提升,支撑并保障多个 Kubernetes 集群的可靠运行;4. 多云平台治理:参与阿里云 ACK、AWS EKS、GCP GKE 等多云托管 Kubernetes 环境的运维、治理和优化,提升多云环境下的可观测性、弹性、成本效率和运维一致性;5. 故障与变更管理:负责线上告警处理、故障应急、根因分析、复盘改进和生产变更管理,建立可持续的稳定性改进机制;6. 自动化与平台建设:开发和维护自动化运维平台、工具链和流程系统,提升发布、变更、巡检、告警、权限、资源交付等环节的自动化水平;7. 跨团队协作:与后端研发、数据、安全、合规等团队紧密协作,推动基础设施问题定位、流程规范、权限治理、合规要求和稳定性改进落地。
主要职责: 监督云计算基础设施系统和服务的日常技术运营。开发和维护Azure和AWS登陆区、云枢纽共享服务系统。 负责提供端到端交付,支持云网络服务,涵盖云、VPN、Direct Connect/ExpressRoute、本地数据中心和广域网。 与同行合作,制定和维护流程、程序、政策、控制标准,并提供创新解决方案。通过咨询和实践专业知识,推动和扩展运营任务的自动化与协调。构建并维护基础设施即代码(IaC)用于资源管理。 配置、部署并实施区域性云枢纽网络结构。为初级团队成员提供技术指导。协调与亚太区及全球团队的网络变更。 提供云服务中的基础设施和网络的专业支持。设计、构建并实施可观察性的工具,与团队标准保持一致,确保安全部署,并为所有本地业务单位和IT应用项目执行合规和安全标准。 提供支持和专业知识,帮助排查支持云计算平台及工作负载上的问题。参与解决IT事故和分析事故原因。根据需要参与安全事件响应和调查。 需要根据突发情况在非工作时间随时支持工作开展。 管理所有系统、应用、安全变更、升级及新项目的文档编写。 与其他团队合作,建立新技术解决方案并部署测试环境。 管理供应商合同及服务协议,控制成本。 职位要求: 擅长于AWS / Azure网络、VPC、vNet、ExpressRoute、Direct Connect、VPN。熟悉Azure vWAN、AWS云域网架构、网关和负载均衡器。云网络和流量监控,诊断技能。枢纽网络架构设计。防火墙、DNS和云AD服务。还包括本地DC网络技能、广域网、交换机、路由器和路由协议。 Azure 和 AWS 服务,如策略、蓝图、ARM 模板、备份与站点恢复、安全中心、IAM、AD、CloudFormation、日志、控制塔、护栏、ECS、EKS、AKS、RDS、Azure SQL 等各种云原生代码开发和部署工具。 Azure DevOps、Github、Jira 经验、配置、编程和脚本语言/工具,例如 Powershell、Cloud Formation、Bash、Python、JSON、YUML 等。 扎实的Terraform(IaC)编程技能和Terraform云平台经验。 拥有管理多样化云基础设施环境的经验。 领导能力强。能够与多地理地点合作,协作工作环境。 良好的工作态度和强大的解决问题沟通能力。 主要职责: 监督云计算基础设施系统和服务的日常技术运营。开发和维护Azure和AWS登陆区、云枢纽共享服务系统。
高级云原生架构师 (多云与网关方向) Shanghai Experienced Full-time Responsibilities 定位:主攻全球 AWS + 国内阿里云的双云架构,解决跨域网络、存储、计算以及 Service Mesh 的演进。【我们在做什么】1、TripoAI 正在构建全球领先的 3D 生成式 AI 平台。我们的用户遍布全球,这意味着我们需要一套真正具备全球化视野的底层架构。2、对于 Infra 团队,我们的使命不仅是“系统不挂”,而是重新定义 AI 时代的云计算架构。3、我们需要一位能在全球 AWS 和国内阿里云之间游刃有余的云原生架构师,来构建高可用、低延迟的全球算力与流量底座。如果你厌倦了在单一机房里修修补补,渴望操盘横跨大洋的多云架构,设计支撑海量 3D 数据流的高性能网关,这里是你的战场。【你将面临的挑战与职责】1、多云与混合云架构设计:主导 TripoAI 基于全球 AWS 和国内阿里云的基础设施建设,统一网络、计算和存储的标准化接入,屏蔽底层云厂商差异。2、全球化高可用网关:设计并演进高性能的 API 网关与算法网关,处理跨区域(Multi-Region)的流量调度、容灾切换,确保全球用户访问的极低延迟。3、Service Mesh 与微服务治理:与现有的 Mesh 专家配合,深化微服务治理体系,解决
高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SRE、DevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如
运维工程师(云原生与数据库方向) 北京 全职 本科及以上 职位描述 1. 云平台管理:负责阿里云日常运维与架构优化,深度使用 ACK、CEN、ECI、ACR、ECS、VPC、SLB、OSS 等产品;构建操作审计与合规追踪体系。2. 容器化运维:管理 ACK 集群生命周期,掌握核心组件原理;编写高质量 Dockerfile 及 K8s YAML/Helm Charts;负责容器资源调优、启动加速及底层问题排查。3. 数据库与缓存:维护 TiDB 集群的扩容、备份及 SQL 调优,理解 TiKV 机制;维护 Redis 高可用架构,处理性能瓶颈与持久化策略。4. CI/CD 与 GitLab:维护自托管 GitLab 及 Runner,设计并优化多阶段 CI/CD 流水线,管理代码库权限与分支策略。5. 系统与网络排查:精通 Linux
Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Join us as an Assistant Manager, DevOps and lead our cloud infrastructure and DevOps operations. Oversee cloud environments to ensure performance, security, and scalability, while guiding a skilled team toward operational excellence. The Job: 1. DevOps
Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient