【技术保障】高级Devops架构师/TL 上海 全职 互联网 / 电子 / 网游 - 研发 技术类 职位描述 1、负责运维开发体系设计和主导建设,根据业务和运维的当前现状制定合适的演进路线;2、负责devops系统的整体架构设计、产品形态定义、核心代码逻辑编写等;3、和业务开发、运维保持良好的沟通,密切配合,开发合适的工具提升整体研发效率;4、关注业内devops体系发展,结合内部实际引入最佳实践。 职位要求 1、计算机相关专业本科毕业,5年以上的工作经验;2、熟悉Java、Python、Golang任一编程语言,并有丰富的实践和调优经验;3、熟悉运维体系,对于监控、SRE、故障应急响应等都有一定的了解,最好有相关产品的设计和开发经验;4、熟悉常用的中间件,比如Kafka、MQ、Nginx等等,熟悉K8s和Docker;5、有AIOPS相关经验的优先考虑。 投递...
高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SRE、DevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如 vLLM,
Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient
Introduction The Pepperstone story started in 2010. We know what it’s like to trade the world’s markets. Our team describes us as a place for the curious and the driven, and we like to do things
【集团】业财系统技术架构师 上海 全职 职位描述 1. 技术架构设计与规划:主导业财系统数据架构集成架构设计,制定技术标准与规范,构建支撑全球业务的业财一体化平台;主导技术选型(开发语言、框架、中间件、数据库),把控技术债务与演进节奏。2. 核心模块研发与攻关:负责业财系统核心模块(应收应付、会计引擎)的设计与核心代码实现,主导技术难点攻关,确保系统高性能、高可用、易扩展。3. 跨国系统集成:主导业财系统与SAP/NCC、快递业务系统、支付系统、银行系统、税务系统等上下游系统的集成设计与开发,解决跨系统事务一致性、数据同步等复杂问题。4. 运维体系建设:建立业财系统运维体系,设计并落地监控告警、日志分析、故障应急、容量规划等能力,保障系统7×24稳定运行;推动DevOps/SRE实践,提升团队交付效率与系统可靠性。5. 复杂项目群管理:作为技术负责人,协同研发、测试、业务方及外部供应商,推动大型跨模块项目按时高质量落地;对项目优先级、技术风险、资源冲突做出高效决策。 职位要求 技术要求1. 后端技术能力- 精通 Java(Spring Boot / Spring Cloud / MyBatis / JPA),具备高并发、高可用企业级系统开发经验- 精通 微服务架构(服务拆分、API网关、分布式事务 Seata/Saga、服务治理灰度发布)- 精通 消息队列(Kafka / RabbitMQ)在财务场景中的应用(如异步对账、事件驱动结算)2. 数据库与存储- 精通 MySQL / PostgreSQL 设计与调优,熟悉读写分离、分库分表、数据库中间件(ShardingSphere/MyCat)- 熟悉
资深运维开发工程师 热招 上海 全职 研发 职位描述 我们正在寻找一位兼具 稳定性治理能力 与 运维开发能力 的资深工程师,加入云端 SRE 团队,负责支撑业务增长阶段下的多云、多集群云原生基础设施稳定运行与持续优化。你将面向业务增长带来的稳定性、性能、容量和成本挑战,参与 Kubernetes 集群治理、Elasticsearch 等关键基础组件优化、线上故障治理、容量规划和变更风险控制。同时,你也将推动自动化运维平台和工具链建设,将线上问题沉淀为平台能力、工程规范和长期机制,提升研发、数据、安全、合规等团队的协作效率。1. 稳定性治理:负责云端基础设施及关键基础组件的稳定性建设,定位并解决线上性能瓶颈、容量风险和可用性问题,保障业务系统稳定运行;2. 性能优化:针对 Elasticsearch 等核心组件开展性能调优、容量评估、资源治理和架构优化,提升系统吞吐、查询效率和服务可靠性;3. 云原生基础设施:负责 Kubernetes 集群及 CNCF 云原生生态组件的日常运维、架构优化和稳定性提升,支撑并保障多个 Kubernetes 集群的可靠运行;4. 多云平台治理:参与阿里云 ACK、AWS EKS、GCP GKE 等多云托管 Kubernetes 环境的运维、治理和优化,提升多云环境下的可观测性、弹性、成本效率和运维一致性;5. 故障与变更管理:负责线上告警处理、故障应急、根因分析、复盘改进和生产变更管理,建立可持续的稳定性改进机制;6. 自动化与平台建设:开发和维护自动化运维平台、工具链和流程系统,提升发布、变更、巡检、告警、权限、资源交付等环节的自动化水平;7. 跨团队协作:与后端研发、数据、安全、合规等团队紧密协作,推动基础设施问题定位、流程规范、权限治理、合规要求和稳定性改进落地。
系统研发工程师(云原生方向) 上海、北京 社招 全职 互联网 / 电子 / 网游 职位描述 - 参与建设和维护 AI Infra 相关的平台系统,包括但不限于 CMDB(配置管理数据库)、流程引擎、工单系统、故障流转系统、业务资源平台、底层资产平台等;- 负责平台系统的架构设计、核心模块研发、性能优化与可扩展性改造,提升系统稳定性与工程效率;- 打通资源编排、调度平台与 CMDB/工单/流程系统的数据链路,构建覆盖资源生命周期的自动化管理能力;- 支撑 AI 训练/推理/大模型平台对底层资源的自动化获取、管控与治理能力,服务于模型全生命周期管理;- 设计和实现高可用、模块化、服务化的系统组件,保障在大规模机器和多业务环境下的可扩展性;- 与算法平台、调度系统、SRE 运维团队协同,对接跨团队需求,推动平台系统落地与演进;- 编写高质量文档、推动平台规范制定,提升系统可运维性、可观测性、可复用性。 职位要求 - 本科及以上学历,计算机、软件工程等相关专业,3 年以上平台系统研发经验;- 熟练掌握 Go / Java / Python 等主流语言中的一到两种,具备良好的系统设计与编码能力;-
Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient