Company: Qualcomm China Job Area:Engineering Group, Engineering Group Hardware Applications Engineering General Summary: Job Summary We are seeking a highly experienced Principle/Senior ASIC Design support Manager to lead end-to-end ASIC/SoC design outsourcing projects. You will be responsible
Company Description Do you want beneficial technologies being shaped by your ideas? Whether in the areas of mobility solutions, consumer goods, industrial technology or energy and building technology - with us, you will have the chance
高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SRE、DevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如 vLLM,