AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1. 基础架构与容器技术:精通 Linux
服务端研发实习生(AI Agent方向) 上海 校招 实习 互联网 / 电子 / 网游 职位描述 1. 参与 MiniMax Agent 相关产品的服务端研发;2. 参与 Agent 工具调用、任务执行、上下文管理、日志追踪等能力建设;3. 参与服务端接口、业务逻辑、数据存储、任务调度等模块开发;4. 与产品、前端、算法、测试团队协作,推动 AI Agent 能力落地。 职位要求 1. 本科及以上在读,计算机、软件工程、人工智能等相关专业优先;2. 每周可实习 4 天及以上,能连续实习 6 个月以上优先;3. 代码能力扎实,熟悉 Python / Go / Java
高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SRE、DevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如 vLLM, TensorRT-LLM)的基础设施支撑,有4090或 A100/H100等GPU集群稳定性保障经验者优先。5、代码开发能力:熟练掌握Python或Go至少一门语言(同时掌握者大加分),具备良好的算法基础与代码规范,有独立主导或开发中大型自动化运维平台、API 接口、或
AI全栈开发实习生 上海 实习 职位描述 协助参与 ERP、WMS、CRM、OA 等内部系统前后端迭代开发,借助 AI 开发工具辅助编码、调试与自测;配合运用大模型、Agent 相关能力优化产品功能与研发流程,协助架构优化、BUG 排查、接口开发,联动产品落地业务需求,完成日常代码维护与版本管理。 职位要求 计算机、软件工程等相关专业,可长期稳定实习;掌握 Java/Python/Go/Node 任一后端语言,熟悉 HTML/CSS/JS,了解 Vue/React 优先;了解 MySQL 等数据库基础,懂数据结构,会 Git 基础操作,具备规范编码习惯;热衷 AI 赋能开发,接触过 LangChain、RAG、Agent 项目或课程实践优先;了解缓存、MQ、微服务基础知识加分。 投递...
We help the world run better At SAP, we keep it simple: you bring your best to us, and well bring out the best in you. Were builders touching over 20 industries and 80% of global
We help the world run better At SAP, we keep it simple: you bring your best to us, and well bring out the best in you. Were builders touching over 20 industries and 80% of global
Company: Qualcomm China Job Area:Engineering Group, Engineering Group Software Engineering General Summary: Role Summary We are seeking a AI solution Software Engineer focused on end-to-end latency optimization across heterogeneous compute IPs (GPU, NPU, ISP, CPU). You will
全栈软件工程师(AI数据方向) 上海 正式 智能制造 / 工业互联网 / 工业自动化 职位描述 1、参与机器人相关软件前后端开发工作。2、参与机器人sdk与demo开发,提升用户体验。3、参与需求分析、设计方案评审,编写应用程序的用户手册和技术文档。4、开源社区协作,收集社区开发者反馈并迭代软件功能。 职位要求 一、必要项:1、理工科相关专业,硕士及以上学历。2、熟悉前后端技术,需掌握前端和后端编程语言各至少一种,如js/ts、html、Python、c++、java。3、有较强的学习能力和钻研精神。二、加分项1、熟悉React、Electron 、node.js、微服务等技术。2、了解 DevOps(GitHub/Docker/自动化测试)。 投递...
增长技术专家 北京、上海 社招 全职 互联网 / 电子 / 网游 职位描述 1. 参与公司增长技术基建建设,支持多业务线的增长投放、归因、回传、埋点、渠道分析等需求。2. 负责增长链路中的核心系统开发,包括用户行为采集、渠道标识、转化回传、归因规则、数据处理等。3. 打通不同端和不同渠道的数据链路,提升增长数据的完整性、准确性和可追踪性。4. 支持增长实验和投放优化,协助业务分析不同渠道、落地页、产品路径的转化效果。5. 排查增长链路中的数据异常、归因异常、回传失败、口径不一致等问题。 职位要求 1. 3 年以上后端/服务端/增长技术/广告技术/数据平台相关研发经验。2. 熟悉 Go、Java、Python、Node.js 等至少一种后端开发语言。3. 熟悉接口设计、任务调度、日志采集、消息队列、数据库、缓存等服务端基础能力。4. 有埋点、归因、广告回传、渠道追踪、A/B 实验、数据平台等相关经验优先。5. 对增长业务有兴趣,能理解新增、激活、留存、转化、投放 ROI 等基本指标。6. 具备较强的问题定位和跨团队协作能力。【加分项】1. 有 PC 客户端、App、Web 多端增长链路建设经验。2. 有广告平台、营销平台、投放平台、归因平台经验。3. 有 AI 产品、工具类产品、出海产品增长技术经验。
Meta is seeking a Silicon Partnerships Manager to drive strategic engagement with external silicon partners and semiconductor suppliers supporting Metas custom silicon programs across AR/VR, AI infrastructure, and consumer hardware products. In this role, you will serve
Welcome to Haleon. We’re a purpose-driven, world-class consumer company putting everyday health in the hands of millions. In just three years since our launch, we’ve grown, evolved and are now entering an exciting new chapter –
About Airwallex Airwallex is the only unified payments and financial platform for global businesses. Powered by our unique combination of proprietary infrastructure and software, we empower over 200,000 businesses worldwide – including Brex, Rippling, Navan, Qantas,
The mission of Speechify is to make sure that reading is never a barrier to learning. Over 50 million people use Speechify’s text-to-speech products to turn whatever they’re reading – PDFs, books, Google Docs, news articles,
Your Challenge The Backend Engineer is responsible for the system to work behind the scenes. The role is to integrate the application with all required systems and services and provide clean and easy-to-use API for the